
12月5-6日,2024中國生成式AI大會(上海站)「GenAICon 2024」將在上海中星鉑爾曼大酒店盛大舉辦。中國(guo)生成(cheng)(cheng)式(shi)(shi)AI大會(hui)已(yi)成(cheng)(cheng)功舉辦兩屆,迅速(su)成(cheng)(cheng)長為國(guo)內生成(cheng)(cheng)式(shi)(shi)AI領域最具影響力的產業峰會(hui)之(zhi)一。
此次也是中國生成式AI大會首次登陸上海舉辦,由智一科技旗下智能產業第一媒體智東西、AI與硬科技知識分享社區智猩猩共同發起。上海市人工智能行業協會為(wei)本次大會的(de)指(zhi)導單位。
大會(hui)上海站以“智能躍(yue)進(jin) 創造(zao)無限”為主(zhu)題(ti),將(jiang)(jiang)設置“主(zhu)會(hui)場(chang)(chang)(chang)峰會(hui)+分(fen)會(hui)場(chang)(chang)(chang)研討會(hui)+展(zhan)覽區(qu)”。其中,主(zhu)會(hui)場(chang)(chang)(chang)將(jiang)(jiang)進(jin)行(xing)大模型峰會(hui)、AI Infra峰會(hui),分(fen)會(hui)場(chang)(chang)(chang)將(jiang)(jiang)組織端側生(sheng)成(cheng)(cheng)式(shi)AI、AI視(shi)頻(pin)生(sheng)成(cheng)(cheng)和(he)具身智能三(san)場(chang)(chang)(chang)技術研討會(hui)。主(zhu)會(hui)場(chang)(chang)(chang)與(yu)分(fen)會(hui)場(chang)(chang)(chang)外(wai)則設有展(zhan)覽區(qu)。
50+位嘉賓將在大會(hui)上帶來(lai)致辭、演講、報告和對話討論(lun),以前瞻性視角為(wei)大家解構(gou)和把(ba)脈生成式AI的技術(shu)產品創新、商業落地(di)解法、未來(lai)趨勢走向與(yu)前沿研究焦點。
作為大會上海站的三場技術研討會之一,AI視頻生成技術研討會將在第二日上午的分會(hui)場進行,由主題報(bao)告和圓(yuan)桌Panel兩個環(huan)節組成。
Sora自年初問(wen)世(shi)以來(lai),AI視頻生(sheng)(sheng)成領(ling)域風起云涌,到年末來(lai)看,國內外都(dou)(dou)已(yi)是(shi)群雄逐鹿的局面(mian)。盡管如(ru)此,依舊有(you)不少(shao)重要問(wen)題(ti)有(you)待解(jie)決。目前,從學術界到工業界,都(dou)(dou)在致力于(yu)解(jie)決AI視頻生(sheng)(sheng)成尚未解(jie)決的問(wen)題(ti),以期為(wei)視頻生(sheng)(sheng)成大模(mo)型及應用產品帶來(lai)更優(you)質(zhi)的體驗。
一、上海站三場研討會之一,完整議程公布
目(mu)前,AI視(shi)(shi)頻生(sheng)(sheng)成(cheng)技(ji)(ji)術(shu)研討會(hui)邀請到中(zhong)存算(suan)董(dong)事長(chang)陳(chen)巍,上海交通大(da)學人工(gong)智能(neng)研究院助理(li)教授晏軼超,新壹科(ke)技(ji)(ji)AI算(suan)法(fa)主任架構(gou)師(shi)李璋,井(jing)英科(ke)技(ji)(ji)聯(lian)合創始人、CTO王健,曠(kuang)視(shi)(shi)研究院高級研究員李華(hua)東5位(wei)青年學者和技(ji)(ji)術(shu)專(zhuan)家帶(dai)來(lai)報(bao)告,將(jiang)圍繞視(shi)(shi)頻大(da)模型(xing)架構(gou)比較、三維數字(zi)人視(shi)(shi)頻生(sheng)(sheng)成(cheng)、面(mian)向(xiang)數字(zi)人生(sheng)(sheng)成(cheng)的視(shi)(shi)頻垂直大(da)模型(xing)、AI短劇技(ji)(ji)術(shu)突破、可控人物視(shi)(shi)頻生(sheng)(sheng)成(cheng)展開(kai)講解。
視頻大模型(VLM)正與短視頻產業結合并迎來新爆發點。中存算董事長陳巍將圍繞《視頻大模型架構對比及長序列模型加速》這一主題,從視頻生(sheng)成大模型與世界模型的視角出發,對比主流架構(如NaViT、RADM),探討內存墻(qiang)和通(tong)信墻(qiang)對視頻大模型GPGPU/TPU集群訓練(lian)和部(bu)署的挑戰,并(bing)分享算力芯片級訓練(lian)部(bu)署的解決方案和系統經驗。
三維高斯、大模型等技術在過去一年快速發展,并與數字人技術進行了廣泛結合。上海交通大學人工智能研究院助理教授晏軼超將帶來主題為《先驗引導的三維數字人視頻生成》的報(bao)告,從數(shu)(shu)字(zi)人重建、生成(cheng)與(yu)編(bian)輯等方向介紹三維數(shu)(shu)字(zi)人視頻生成(cheng)的最新進(jin)展,并(bing)探討三維數(shu)(shu)字(zi)人技術(shu)的發展趨勢。
在生成式AI技術的推動下,智能數字人已成為內容創作的重要方向。新壹科技AI算法主任架構師李璋將圍繞《視頻垂直大模型在智能數字人生成中的應用》,介紹從通用(yong)大(da)模(mo)型(xing)(xing)到垂(chui)直大(da)模(mo)型(xing)(xing)的(de)技術演(yan)進,講解新壹視頻大(da)模(mo)型(xing)(xing)在數字人視頻生成(cheng)(cheng)中的(de)核心(xin)技術突破,并深(shen)入(ru)分析如何實現自然語言(yan)驅動的(de)動作(zuo)與表情生成(cheng)(cheng),還將(jiang)展示其在相(xiang)關領域(yu)的(de)典型(xing)(xing)應用(yong)案(an)例。
近期,井英科技通過視頻生成模型實現了100分鐘以上短視頻的制作,并成功實現了用戶付費觀看的商業模式。公司聯合創始人、CTO王健將在此次論壇上將分享AI短劇從最初的不可行到現如今可行的關鍵技術突破,主題為《AI短劇拐點背后的技術突破》。
隨著短視頻、影視和游戲動畫的快速發展,傳統的視頻制作方式因耗時耗力而逐漸顯現局限性。視頻生成大模型算法為高效生成高質量視頻提供了新選擇,但現有算法的生成內容可控性不足。曠視研究院高級研究員李華東將以《可控人物視頻生成》為主題(ti),介紹(shao)支持混合(he)模(mo)態控制的人像視頻生(sheng)成算法MegActor 系列(lie)工作。
主題報告環節結束后的圓桌Panel,將由中存算董(dong)事長陳巍,上海交(jiao)通大(da)學人工智能研究(jiu)院(yuan)助(zhu)理教授晏軼超,井英科技聯合(he)創始人、CTO王(wang)健,以及(ji)曠視(shi)研究(jiu)院(yuan)高級研究(jiu)員李華東一起帶(dai)來。
二、五位學者專家多維度講解AI視頻生成
1、中存算董事長 陳巍
陳(chen)巍博(bo)士,大模型+AI芯片專(zhuan)家,高級職稱,中存(cun)(cun)算等企(qi)業董事長。國際(ji)計算機學會(hui)(ACM)、中國計算機學會(hui)(CCF)專(zhuan)業會(hui)員,多個國際(ji)人工(gong)智能(neng)期刊審稿人。主要研究(jiu)方向為大模型架構、稀疏量化(hua)壓縮(suo)與(yu)部署加速,存(cun)(cun)算一體與(yu)3D Chiplet處理器,相關技(ji)術成果已被廣泛應用于知名IDC和(he)互聯網企(qi)業。
曾任(ren)領域(yu)知名(ming)人(ren)工(gong)智能(neng)(自然(ran)語言處理)企業首(shou)席科學家,中國(guo)科學院(yuan)副(fu)主(zhu)任(ren)(2012),多個(ge)國(guo)家科技(ji)(ji)重大專項課(ke)題負責人(ren)。中國(guo)與(yu)美國(guo)發明專利軟件(jian)著作權(quan)約70+項(約50+項發明專利已授權(quan))。著有(you)《Sora大模(mo)型技(ji)(ji)術精要—原理、關鍵技(ji)(ji)術、模(mo)型架構與(yu)未來趨勢(shi)》《GPT-4大模(mo)型硬核(he)解讀》《ChatGPT大模(mo)型技(ji)(ji)術精要—發展歷程、原理、技(ji)(ji)術架構詳解和產(chan)業未來》《智能(neng)網聯汽(qi)車(che):激光與(yu)視覺SLAM詳解》等。
報告主題:《視頻大模型架構對比及長序列模型加速》
內容概要:隨(sui)著大模型(xing)技術的(de)(de)快速發展(zhan),視(shi)頻(pin)大模型(xing)(VLM)正(zheng)與短(duan)視(shi)頻(pin)產業結合并(bing)迎來新的(de)(de)爆發機(ji)遇(yu),逐漸(jian)成為互(hu)聯網應(ying)用(yong)的(de)(de)熱(re)點(dian)。
本次分享從視頻大模型與世界模型的角度,對比主流視頻生成大模型架構,探討視頻生成的關鍵技術(包括NaViT、RADM等),分析視頻生成類大模型的主要挑戰與發展趨勢;探討內存墻(Memory Wall)和通信墻對視頻大模型GPGPU/TPU集群訓練和部署的挑戰,并針對這類視頻長序列模型的算力芯片級訓練部署,結合具體項目給出軟硬結合的解決方案與系統經驗。
2、上海交通大學人工智能研究院助理教授 晏軼超
晏軼超(chao),上(shang)海交通大學(xue)(xue)人(ren)工(gong)智(zhi)能研(yan)究(jiu)(jiu)院(yuan)助(zhu)理(li)教授,博(bo)士(shi)生導(dao)師。獲上(shang)海交通大學(xue)(xue)電子工(gong)程系學(xue)(xue)士(shi)、博(bo)士(shi)學(xue)(xue)位(wei),法國里(li)昂(ang)中央理(li)工(gong)學(xue)(xue)院(yuan)碩士(shi)學(xue)(xue)位(wei),曾(ceng)擔任(ren)阿聯酋起源人(ren)工(gong)智(zhi)能研(yan)究(jiu)(jiu)院(yuan)研(yan)究(jiu)(jiu)科(ke)學(xue)(xue)家(jia)。主(zhu)要(yao)研(yan)究(jiu)(jiu)方向為AIGC及三維數字人(ren)技術(shu),發表包括TPAMI、CVPR、NeurIPS在內的(de)論文40余篇。先(xian)后主(zhu)持國家(jia)自(zi)然科(ke)學(xue)(xue)基金(jin)青年(nian)項(xiang)目(mu)、CCF-阿里(li)巴巴青年(nian)科(ke)學(xue)(xue)家(jia)基金(jin)等項(xiang)目(mu)8項(xiang)。曾(ceng)入選上(shang)海市海外高層次人(ren)才計(ji)劃,獲2020年(nian)度中國圖(tu)象圖(tu)形學(xue)(xue)學(xue)(xue)會優秀博(bo)士(shi)論文獎。
報告主題:《先驗引導的三維數字人視頻生成》
內容概要:“人”一直是視頻生成的核心對象,面對大規模視頻的生成需求,利用生成式人工智能技術產生高擬真,規模化的虛擬數字人正逐漸成為研究熱點。三維高斯、大模型等技術在過去一年快速發展,并與數字人技術進行了廣泛結合,本次報告將從數字人重建、生成、編輯等方向介紹數字人視頻生成領域的最近進展,對三維數字人技術的發展趨勢進行探討。
3、新壹科技AI算法主任架構師 李璋
李璋,擁有(you)中國科學(xue)院軟件工程(cheng)碩士學(xue)位(wei),是生成(cheng)(cheng)式(shi)(shi)人工智能(neng)領域的資深技術專家。在(zai)深度(du)學(xue)習、算法(fa)優化以及大(da)模型(xing)研(yan)(yan)發方面具有(you)深厚的理(li)論基礎和豐富的實戰經驗。在(zai)新壹(yi)(北京)科技有(you)限公(gong)司擔任(ren)AI算法(fa)主任(ren)架(jia)構(gou)師,主導設計并(bing)研(yan)(yan)發了(le)多個(ge)具有(you)行業(ye)標志性(xing)的AI項(xiang)目(mu)。設計與研(yan)(yan)發了(le)“新壹(yi)視頻(pin)(pin)大(da)模型(xing)”——國內(nei)首個(ge)專注于視頻(pin)(pin)生成(cheng)(cheng)的生成(cheng)(cheng)式(shi)(shi)AI大(da)模型(xing)。該模型(xing)在(zai)視頻(pin)(pin)內(nei)容生成(cheng)(cheng)、理(li)解(jie)與優化方面取(qu)得了(le)突破性(xing)成(cheng)(cheng)果,為推(tui)動(dong)國內(nei)生成(cheng)(cheng)式(shi)(shi)AI技術在(zai)視頻(pin)(pin)領域的實際應(ying)用提供了(le)強有(you)力的支(zhi)撐。
報告主題:《視頻垂直大模型在智能數字人生成中的應用》
內容概要:在(zai)生(sheng)(sheng)成(cheng)(cheng)式AI技術蓬勃發展的背(bei)景下(xia),智能(neng)數(shu)字(zi)人(ren)已成(cheng)(cheng)為內容(rong)創作(zuo)、虛(xu)擬助(zhu)手和人(ren)機(ji)交互等領域(yu)的重要應用之一。然而,傳統(tong)生(sheng)(sheng)成(cheng)(cheng)模(mo)型(xing)在(zai)高精度、多模(mo)態的智能(neng)數(shu)字(zi)人(ren)生(sheng)(sheng)成(cheng)(cheng)中仍面臨諸(zhu)多挑戰。為此,垂直領域(yu)的大模(mo)型(xing)提供了一條全新路徑。
本次演講,首先會介紹從通用大模型到垂直大模型的演進,之后將著重講解新壹視頻大模型的整體架構設計及其在數字人視頻生成與優化中的核心技術突破;此外,還將對智能數字人生成的技術難點,包括數字人生成中實現自然語言驅動動作與表情生成的關鍵技術等進行深入分析,并分享視頻垂直大模型驅動的智能數字人在相關領域的典型應用案例。
4、井英科技聯合創始人、CTO 王健
王健,井英科(ke)技聯合創(chuang)始人(ren),CTO,國內視(shi)頻生(sheng)成模(mo)型(xing)的首批創(chuang)業(ye)者,從2020年起專(zhuan)注于視(shi)頻生(sheng)成模(mo)型(xing)及(ji)相(xiang)關應用。在參(can)與創(chuang)立井英科(ke)技之前,擔任觸(chu)寶(bao)科(ke)技聯合創(chuang)始人(ren)、CTO,是觸(chu)寶(bao)輸入法主創(chuang),自然語言模(mo)型(xing)專(zhuan)家。
報告主題:《AI短劇拐點背后的技術突破》
內容概要:自今(jin)年(nian)2月OpenAI發布Sora起,視頻(pin)生(sheng)(sheng)成(cheng)(cheng)大模型成(cheng)(cheng)為了熱點方向(xiang)。但其具體落地的(de)業務場景卻一直不明確。近(jin)期(qi),井英科技(ji)通過視頻(pin)生(sheng)(sheng)成(cheng)(cheng)模型實現了100分(fen)(fen)鐘以上短視頻(pin)的(de)制作,并成(cheng)(cheng)功實現了用戶付費觀看的(de)商業模式。本次(ci)分(fen)(fen)享將(jiang)介(jie)紹AI短劇從最初的(de)不可行(xing)到現如(ru)今(jin)可行(xing)的(de)關鍵技(ji)術(shu)(shu)突破,并探討了除視頻(pin)生(sheng)(sheng)成(cheng)(cheng)大模型之外的(de)其他關鍵技(ji)術(shu)(shu)進展(zhan)。
5、曠視研究院高級研究員 李華東
李華(hua)東,曠視(shi)研(yan)(yan)究(jiu)院高級研(yan)(yan)究(jiu)員,碩士畢(bi)業于清(qing)華(hua)大(da)學計(ji)算機系。研(yan)(yan)究(jiu)方(fang)向為計(ji)算機視(shi)覺,主(zhu)要包(bao)括視(shi)頻生成與理(li)解,深度估計(ji)等,已在ECCV,AAAI等人工智能頂級會議上發表(biao)多篇論文(wen)。
報告主題:《可控人物視頻生成》
內容概要:短(duan)視(shi)(shi)(shi)頻、影視(shi)(shi)(shi)和游戲(xi)動(dong)畫創作(zuo)正在迅速發(fa)展。然而,傳統的視(shi)(shi)(shi)頻制作(zuo)過程耗(hao)時耗(hao)力,通(tong)常需要大(da)量(liang)(liang)的人工后期編輯(ji)。視(shi)(shi)(shi)頻生成(cheng)大(da)模型(xing)算(suan)法提供了一(yi)種低(di)成(cheng)本、高(gao)效的高(gao)質量(liang)(liang)視(shi)(shi)(shi)頻內容生成(cheng)解決方案(an)。但視(shi)(shi)(shi)頻生成(cheng)算(suan)法生成(cheng)的內容可控(kong)性(xing)不(bu)足,限(xian)制了其實(shi)際應用的有效性(xing)。因此,如何實(shi)現視(shi)(shi)(shi)頻生成(cheng)內容的可控(kong)性(xing)仍是一(yi)大(da)關鍵挑戰。
在本次報告中,我將介紹 MegActor 系列工作,這是一種支持混合模態控制的人像視頻生成算法。該算法支持角色自定義(包括真實人物、二次元人物和游戲人物等),并能夠通過視頻、音頻和文本輸入實現單獨和混合控制。其功能涵蓋了控制角色說話、唱歌和生成表情動畫等。MegActor 系列是社區內的首個開源可控人物視頻生成大模型,將持續優化以推動技術的不斷發展。
三、中國生成式AI大會上海站日程
四、報名進入最后階段,立即搶票參加研討會
AI視頻(pin)生成技術(shu)研(yan)討(tao)會(hui)(hui)(hui)(hui)是(shi)2024中國生成式AI大會(hui)(hui)(hui)(hui)上(shang)(shang)海站的三場研(yan)討(tao)會(hui)(hui)(hui)(hui)之一,將在分會(hui)(hui)(hui)(hui)場第二日上(shang)(shang)午(wu)進(jin)行。另外兩(liang)場研(yan)討(tao)會(hui)(hui)(hui)(hui)分別是(shi)端側生成式AI技術(shu)研(yan)討(tao)會(hui)(hui)(hui)(hui)、具身(shen)智(zhi)能技術(shu)研(yan)討(tao)會(hui)(hui)(hui)(hui)。
目前大會(hui)上海站(zhan)的(de)報(bao)名(ming)已進(jin)入最后階段。希望參加任意一場研(yan)討(tao)(tao)會(hui),或者全部(bu)三場研(yan)討(tao)(tao)會(hui)的(de)朋友,可以選擇購買大會(hui)通(tong)票或貴賓票。
除了通票、貴賓票外,大會也開放免費票申請(需經主辦方審核通過)。不過,持有免費票,無法參加分會場研討會,僅可以參加兩場主會場峰會:「大模型峰會」和「AI Infra峰會」。有需要的朋友可以申請。敲重點!免費票不能參加AI視頻生成技術研討會哦~
余票有限,有意愿參會的朋友,可以掃描下方報名海報上的二維碼,添加小助手“泡泡”進行咨詢或搶票。已添加過“泡泡”的老朋友,給“泡泡”私信,發送“GenAI24”即可。