智東西(公眾號:zhidxcom)
作者 | GenAICon 2024

2024中國生成式(shi)AI大(da)會(hui)于(yu)4月(yue)18-19日在北京舉(ju)行,在大(da)會(hui)第二天的主會(hui)場AIGC應用專場上,VAST創始人兼CEO宋亞宸以《大(da)模型Tripo驅(qu)動3D生成邁入秒級時代(dai)》為主題發表演講。

從文字、圖片到視頻、3D,信息載體不斷升級,宋亞宸談道,3D的體驗質量、信息密度不斷提升且更具互動性。他認為目前3D生成已經達到類似Midjourney V3的效果,今年9月將達到類(lei)V4效果(guo),年底達到類(lei)V5/V6效果(guo),實現(xian)真正(zheng)可(ke)用,甚至通過圖靈測試。

VAST是3D生成模型(xing)領域的(de)(de)第一梯隊玩(wan)家,已打造全球最大的(de)(de)幾(ji)個3D生成開(kai)源社區(qu),并與(yu)Stability共同(tong)開(kai)源了全球最大、0.5秒圖(tu)生3D模型(xing)TripoSR。其創始(shi)人兼CEO宋亞宸(chen)也(ye)是首位在計算機圖(tu)形學頂(ding)會SIGGRAPH上發表主(zhu)舞臺主(zhu)題演講(jiang)的(de)(de)中(zhong)國創業(ye)者(zhe)。

據宋亞宸分享,VAST的3D大模型Tripo上線百余天內生成了超過200萬個3D模型。為了應對3D生成創作成本和門檻過高的挑戰,VAST將3D內容平臺和大眾級創作者平臺結合。當前這家創企已擁有超過200家B端客戶,并基于其平臺開發出原生AI爆款小游戲,一周突破10萬(wan)用戶

以下為宋亞宸的演講實錄:

AIGC會(hui)使游戲的創(chuang)作門檻和成本無限降低,這就(jiu)是我(wo)們做的事情。

我們是做3D大模型的公司,產品(pin)核(he)心就是將(jiang)用(yong)戶輸(shu)入(ru)的(de)文(wen)字或者圖片快速生成3D模型。3D模型(xing)可(ke)以(yi)(yi)在游戲、動(dong)畫、影視、元(yuan)宇宙(zhou)、3D打印(yin)等(deng)行業中直接使用(yong),其本(ben)身(shen)帶(dai)有Mesh、貼圖、材質,你可(ke)以(yi)(yi)進(jin)入傳統管線二次編輯,進(jin)行驅動(dong)、渲染等(deng)。3D模型(xing)還可(ke)以(yi)(yi)擁有帶(dai)骨骼、帶(dai)動(dong)作等(deng)格(ge)式,出現很多種有意思(si)的使用(yong)方(fang)式。

那么(me),我們為什(shen)么(me)要(yao)做3D這件事(shi)?

文(wen)字(zi)、圖(tu)片、視(shi)頻、3D中,3D是非常特殊的品類,從文(wen)字(zi)、圖(tu)片、視(shi)頻到3D是信息(xi)載(zai)(zai)體(ti)不(bu)斷升維的過程,3D也被認為是最(zui)終的信息(xi)載(zai)(zai)體(ti),其信息(xi)密度、體(ti)驗質量都在不(bu)斷提升,同時擁有雙向(xiang)互動性。

VAST宋亞宸:3D生成邁入秒級時代,今年將做到Midjourney V5/V6水平丨GenAICon 2024

因此,我們相(xiang)信世界正在(zai)進入一個(ge)3D新時代。

一、3D生成迎新拐點,今年做到Midjourney V5/V6水平

為(wei)什么現(xian)在(zai)做3D生成這(zhe)件(jian)事情?OpenAI的(de)GPT-3剛發布時,關(guan)注的(de)人并不多,在(zai)其基(ji)礎(chu)上做的(de)應用、開發也相對(dui)較少,僅有如(ru)Replika等少數(shu)幾個(ge)應用,大(da)家對(dui)它的(de)認知比(bi)較少,使其很難進行商業(ye)化。

直(zhi)到2022年11月份,ChatGPT的發布成(cheng)為(wei)了一(yi)個(ge)非常大(da)的拐點,我們稱(cheng)其為(wei)用戶的Aha Moment(頓悟時刻)。這一(yi)產(chan)品(pin)對整個(ge)行業、逐步進行商(shang)業化、用戶量提(ti)升都有很大(da)的影響。

Midjourney也類似,2022年7月份V3推(tui)出時,用戶(hu)量并(bing)不多(duo),也沒有收費功(gong)能,知道Midjourney的(de)(de)人寥(liao)寥(liao)無幾。直到(dao)半年以后,Midjourney于2022年11月份推(tui)出V4,我們認為這誕(dan)生了(le)(le)文(wen)生圖(tu)的(de)(de)下一個拐(guai)點,在這個拐(guai)點上有了(le)(le)非常大的(de)(de)提升,其產(chan)品的(de)(de)用戶(hu)量、收費方式、商業化(hua)等(deng)都得到(dao)了(le)(le)滿(man)足。

再來看3D,我們現在(zai)(zai)看到的3D生(sheng)成,類似于Midjourney V3的水平,但(dan)已經可以在(zai)(zai)一(yi)些場景使用起來了。

預計到今年9、10月份,3D生成可以達到Midjourney V4的水平;今年年底可以達到類似于Midjourney V5的水平,通過(guo)圖靈(ling)測試,并帶來一次非(fei)常大的(de)商業(ye)變革(ge)。

從(cong)3D生成的(de)演進過(guo)程來看,除了像我們(men)這樣的(de)創業公(gong)司,谷歌、英偉(wei)達(da)、OpenAI、Meta、Adobe等海(hai)外企業都已進入到3D生成這個領域。

VAST宋亞宸:3D生成邁入秒級時代,今年將做到Midjourney V5/V6水平丨GenAICon 2024

在學術上(shang),我(wo)們(men)從布局3D原生路線(xian)、2D優化路線(xian)、多視角生成(cheng)、編輯(ji)動態場景到人物生成(cheng),在CVPR、ICLR等(deng)國(guo)際頂會上(shang)都發表了大量論文,并開源了相應技術。

全世界最大的幾個3D生成開源社區都(dou)是由我們(men)做的,比如與Stability AI共(gong)同開(kai)源(yuan)了全(quan)世界最(zui)(zui)大(da)、效果(guo)最(zui)(zui)好(hao)的圖生 3D大(da)模型TripoSR,我們(men)還開(kai)源(yuan)了全(quan)世界最(zui)(zui)大(da)的3D算法框架Threestudio、超火爆的單(dan)圖生3D算法Wonder3D,以及(ji)TGS、CSD等開(kai)源(yuan)項(xiang)目(mu)。

VAST宋亞宸:3D生成邁入秒級時代,今年將做到Midjourney V5/V6水平丨GenAICon 2024
我們(men)預計2024年(nian)年(nian)底會把(ba)3D生成做(zuo)到Midjourney V5甚至V6的水平(ping),達(da)到下一個爆(bao)發時刻。

3D的核心在于可交互、可體驗,甚至帶一些游戲性。所以我們會同步做3D動態的內容生成,包括骨骼的自動(dong)綁定、動(dong)作(zuo)生成,這已經在(zai)我們產(chan)品里上線。

同時,我們(men)認為在明年或許會(hui)實(shi)現(xian),每一個人(ren)都有能力去(qu)生(sheng)成無限個屬于自己的(de)3D內容,不管是游戲、XR體(ti)驗,還(huan)是任何的(de)3D內容,這也是我們(men)對整體(ti)3D內容生(sheng)成趨勢的(de)判斷。

二、3D創作門檻和成本太高,需要大眾化3D內容平臺

我(wo)們剛剛講了很多(duo)AI 3D技術,但(dan)我(wo)更希望和(he)大(da)家分享(xiang)我(wo)們是怎(zen)么把AI 3D玩起來的。

我(wo)(wo)們認為AI 3D是在拓展人(ren)(ren)類能(neng)力的(de)邊界。我(wo)(wo)隨便在門口拉個(ge)人(ren)(ren)進來,讓他給(gei)(gei)我(wo)(wo)發一個(ge)Twitter,可(ke)能(neng)只需要5秒鐘。我(wo)(wo)說(shuo)你再(zai)給(gei)(gei)我(wo)(wo)發一個(ge)TikTok,他做(zuo)一下剪(jian)輯,可(ke)能(neng)2分鐘就能(neng)搞定。如(ru)果我(wo)(wo)讓他做(zuo)個(ge)游戲,他可(ke)能(neng)會說(shuo):“好,給(gei)(gei)我(wo)(wo)3年(nian)時(shi)間、1000個(ge)人(ren)(ren)、2億美金,我(wo)(wo)給(gei)(gei)你做(zuo)個(ge)游戲。”這是很正常(chang)的(de)。

3D為什么這么特殊?是因為其創作門檻和成本太高,它沒有誕生出一個屬于自己的內容平臺,同(tong)時也(ye)沒有實現內容的爆(bao)發。

我為(wei)(wei)什么這么說?比如我剛(gang)剛(gang)舉的例子(zi),文字有(you)微博、貼(tie)吧(ba)作(zuo)為(wei)(wei)內(nei)容平臺(tai),圖片(pian)有(you)Instagram、小紅書作(zuo)為(wei)(wei)內(nei)容平臺(tai),視頻有(you)TikTok、抖音、快(kuai)手(shou)、YouTube,音樂有(you)Spotify,甚至聲音都有(you)喜馬拉雅,但是(shi)3D缺少大(da)眾的內(nei)容平臺(tai)。核心就是(shi)生成(cheng)門檻和(he)成(cheng)本太高了。

如果有(you)一天(tian)我跟你說(shuo),發個小紅書需要給(gei)我10萬塊錢、拍(pai)個TikTok需要3年,那你可能(neng)就不會發布內(nei)容了。因(yin)此,核心點(dian)在于(yu)3D內(nei)容成(cheng)本高(gao),如果需要1億美金,我就得(de)賺1億美金回來,自然使(shi)得(de)其(qi)內(nei)容非常(chang)少。

但如果有一天,3D內(nei)(nei)(nei)容(rong)的(de)(de)成本(ben)被降(jiang)到無限接(jie)近于0,是(shi)(shi)不(bu)是(shi)(shi)每個人都可(ke)以低成本(ben)創(chuang)作3D內(nei)(nei)(nei)容(rong)?這樣(yang)一來(lai),創(chuang)作3D內(nei)(nei)(nei)容(rong)不(bu)再是(shi)(shi)為了賺錢,而(er)是(shi)(shi)像發(fa)小紅書一樣(yang),宣泄(xie)自(zi)己的(de)(de)情感、表(biao)達自(zi)己的(de)(de)想法(fa)、炫耀自(zi)己的(de)(de)創(chuang)意,這可(ke)能是(shi)(shi)未(wei)來(lai)每個人制(zhi)作3D內(nei)(nei)(nei)容(rong)、做虛(xu)擬(ni)世界、探索各(ge)種(zhong)各(ge)樣(yang)虛(xu)擬(ni)玩(wan)法(fa)最(zui)核心(xin)的(de)(de)訴求(qiu),不(bu)需要再考慮(lv)怎么(me)賺錢。

3D創作者也會發(fa)生(sheng)變化,不再(zai)是游戲大廠里(li)面的建模師、動畫(hua)師,可能是我(wo)們在座的每一位(wei),所以我(wo)們在拓展(zhan)人類的邊界。

今(jin)天在大會上,我們在講文(wen)生(sheng)(sheng)文(wen)、文(wen)生(sheng)(sheng)圖(tu)、文(wen)生(sheng)(sheng)視頻(pin)、文(wen)生(sheng)(sheng)音樂、文(wen)生(sheng)(sheng)聲音等各(ge)(ge)種(zhong)各(ge)(ge)樣的生(sheng)(sheng)成方式,我今(jin)天也學(xue)習到(dao)了(le)很多(duo)。但是我們看到(dao)人用鍵盤打字(zi)、用手機(ji)攝像頭(tou)拍照(zhao)、P圖(tu)、拍視頻(pin)、加濾鏡(jing)等本身(shen)都是非常容易(yi)的事情,AI只是一個工具(ju)。

在所有(you)的(de)內容品類(lei)中,除了(le)3D,AI提供的(de)都是Alternative(可被選擇的(de)),只有(you)3D提供的(de)是從0到1的(de)過程(cheng),它拓展(zhan)了(le)人類(lei)的(de)能力邊界。

我們做3D生成就是希望降低用戶創作的門檻和成本。并且(qie),我們認為成(cheng)本下降后,當(dang)3D出現自己(ji)的“手(shou)機(ji)攝像頭”時,就(jiu)意味著3D出現了類(lei)似于“抖音”和(he)“快手(shou)”的機(ji)會(hui)。

因此,我們希望做一個屬于自己的3D內容平臺、自己的大眾級別創作者工具。當大家不(bu)斷使(shi)用這些(xie)創作者工具(ju)和內容平(ping)臺時,我(wo)們就會有(you)更多(duo)數(shu)據(ju)(ju),從而形成(cheng)數(shu)據(ju)(ju)飛輪,讓更好(hao)的(de)技術帶(dai)來更好(hao)的(de)產品體驗(yan)、更多(duo)的(de)用戶帶(dai)來更多(duo)的(de)數(shu)據(ju)(ju)。

VAST宋亞宸:3D生成邁入秒級時代,今年將做到Midjourney V5/V6水平丨GenAICon 2024

當然,我們面(mian)向(xiang)的用(yong)戶更為(wei)關(guan)鍵,同賽道的一(yi)些其他玩(wan)家(jia)對(dui)于(yu)拿AI 3D做什(shen)么,大家(jia)的答案可能各不相同。

對于我們而言,我們可以給好萊塢、橫店、寶萊塢的導演、攝影師提供“手機攝像頭”。但是“手(shou)機(ji)攝像(xiang)頭”給大家(jia)帶來(lai)的(de)可(ke)能是移動(dong)互聯網(wang)時(shi)代(dai)的(de)“收(shou)錢吧(ba)到(dao)賬500塊”。例如用“每刻報銷”節省(sheng)時(shi)間報銷,省(sheng)下來(lai)的(de)時(shi)間你可(ke)以去拍小(xiao)紅書、拍TikTok,或者創作自己想要(yao)做的(de)視頻和(he)圖(tu)片內容。這件事(shi)情可(ke)能對(dui)于我們來(lai)說更關鍵。

雖然,我們也(ye)有很多(duo)游戲、動畫(hua)、影視的(de)應用,但長期(qi)來(lai)說,我們希望服務的(de)是在座的(de)、看(kan)直播的(de)每一位,讓(rang)每個人都(dou)有辦法去(qu)創作3D內容。

三、生成3D模型超200萬,AI原生小游戲一周突破十萬用戶

給大家講一(yi)下我們產品上線(xian)的情況(kuang)。

今年年初,我們上線了3D大模型Tripo,百天內生成超過150萬個模型,現在已經生成200萬個模型。

這是(shi)什么概念?上個月在硅谷(gu)參(can)加GTC,我們與(yu)全世界一些(xie)全球頂級的模(mo)型交(jiao)易平(ping)臺交(jiao)流(liu),這些(xie)平(ping)臺積(ji)累(lei)了十(shi)幾年,每個平(ping)臺沉淀的模(mo)型大概有190萬(wan)~200萬(wan)個。而我們在短短三(san)四個月就(jiu)已經(jing)超過(guo)他們了,這就(jiu)是(shi)AIGC的力(li)量。

看數據(ju)其(qi)實很難有(you)感觀,但(dan)確實看到社區中有(you)很多很有(you)意思的(de)(de)東(dong)西。一些KOL、合作(zuo)(zuo)伙(huo)伴、有(you)意思的(de)(de)創作(zuo)(zuo)者會和(he)Magnific等AI工具(ju)結(jie)合形(xing)成完(wan)整的(de)(de)工具(ju)流,然后將其(qi)放到《堡壘之夜》的(de)(de)UGC平臺(tai)、Roblox等場景中,展示給(gei)其(qi)他的(de)(de)創作(zuo)(zuo)者。歡迎大家關注我們的(de)(de)Twitter賬號@tripoai。

在與游(you)戲公(gong)司的(de)合作(zuo)方面,除騰訊、網易這(zhe)樣的(de)游(you)戲大(da)廠,我們(men)也(ye)會和(he)5-10個人(ren)的(de)游(you)戲工(gong)作(zuo)室合作(zuo)。因為我們(men)的(de)出現(xian)(xian),這(zhe)些游(you)戲公(gong)司不再(zai)煩惱沒(mei)有(you)足夠的(de)資金去招(zhao)一線的(de)美(mei)術團隊、招(zhao)十幾個3D美(mei)術專家,現(xian)(xian)在他們(men)只需要使用我們(men)的(de)3D生(sheng)成(cheng)能力,就可以快速完成(cheng)角色設(she)計(ji)、場景設(she)計(ji)、關卡生(sheng)成(cheng)等工(gong)作(zuo),實現(xian)(xian)降本增效(xiao),打(da)通其游(you)戲的(de)資產(chan)管線。

同時,很有意思的一點在于,它會出現一些原生AI玩法

例如(ru)TripoGO小(xiao)游戲(xi),開(kai)(kai)發者僅(jin)用了不到(dao)一(yi)個月(yue)的時間開(kai)(kai)發,其玩法是你生成(cheng)一(yi)個3D模(mo)型,我生成(cheng)一(yi)個3D模(mo)型,然(ran)后(hou)(hou)互(hu)相打,誰(shui)打贏(ying)了就可(ke)以拿到(dao)對面的Prompt(提示詞(ci))。比如(ru)你是“胡(hu)桃夾子抽(chou)雪(xue)(xue)茄”,我是“路易十(shi)四開(kai)(kai)法拉利”,我把(ba)你打贏(ying)之(zhi)后(hou)(hou),我就變成(cheng)了“胡(hu)桃夾子抽(chou)著雪(xue)(xue)茄開(kai)(kai)法拉利”。

雖然這個小游戲(xi)的玩法(fa)并不(bu)復雜,但是第(di)一(yi)天就擁(yong)有1萬(wan)多個用戶(hu),一(yi)個禮拜之內突破了10萬(wan)用戶(hu),這就是AI原生玩法(fa)的力(li)量。

還有更(geng)多(duo)的(de)展(zhan)示,包括(kuo)動(dong)畫生(sheng)成(cheng)、場景生(sheng)成(cheng)等(deng)(deng)。很多(duo)年輕開(kai)發(fa)者動(dong)手能(neng)力非(fei)常(chang)強(qiang),基于我們(men)的(de)3D生(sheng)成(cheng)能(neng)力做了(le)很多(duo)自動(dong)化工具(ju),比如(ru)ComfyUI的(de)節點、各個(ge)引擎(qing)的(de)插(cha)件等(deng)(deng)等(deng)(deng)。他們(men)也會開(kai)發(fa)自己的(de)Web App小(xiao)游戲,并展(zhan)現出來。

同時,我們還有蘋果Vision Pro的(de)應用,本(ben)質上就(jiu)是(shi)你在虛擬世界(jie)里(li)面,可(ke)以通過聲(sheng)音(yin)、文字、圖片生(sheng)成(cheng)3D模型,生(sheng)成(cheng)后(hou)將它擺(bai)到任何地(di)方,然后(hou)讓它跳舞、跟你合(he)照等(deng)。所謂的(de)“言出法隨”就(jiu)是(shi)這(zhe)樣,每個人都變成(cheng)了3D的(de)“神(shen)筆馬良(liang)”。

我們(men)的Slogan是為(wei)世(shi)界進文明,為(wei)人類造幸(xing)福(fu)。我們(men)的官方網站tripo3d.ai現在(zai)可以免費(fei)注(zhu)冊,同(tong)時可以使用(yong)我們(men)的開放平臺(tai)。

以上是宋亞宸演講內容的完整整理。