
智東西(公眾號:zhidxcom)
作者 | GenAICon 2024
智(zhi)東西5月6日報道,2024中國生成(cheng)式AI大會(hui)(hui)于4月18-19日在北京舉(ju)行,在大會(hui)(hui)第二天的(de)主會(hui)(hui)場(chang)AIGC應用專場(chang)上,天圖萬境創始人(ren)圖拉古以《我(wo)們(men)的(de)AIGC,AIGC的(de)我(wo)們(men)》為題(ti)發表演講。
天圖萬境是中(zhong)國(guo)視(shi)聽行業(ye)嘗試用AI工(gong)具做文本擴寫、圖像生成、數字人(ren)合成制作的(de)先行者,比一些國(guo)際(ji)頂流AI工(gong)具的(de)問世時間更早。圖拉古說,天圖萬境迄今已擁有中(zhong)國(guo)視(shi)聽領(ling)域(yu)最專業(ye)的(de)垂(chui)直AI大模型集(ji)群,并在今年與(yu)華(hua)為聯合推(tui)出Sora Opera,能給各式視(shi)頻配音。
圖拉古在演講中相當敢說,金句頻出,分享了自己創業路上“血淋淋的經驗和教訓”,或者調侃創業者“不要起太早,容易看不到曙光,因為資本看不懂”,稱“追風的人沒法飛起來”;或者吐槽自媒體用“炸裂”、“吊打”、“驚艷”等詞匯是瞎說,直言短期內搞不定通用大模型,預測“大部分AI大模型創業公司在5年內死去”。
在他看來,AI應該是能夠給人們帶來溫暖、彌合世界的創作工具,而不是取代人類工作的“內卷武器”。因此AI不能離開應用談技術,而是要建立到應用端的完整產業鏈。天圖萬境從(cong)AI文(wen)本創(chuang)作,到視頻生成(cheng),再到服務用(yong)戶的應用(yong)端,打造了全產業鏈技(ji)術解決(jue)方案,且都早(zao)于國際巨頭發布了對應產品,目前正在快速(su)迭(die)代中。
其聲音生成工具Sora Opera,可以自動感知、智能識別視頻畫面中的物理邏輯,精準配出風格多變的音樂音效,為視頻增加聲音的魅力。還有聲音克隆工具SoundMax,不(bu)走(zou)傳統TTS路線,而(er)是(shi)將輸入(ru)的(de)人聲(sheng)(sheng)轉換(huan)成其他聲(sheng)(sheng)線。這樣的(de)AI工具(ju),不(bu)會讓配音(yin)演(yan)員失業,而(er)是(shi)讓他們在(zai)演(yan)繹不(bu)同角(jiao)色時插上飛(fei)翔的(de)創(chuang)意翅膀。
以下為圖拉古的演講實錄:
首先介紹一下我自己,我是圖拉古,是一個“帽子”搜集大師,我有(you)很多帽子(zi),最喜歡前三個帽子(zi),天圖萬境的(de)創(chuang)始人、中(zhong)國導演、科研從業者。
我還有一個屬性,我是跨行業的從業者,而且在(zai)一線(xian),我是以導演的(de)身份拍攝了很多國(guo)際(ji)大片(pian),也拍了很多國(guo)內的(de)片(pian)子。我從事計算機編程和AI,自己寫代碼。
第三個,我自己做電路設計,做電路繪畫,做生產。我是一個沉浸式愛好者,經常(chang)玩各種劇本殺、密室逃脫。原來AI需(xu)要(yao)視(shi)(shi)聽(ting)行(xing)業(ye)的人參與(yu)進來,但是視(shi)(shi)聽(ting)行(xing)業(ye)的人又不知道(dao)該怎么開發,我碰(peng)巧介于(yu)這(zhe)之間,我的優勢(shi)逐漸(jian)凸顯出來。
我(wo)分享的(de)主題(ti)是:AIGC的(de)我(wo)們,我(wo)們的(de)AIGC。
一、比MidJourney更早探路圖像生成,但起太早容易看不到曙光
先說(shuo)“AIGC的我們”。
有人說電影是(shi)一門(men)綜合性藝術,它從視聽技(ji)術到(dao)制造(zao)生產技(ji)術,再到(dao)調度與管理能力,到(dao)故(gu)事與敘(xu)事,最(zui)主要的是(shi)情緒(xu)和心理學都(dou)很(hen)重要,本質(zhi)上(shang)講,是(shi)從文本到(dao)視頻這一件事。
從文本(ben)(ben)到視頻(pin)在今天(tian)的時代很簡單,文本(ben)(ben)到視頻(pin)、文本(ben)(ben)到圖片,再到合(he)成、剪輯(ji)、視頻(pin)發行,其中文本(ben)(ben)就是(shi)劇本(ben)(ben),我們現在熟悉的軟件(jian)都可以做。
到今天為止,AI時(shi)代,文(wen)本(ben)生成有(you)(you)(you)GPT,圖片有(you)(you)(you)Stable Diffusion、Midjourney,合成有(you)(you)(you)Wonder studio,剪輯Meta似乎在做,視(shi)頻Sora,發行(xing)還是老牌發行(xing),世(shi)界的格(ge)局沒(mei)有(you)(you)(you)變化,因為賺錢的地方沒(mei)有(you)(you)(you)發生變化。
前面都是技術在(zai)迭(die)代,下一個時代將會產(chan)生產(chan)業(ye)的迭(die)代,發行(xing)怎么(me)變?這(zhe)些年我們在(zai)這(zhe)些領域做了什么(me)工作?以及為什么(me)說現在(zai)做AIGC的同行(xing)們都是“弟弟”。
第一個,文本。看這張圖,在輸入文字的位置添加新故事,加引導詞,輸入三個引導詞就可以自動生成一段故事,這是最早的AI擴寫。
下面是用來整理語義分析的,分析人物關系的,分析時長的,再下面是分析故事和情感節奏的(de),這(zhe)只(zhi)能用AI做,不(bu)然就(jiu)會把(ba)“皇(huang)上急的(de)像(xiang)熱鍋上的(de)螞蟻(yi)”,認為(wei)是一(yi)種動物而不(bu)是一(yi)種情緒(xu)。這(zhe)是最早的(de)文字(zi)生(sheng)成。什么(me)時候(hou)?2021年(nian)9月份。誰在做這(zhe)件(jian)事?只(zhi)有我們在做。
第二個,圖片。這個大家都很熟悉了,放一個原始圖像(xiang),就可以看到實時可編輯的(de)(de)圖像(xiang),下(xia)方是參(can)數拖拽(zhuai)區。左側是2021年5月份我們發(fa)布的(de)(de)產品,右側是2023年馬普(pu)所潘教授發(fa)布的(de)(de),當(dang)時震驚整個娛(yu)樂圈。
上面是選擇模型、風格的區域,選擇輸入風格,輸入一張圖片,按照圖片風格生成圖片。
這里是輸入漢字的圖像實時生成,這在今天來看每(mei)個人都極其熟悉,甚至嗤之以鼻(bi)。但把時(shi)間往(wang)回倒一(yi)倒,Stable Diffusion是2022年(nian)(nian)7月份(fen)(fen),Midjourney是2022年(nian)(nian)3月份(fen)(fen),天圖(tu)是2021年(nian)(nian)9月份(fen)(fen)。
我們以前做事(shi)不會(hui)在互聯網(wang)上留(liu)足跡(ji),碰巧這件事(shi)情留(liu)下了(le)足跡(ji)。右圖(tu)是跟聯想ThinkPad做的現(xian)場為期七(qi)天的實機演示。
第三個,合成制作。通過4張圖片重建一個我的數字人,通過一段視頻重建整個3D場景。我們還發布首條支持NeRF渲染的循環引擎管線,這是在(zai)2022年(nian)9月份。右(you)側的大家(jia)也很(hen)熟悉(xi),Luma AI,當時全世(shi)界都很(hen)震驚,時間是2022年(nian)11月份,而我(wo)們在(zai)2022年(nian)9月份就發布(bu)了可(ke)以商用的產品。
還有人體穩定跟蹤,大家都很熟悉,還可(ke)以把(ba)鏡頭中的人物(wu)完美地擦掉(diao),這兩者結合(he)到一起(qi),是(shi)(shi)Wonder studio,它(ta)是(shi)(shi)2023年3月份(fen),天(tian)圖是(shi)(shi)2022年11月份(fen)。
這個案例非常明顯,做這么多,我們也沒有做PR,沒有被大家記住。我們有很深的感觸:不要起太早,容易看不到曙光,因為資本看不懂。
二、“他們看不懂,看不明白,也不愿意學習”
有一個很知名的專家問我,你連一個傳感器都沒有,怎么叫感知?我現在可以告訴他,這就叫感知,感知是通過智能來判別這個世界的。這是我得到的第一個經驗,在創業的時候不要起太早,因為看不到曙光。
第二個,他們看不懂,看不明白,并且也不愿意學習。“他們”不止指資本,也指創作身邊的每一個人,他們只能跟著潮流順著大勢而為。我想說一句話:“追風的人是沒法飛起來的,因為風箏是逆風飛翔的。”我們(men)要準確判斷下(xia)(xia)一個點(dian)在(zai)哪里,從現在(zai)開始往下(xia)(xia)一個點(dian)走。
第三個經驗,投資絕大部分是FOM(afraid of missing),到今天為止,他們對這件事情看起來也是迷迷糊糊的,你去問投資機構,什么叫AIGC?他們只能說一個網上能查到的詞,沒有經過仔細思考,沒有經過認真對產業調研的人很難明白AIGC的明天在哪里,這就是血淋淋的經驗和教訓。
三、自媒體用“炸裂”“吊打”是瞎說,大部分AI大模型公司在5年內死去
下面說說我們(men)在積累經驗之后又(you)做了什么事,現在逐漸被(bei)大家關注起(qi)來(lai)了。
資本眼(yan)中的(de)AI大模(mo)型:以前100個(ge)人干(gan)活兒(er),通(tong)過AI自動化3個(ge)人干(gan)活兒(er),生(sheng)成了各種各樣的(de)利潤,裁員、財源。
一(yi)個(ge)(ge)公司瘋(feng)狂(kuang)PR以(yi)(yi)后,被資本(ben)投了以(yi)(yi)后,創始人自(zi)己套殼(ke),自(zi)己訓練,結果一(yi)用自(zi)己的產品(pin),這個(ge)(ge)東西不能用!這怎么(me)辦?瘋(feng)狂(kuang)地(di)找(zhao),終于(yu)找(zhao)到一(yi)個(ge)(ge)落(luo)地(di)場(chang)(chang)景(jing),然(ran)后跟媒體說,在這個(ge)(ge)場(chang)(chang)景(jing)我們可以(yi)(yi)做這件事,然(ran)后無(wu)限放大。
自媒體用的什么詞?“炸裂”、“吊打”、“驚艷”,這些詞能在這兒用嗎?這是瞎說。實際是什么樣的?這就是它們的實際情況,這是不可避免的問題,因為馬車在創造初期也不能一下子跑十公里,這是時代發展的必然結局。
我們現在的AI非常激進,仿佛進入了豐富且多元的生態,但如果我們用一用這些產品會發現,你的生氣指數會上漲。但是我們需要用發展的眼光去看待這件事情,十年以后的AI是什么樣?它一定是非常豐富且充滿了自動化的過程。
我們(men)還講過一句話,今天(tian)的(de)各種企業在(zai)這個行業的(de)PR中,仿佛(fo)要(yao)使(shi)用AI這種技術把整(zheng)個人都替(ti)代掉(diao),讓整(zheng)個社會都工業化,其實換(huan)句話說,他們(men)在(zai)制造“槍(qiang)”然后(hou)來(lai)殺(sha)掉(diao)彼(bi)此。
AI的初心應該是像《血戰鋼鋸嶺》一樣,我不帶槍,但是可以縫合這個世界,希望未(wei)來(lai)有更多做技術的(de)人可以用這(zhe)(zhe)些技術來(lai)縫合這(zhe)(zhe)個(ge)(ge)世界,讓每(mei)個(ge)(ge)人、每(mei)個(ge)(ge)個(ge)(ge)體(ti)都能夠從中享受到AI帶來(lai)的(de)快樂(le),這(zhe)(zhe)很重要。
人類的目光總是是很短淺的,他們想一口吃個胖子,所以在講大模型,大模型意味著一個輪船可以海上跑、天上飛、地道里面鉆,這叫大模型。但到頭來解決問題的還是專用模型,輪船只能在海上,飛機在天上,有一天我們希望有兩棲東西產生,但是現在這個時間點還不能擁有,此時此刻我們的生產力、物力、算法跟不上,需要等一等。
大部分AI大模型創業公司會在5年內死去,我看到這個行業的人沒有技術壁壘,也找不到應用場景,解決不了真的問題,而且沒有錢繼續燒。此時此刻(ke)我把這個話(hua)放在這兒,再過5年后你們翻回來找這句話(hua),如果發現這句話(hua)是(shi)錯的,請(qing)在評(ping)論下面罵我。
我們不應該只談大模型而放棄專用模型,不能只練大腦不練肌肉。
四、打造視聽領域垂直AI大模型集群,聯手華為推出視頻配音工具Sora Opera
AI大模(mo)型在各(ge)行(xing)各(ge)業(ye)都有使用,我們(men)應該怎么(me)(me)發展?還是以我們(men)的視(shi)聽(ting)行(xing)業(ye)為例,我們(men)最(zui)早在布局這個產業(ye)的時候(hou),別人說(shuo)我們(men)是騙子,因為他(ta)們(men)不懂(dong)什么(me)(me)叫(jiao)模(mo)型。
到今天為止,我們已經擁有中國視聽領域里面最專業的垂直AI大模型集群,本來是垂(chui)直AI模(mo)型集群,但我的合伙(huo)人(ren)說(shuo)你(ni)把“大(da)”加上(shang)吧,不(bu)然別人(ren)聽不(bu)懂,所以我們叫AI大(da)模(mo)型集群,會在北京國際電影(ying)節發布(bu)。
先講我們做了什么。Sora Opera,用了半年多了,今年跟(gen)華(hua)為聯合(he)推出。什么是(shi)Sora Opera?它本來(lai)不(bu)叫這個名(ming)字,Sora出來(lai)之后,一些(xie)人建議(yi)說最好跟(gen)Sora有(you)(you)關,我們就起(qi)這個名(ming)字Sora Opera,它可以(yi)給所有(you)(you)生成式視(shi)(shi)頻,所有(you)(you)手機(ji)拍(pai)的視(shi)(shi)頻進行(xing)配音(yin)。
我們(men)先(xian)來看圖(tu)片上這(zhe)個小怪物,再來看猛犸(ma)象。在(zai)展示(shi)更多之前,我想(xiang)說一(yi)下,人們(men)仿佛在(zai)按照(zhao)計算(suan)機(ji)的邏(luo)輯適應計算(suan)機(ji),比如你(ni)想(xiang)需要(yao)一(yi)段好的文(wen)字(zi)或者(zhe)視頻,必須(xu)要(yao)輸(shu)入適應計算(suan)機(ji)的提示(shi)詞,這(zhe)其實(shi)是(shi)反著(zhu)發展的。有沒有一(yi)種途徑可以讓人不去輸(shu)入Prompt,直接點(dian)上傳下載?可以,我們(men)的Sora Opera去除所有的Prompt,這(zhe)意味著(zhu)你(ni)的模型必須(xu)識別圖(tu)片類的信息。
我們來聽第一個(ge)、聽第二個(ge)。每一個(ge)故(gu)事(shi)都是壓著節奏(zou),手碰花(hua),花(hua)會(hui)響,不碰花(hua),花(hua)不會(hui)響,我們按(an)照時間一致性來理(li)解(jie)這個(ge)事(shi)情,讓(rang)這個(ge)模(mo)型(xing)具備(bei)視(shi)聽領域(yu)里面(mian)的(de)(de)(de)智能。它可以識別(bie)很多個(ge)電(dian)視(shi)里面(mian)的(de)(de)(de)內容(rong),并且雜亂生成。它可以識別(bie)火車聲音從遠到近的(de)(de)(de)效(xiao)果,還有跳舞的(de)(de)(de)小動物、自然環境。
未來哪(na)里能用(yong)到?各家手(shou)機都在宣傳(chuan),“我家手(shou)機可(ke)以一鍵成片”,如果那個成片沒(mei)有音(yin)效,相當于這個世界沒(mei)有聲音(yin),只有視覺(jue)是不夠的。未來的所(suo)有領域都可(ke)以使用(yong)這樣的技(ji)術。
再說一個,SoundMax。聲音(yin)是人(ren)(ren)(ren)類獲(huo)得信(xin)息34%的(de)(de)(de)主要(yao)因素。這(zhe)個功能主要(yao)用(yong)(yong)來(lai)配(pei)音(yin),用(yong)(yong)我的(de)(de)(de)聲音(yin)模(mo)擬各種各樣的(de)(de)(de)聲音(yin),我們不走TTS的(de)(de)(de)路(lu)線,TTS是輸入(ru)文字變成(cheng)聲音(yin),我們需要(yao)有人(ren)(ren)(ren)在后面(mian)來(lai)模(mo)擬千行百業的(de)(de)(de)人(ren)(ren)(ren)。
我們先聽第一個人叫白小姐,第二個人的聲音是說書人,這兩個人都是我用手機錄的,現在我們聽聽經過AI處理之后的兩個人。我們希望未來AI技術誕生以后讓每個個體都是超級個體,讓創作去中心化。
五、未來AI視聽的機會在哪兒?
最后再簡單說一說發行,未來的機會在哪里?
我們知道此(ci)時(shi)此(ci)刻是經濟(ji)下行(xing),1905年(nian)到(dao)1914年(nian)美國(guo)的變化恰如此(ci)時(shi)此(ci)刻這個(ge)時(shi)代所經歷的變化。工具創新以Sora們為例,會出(chu)(chu)現一個(ge)結(jie)果,過(guo)(guo)度電(dian)子(zi)化,因(yin)(yin)為生產內(nei)容極其(qi)容易,網上(shang)線上(shang)本來就(jiu)不缺內(nei)容,又因(yin)(yin)為過(guo)(guo)度容易的生產工具導致內(nei)容泛濫,就(jiu)會出(chu)(chu)現過(guo)(guo)度電(dian)子(zi)化。
那么新業態在哪里?新工具誕生了,怎么沒有新業態?新業態可以這么理解,首先沖擊兩個不好的地方,第一是流媒體平臺,本來流媒(mei)體平臺(tai)就(jiu)是有豐富的(de)內容(rong),現在又(you)沖過來一堆動(dong)態PPT,人(ren)們(men)非(fei)常焦(jiao)急,甚(shen)至(zhi)會花時間去甄(zhen)別哪(na)個(ge)真哪(na)個(ge)假。
第二個,電影院,每個(ge)用(yong)戶都有機會表達自我,關注我發(fa)了(le)朋(peng)友圈誰給我點贊,電(dian)影院的敘事方式已經不太(tai)適合(he)當下的觀眾。
第三個,游戲平臺,做游戲(xi)會越來越容(rong)易,容(rong)易的不(bu)是編(bian)程,容(rong)易的是設計,美(mei)術越來越容(rong)易,編(bian)程方(fang)面也會推進,所以AI會對它(ta)們有沖擊。
我簡單總結了一下,一切非真人互動和非真實體驗的企業和產業都會受到這波沖擊。
新機會在哪里?第一個是XR產業,第二個是線下娛樂產業,未來巨大的機會在這個地方,我做了一個總結叫沉浸式產業。
這個產業有幾個屬性:第一,高科技加持。這個產業必須有科技,不然這個產業沒法變革。第二,強社交屬性。經濟下行,人們心理壓力會大,人們必須回歸到線下,并且見到真實的可確定性。第三,條件十分便宜,便宜到(dao)你喝一杯咖啡的價格就可以(yi)玩一個小(xiao)時、兩個小(xiao)時。
第四,模式可復制,全國各地可復制才能掙錢。第五,內容更新快,每天有兩個新的內容可以玩。最后,成本低,內容快就(jiu)代表著(zhu)成本低,而這一切全部是(shi)AI和今天的電子(zi)工業(ye)給我們(men)帶來的機會(hui),沒有這兩(liang)個(ge)產業(ye)的出現就(jiu)沒有這樣的機會(hui)。
我認為,未來AI視聽的機會在線下,而不在線上。至少今天的(de)(de)傳(chuan)統互聯網應(ying)該是(shi)沒什么機會了(le),不信(xin)可以看看,他(ta)(ta)們能做的(de)(de)就是(shi)投(tou)資,他(ta)(ta)們想真正研(yan)發出一(yi)款使(shi)用的(de)(de)產品太難(nan)了(le)。
在線(xian)下(xia)可能會有哪些?今天不(bu)在這(zhe)兒賣關子了(le),希(xi)望大家(jia)快來成(cheng)為我的朋友,我們一起討(tao)論線(xian)下(xia)在哪里。
以上是圖拉古演講內容的完整整理。