智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 心緣

智東西7月(yue)19日(ri)報道,今(jin)日(ri)下午,在(zai)字(zi)節跳(tiao)動AI技(ji)術(shu)(shu)菁英論壇上(shang),字(zi)節跳(tiao)動豆包大(da)模型(xing)視(shi)覺基礎研究團隊負責(ze)人馮(feng)佳時主(zhu)持,多位視(shi)覺大(da)模型(xing)研究的關鍵(jian)人物集中演講,詳(xiang)細解(jie)讀字(zi)節跳(tiao)動在(zai)視(shi)頻生成和3D圖像生成模型(xing)的一(yi)系列創新技(ji)術(shu)(shu)。

作為國(guo)內(nei)短視頻(pin)王者,字節跳(tiao)動是國(guo)內(nei)最(zui)受(shou)關注(zhu)的AI視頻(pin)生(sheng)(sheng)成(cheng)(cheng)玩家之一,從去年11月(yue)發布高動態視頻(pin)生(sheng)(sheng)成(cheng)(cheng)研究成(cheng)(cheng)果PixelDance、今年發布AI視頻(pin)生(sheng)(sheng)成(cheng)(cheng)模(mo)型MagicVideo-V2和開(kai)啟AI創作工具即夢Dreamina視頻(pin)生(sheng)(sheng)成(cheng)(cheng)功能的測試,每次進展都吸引了(le)大量開(kai)發者關注(zhu)。

今天,字節跳(tiao)動研究科學家周大(da)權回顧了(le)字節跳(tiao)動過視頻生成模型的(de)三年發(fa)展(zhan)歷程,以及字節在連(lian)續高動態長視頻生成技術上的(de)探索。

此(ci)外,字節研究科學家Bingyi Kang、張健鋒(feng)、廖(liao)俊豪分別分享了(le)單目深度(du)估(gu)計(ji)基礎模(mo)型Depth Aything、多視角條件擴散模(mo)型Magic-Boost、拖拽式圖(tu)像編(bian)輯工具(ju)InstaDrag的最新成果(guo)。

一、視頻生成一分為二,先文生圖、再圖生視頻

字節(jie)跳動(dong)(dong)研究科學家周大權的(de)演(yan)講主題是《連續高動(dong)(dong)態的(de)長(chang)視頻(pin)生(sheng)(sheng)(sheng)成(cheng)方案探索》,為了(le)讓(rang)生(sheng)(sheng)(sheng)成(cheng)視頻(pin)中主要角(jiao)色的(de)運(yun)動(dong)(dong)范圍(wei)擴大,字節(jie)跳動(dong)(dong)將這一過程分為文生(sheng)(sheng)(sheng)圖、圖生(sheng)(sheng)(sheng)視頻(pin)兩步,使得模(mo)型生(sheng)(sheng)(sheng)成(cheng)所(suo)需的(de)GPU資源和訓練數據(ju)減少。

2022年,字節跳動(dong)發布了視頻(pin)生(sheng)成(cheng)模(mo)型(xing)(xing)的(de)第一個版本,在(zai)這之后(hou),研究人員(yuan)開始在(zai)移動(dong)算法(fa)、硬件效率(lv)等維度進行模(mo)型(xing)(xing)優化。在(zai)運動(dong)算法(fa)優化方(fang)面,研究人員(yuan)需要(yao)創建(jian)長視頻(pin)數據集。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

目(mu)前,視(shi)頻生成效果(guo)中運動(dong)范圍都(dou)較小,如下圖中人物的運動(dong)軌跡實際上在整個畫面中只占很(hen)小的位(wei)置。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

想實現更加動態的視頻效果,需要繁重的GPU資源以(yi)及大量訓練數據。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

研究人員通過保持給定Token一致性,就可以確保生成不同時刻的剪輯是相同Token

通用視頻生成模型的最終目標是希望不投入太多GPU資源(yuan)以(yi)及(ji)大(da)量(liang)數據,同時生成過程(cheng)可(ke)控(kong)。把這些結合起來就是字節跳動研究人員的(de)最(zui)終解決(jue)方案(an)。

他們將文生視頻分為兩個過程,從文本到圖像的處理過程只需要文本和圖像數據,第二步是圖像到視頻。在文生圖的過程中讓不同圖像持有相同ID,就可以降低訓練難(nan)度。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

周大權稱,有時用戶(hu)只需要(yao)輸入一句(ju)話(hua)就可(ke)以獨立生成六(liu)個不(bu)同圖像(xiang),將這些圖像(xiang)組合起來成為(wei)一段視(shi)頻就可(ke)以降低學(xue)習的(de)復雜(za)性以及模(mo)型實現(xian)的(de)難度。

在這(zhe)之中,研究(jiu)人員修改了圖像(xiang)(xiang)(xiang)相(xiang)似(si)度(du)計算(suan)過(guo)程(cheng)中的(de)(de)注意力,它們(men)只需要計算(suan)單個(ge)圖像(xiang)(xiang)(xiang)內的(de)(de)相(xiang)似(si)度(du)。研究(jiu)人員現在只將上(shang)下(xia)文(wen)擴(kuo)展到(dao)相(xiang)鄰圖像(xiang)(xiang)(xiang)中,利(li)用這(zhe)種新的(de)(de)自注意力機制,就(jiu)可以(yi)進(jin)行文(wen)生(sheng)圖像(xiang)(xiang)(xiang)以(yi)及圖像(xiang)(xiang)(xiang)到(dao)視頻的(de)(de)組合。

同時,在(zai)基于獨立文(wen)本生成圖(tu)(tu)像時,其還可(ke)以(yi)(yi)保留細節。圖(tu)(tu)像轉換為視(shi)頻時,該模型可(ke)以(yi)(yi)預測這兩(liang)個圖(tu)(tu)像之間的中間幀(zhen),然后生成中間視(shi)頻,從(cong)而生成擁有無限鏡(jing)頭的視(shi)頻。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

二、DepthAything,成高質量2D轉3D圖像新思路

字(zi)節跳動(dong)研究科學家Bingyi Kang的(de)演(yan)講(jiang)主題是《DepthAnything:單目深度估計的(de)基礎模(mo)型》,該模(mo)型可(ke)以更有效地從(cong)2D圖像中(zhong)識(shi)別(bie)出深度信(xin)息圖,讓普通手機(ji)拍攝的(de)2D影像也能(neng)快速(su)轉3D。

基于語(yu)言(yan)和視覺的基礎(chu)模型(xing)(xing)可以提(ti)供很強的現(xian)實泛(fan)化能力,其背后的難題就(jiu)是數(shu)據(ju)方案(an)和模型(xing)(xing)方案(an)。DepthAything提(ti)出了一(yi)種單(dan)目深度估計(ji)技術(shu),能更有效地從2D圖像中識別出深度信息圖。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

基(ji)于此,字節跳(tiao)動的(de)研(yan)究(jiu)人員(yuan)進(jin)行了(le)數(shu)據(ju)(ju)縮放(fang),Bingyi Kang談(tan)道,首先(xian)是匯總所(suo)(suo)有的(de)數(shu)據(ju)(ju),研(yan)究(jiu)人員(yuan)集成了(le)6個公共數(shu)據(ju)(ju)集和大約(yue)1500萬張圖片。隨(sui)后基(ji)于這些數(shu)據(ju)(ju)訓(xun)練模型。研(yan)究(jiu)人員(yuan)在標記(ji)圖像(xiang)上(shang)單獨(du)訓(xun)練教(jiao)師模型,并通(tong)過這個教(jiao)師網絡對所(suo)(suo)有圖像(xiang)進(jin)行適當處理。

為了讓數據標(biao)記(ji)更有效,研究人員采取了兩種(zhong)措施,第一(yi)種(zhong)是將數據增強添加(jia)到未(wei)標(biao)記(ji)的(de)圖像中,第二(er)種(zhong)是使(shi)用(yong)非知識(shi)論文損(sun)失(shi)函數。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

此外,真實數據有一(yi)定噪(zao)聲,會出現錯(cuo)誤匹配的情況且(qie)成(cheng)本(ben)很(hen)高。因此,他們首(shou)先(xian)在純合成(cheng)圖像上訓(xun)練(lian)一(yi)個(ge)教(jiao)師模(mo)型,然后(hou)使用(yong)這(zhe)個(ge)教(jiao)師模(mo)型對所有未標記(ji)的圖像進(jin)行(xing)工作室標記(ji),然后(hou)只使用(yong)真實圖像的學生(sheng)標簽來改變學生(sheng)模(mo)型。

DepthAnything技術的應(ying)用(yong)有望(wang)使得短視(shi)頻平臺上(shang)的2D影像轉化(hua)為3D影像,或將(jiang)應(ying)用(yong)于(yu)XR產業。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

三、Magc-Boost:15分鐘優化三維圖像生成,復雜紋理、幾何結構都能重現

字節跳動(dong)研究科學(xue)家(jia)張(zhang)健鋒(feng)的(de)演講主題是《Magic-Boost:通(tong)過多視(shi)圖條件(jian)擴散提(ti)升3D生成(cheng)》,可以在15分鐘內優化生成(cheng)結果(guo),從而(er)保留復雜的(de)紋理或者幾何結構(gou)。

三維技術在電(dian)影(ying)視覺特效、AR等場景中擁有廣泛應用,人(ren)們(men)可以自定義自己的角色、視覺效果,城市生成(cheng)技術可以應用于(yu)城市規劃、工業設(she)計等。目前,研(yan)究人(ren)員(yuan)多利用二維擴散模(mo)型生成(cheng)多視角圖(tu)像,然后再將這些圖(tu)像轉化(hua)為(wei)精準(zhun)3D模(mo)型。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

張健鋒談道,首(shou)先(xian)可(ke)以(yi)(yi)給定文本或(huo)圖像的輸入內(nei)(nei)容,通過(guo)多個不(bu)同模型(xing)生(sheng)成(cheng),然(ran)后使用快(kuai)速(su)重建(jian)模型(xing)從多個圖像中重建(jian)相應的城市對象。這(zhe)一過(guo)程(cheng)通常可(ke)以(yi)(yi)在10秒(miao)內(nei)(nei)完成(cheng)。

但(dan)這一生成的(de)圖(tu)像(xiang)與原始輸(shu)入之間仍會(hui)存在明顯(xian)的(de)性能(neng)(neng)差距,字節(jie)跳動的(de)研究(jiu)人員提出了多視角條件擴散模型Magc-Boost,可以利用多個(ge)圖(tu)像(xiang)來優化成本生成結果(guo),這一優化時間大約為15分鐘,其目的(de)在于讓圖(tu)像(xiang)中(zhong)能(neng)(neng)盡可能(neng)(neng)多包含對象的(de)細節(jie)信(xin)息。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

在(zai)與其他(ta)結果進(jin)行比較中,Magc-Boost可以實(shi)現快速精化,并(bing)保(bao)留過程中的(de)內容特性,并(bing)能(neng)在(zai)短時間(jian)內快速改進(jin)細節(jie)。

四、InstaDrag:拖拽一(yi)下(xia),1秒搞(gao)定照片(pian)編(bian)輯

字節跳動研究科學家廖俊豪的演講主題是《InstaDrag:從視頻數據中學習快且精準的拖拽式編輯》,InstaDrag可以使得用戶進行圖像編輯時速度最快提升百倍,在大約1秒內完成高質量拖拽式(shi)編(bian)輯(ji)圖(tu)像(xiang),還能保留無需編(bian)輯(ji)區域的特(te)征。

目前,一(yi)(yi)些圖(tu)像編輯工(gong)具中,用戶(hu)精(jing)確控制(zhi)將其移動到特定位置等基(ji)礎功能還(huan)無法實(shi)現。廖俊豪稱,因此(ci),一(yi)(yi)個快速高效的(de)基(ji)于(yu)拖拽的(de)圖(tu)像編輯方案(an)十分必要。

在圖像(xiang)編輯工具(ju)中,字節跳動的(de)四個目標(biao)就是快、未編輯區域不會產生(sheng)變(bian)化(hua)、外觀不變(bian)、 將圖片信(xin)息移動到目標(biao)位置。

相比于此前的方式,InstaDrag的圖片編輯可以實現10-100倍的(de)(de)速(su)度(du)提(ti)升,同(tong)時(shi)編輯更準確。同(tong)時(shi),自然視頻中會包含(han)大量的(de)(de)運動線索,這(zhe)些視頻數據就(jiu)可(ke)以形成配對監(jian)督來訓(xun)練模(mo)型。

為了保證(zheng)未編輯區(qu)(qu)域(yu)不發生變化,研究人(ren)員提(ti)供了一個遮罩,可以(yi)確保遮罩外的(de)每個像素保持不變只拖動遮罩內區(qu)(qu)域(yu)。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

在Demo演示中(zhong),用(yong)戶選擇遮罩區域并(bing)進行相應拖(tuo)動后,會出(chu)現4個結果(guo)以便(bian)從中(zhong)選擇。

結語:視頻、3D生成模型爆發機遇已來

世(shi)界模(mo)型,被認(ren)為是通(tong)往AGI的關鍵路徑之一。想要(yao)(yao)真正理解物(wu)理世(shi)界,也就意(yi)味著(zhu)需要(yao)(yao)更(geng)多視(shi)覺信(xin)號(hao),如二(er)維、三維圖像(xiang)、視(shi)頻(pin)等。

近(jin)一年來,AI視(shi)頻、3D生成領(ling)域(yu)的(de)熱度持續攀升(sheng),多家AI公司推出了新的(de)視(shi)頻生成模(mo)型,引(yin)發了行業內的(de)激烈競(jing)爭,從圖(tu)像生成、圖(tu)像編輯到更為(wei)復(fu)雜的(de)長視(shi)頻、三維信息生成等模(mo)型問世,徹底引(yin)爆了這條賽(sai)道。

在(zai)短視頻、AI領域等積累(lei)頗深的(de)字(zi)節跳動,或(huo)許會在(zai)這條路上(shang)帶來更多的(de)驚喜。