智東西(公眾號:zhidxcom
作者?|?香草
編輯?|?李水青

AI視頻(pin)生(sheng)成賽道風起云涌,國內(nei)外新穎的文生(sheng)、圖生(sheng)視頻(pin)產品(pin)層出(chu)不窮。在各大廠商(shang)的“內(nei)卷”之下,當下的視頻(pin)生(sheng)成模型各方面已經(jing)接近“以(yi)假亂真”的效(xiao)果。

但與此同時,大部分視(shi)頻生成(cheng)模(mo)型的準確(que)程度、遵循指令的能力還有待提升,生成(cheng)視(shi)頻仍然是一個“抽卡”的過程,往往需(xu)要用(yong)戶生成(cheng)許多次,才(cai)能獲得符(fu)合需(xu)求的結果。這也造成(cheng)算力成(cheng)本(ben)過高、資源浪費等問題。

如何提(ti)升視(shi)頻(pin)生成的(de)精準(zhun)度,減少“抽卡”次數,利用盡(jin)可能(neng)少的(de)資(zi)源來(lai)獲(huo)取(qu)符合需求的(de)視(shi)頻(pin)?

智東西8月3日報道,阿里團隊近日推出視頻生成模型Tora,能夠根據軌跡、圖像、文本或其組合,簡單幾筆快速生成精確運動控制的視頻,同時也支持首尾幀控制,讓視頻生(sheng)成的可控性又上了一個階梯。

Tora是首個面向軌跡的DiT框架模型,利用(yong)DiT的可(ke)擴展性,Tora生成(cheng)的物(wu)體運(yun)動不僅能精確地(di)遵循(xun)軌跡,而且可(ke)以有效(xiao)地(di)模(mo)擬物(wu)理世界動態,相關論文已于(yu)8月(yue)1日(ri)發布在arXiv上。

阿里發“神筆馬良版Sora”,輕輕一抹讓貓咪轉向,20個演示視頻+10頁技術報告解讀

▲Tora論文

Tora目前僅提供視頻演示,其(qi)項(xiang)目主頁(ye)顯示,其(qi)后續將發(fa)布在線(xian)Demo和推理(li)、訓練代碼。

論文地址:

//arxiv.org/abs/2407.21705

項目地址:

//ali-videoai.github.io/tora_video/

一、三種模態組合輸入,精準控制運動軌跡

Tora支持軌跡、文本、圖像三(san)種模(mo)態,或它們(men)的(de)組合輸入,可對(dui)不同時長、寬高比(bi)和分辨率的(de)視頻內容(rong)進行(xing)動態精確控制。

軌(gui)跡輸入可(ke)以是各種各樣的直線(xian)(xian)、曲(qu)線(xian)(xian),其具有方向,不(bu)同(tong)方向的多個軌(gui)跡也可(ke)以進行組合。例如(ru),你可(ke)以用(yong)一(yi)條S型(xing)曲(qu)線(xian)(xian)控制漂浮(fu)物的運動(dong)軌(gui)跡,同(tong)時用(yong)文字描述來控制它的運動(dong)速(su)度(du)。下面(mian)這個視頻(pin)中,所(suo)使用(yong)的提示詞(ci)用(yong)到了“緩慢”、“優雅(ya)”、“輕(qing)輕(qing)”等副詞(ci)。

同一(yi)條軌跡也可以在一(yi)個軸線上反復(fu)運動(dong),生成來回搖動(dong)的畫面。

在同(tong)一張圖上,繪制不同(tong)的軌跡也可以讓Tora生成(cheng)不同(tong)運動(dong)方向的視(shi)頻。

而基于同一個軌跡(ji)輸入,Tora會根據(ju)主體的區別生成不同的運動方式。

與目前常見的(de)運動筆刷功能(neng)有(you)所不同(tong)的(de)是(shi),即使(shi)沒有(you)輸入圖像,Tora也(ye)可以(yi)基于軌跡和文本的(de)組(zu)合(he),生成對(dui)應(ying)的(de)視頻。

例如下(xia)面(mian)這(zhe)個視(shi)(shi)頻中的1、3兩個視(shi)(shi)頻,就是在沒有初始幀,只有軌跡和文字的情況下(xia)生成的。

Tora也支持(chi)首尾(wei)幀(zhen)控制,不(bu)過這(zhe)個案例(li)只以(yi)圖片(pian)形(xing)式出現在論(lun)文里(li),沒有提供視頻演示。

阿里發“神筆馬良版Sora”,輕輕一抹讓貓咪轉向,20個演示視頻+10頁技術報告解讀

▲Tora首(shou)尾幀控制

那么,只(zhi)有文(wen)本、圖(tu)像兩個(ge)模態輸(shu)入的(de)(de)話,能否實現(xian)同樣的(de)(de)效果呢(ni)?帶著這個(ge)疑問,我嘗試(shi)將相(xiang)同的(de)(de)初(chu)始幀和提(ti)示(shi)詞輸(shu)入其他AI視頻生(sheng)成器(qi)。

下(xia)面視(shi)頻中從(cong)(cong)左到(dao)右、從(cong)(cong)上到(dao)下(xia)依次為Tora、Vidu、清影、可(ke)(ke)靈生(sheng)成(cheng)的視(shi)頻。可(ke)(ke)以看(kan)到(dao),當(dang)軌跡(ji)為直線時,無軌跡(ji)輸入的視(shi)頻生(sheng)成(cheng)勉強(qiang)還算符合需求。

但當需(xu)要的運動(dong)軌跡變為曲線,傳統(tong)的文本+圖(tu)像輸(shu)入就難以滿足需(xu)求(qiu)。

二、基于OpenSora框架,創新兩種運動處理模塊

Tora采用OpenSora作為(wei)其基本(ben)模型DiT架構,OpenSora是AI創企潞晨科技設計并開源的視頻生成(cheng)模型框架。

為了實現基于DiT的軌跡控制視頻生成,Tora引入了兩個新型運動處理模塊:軌跡提取器(Trajectory Extractor)和運動引導融合器(Motion-guidance Fuser),用于(yu)將提供的軌跡(ji)編碼為(wei)多級(ji)時空運動補丁(motion patches)。

下圖展示了Tora的(de)整體架構(gou)。這一方(fang)法符(fu)合(he)DiT的(de)可(ke)擴展性(xing),能夠創建高分辨(bian)率(lv)、運動可(ke)控的(de)視頻(pin),且持(chi)續時(shi)間更長。

阿里發“神筆馬良版Sora”,輕輕一抹讓貓咪轉向,20個演示視頻+10頁技術報告解讀

▲Tora整體架構

其中,軌跡提取器采用3D運動VAE(變分(fen)自編碼(ma)器),將軌跡向量嵌入到與視(shi)頻(pin)補丁(video patches)相(xiang)同的(de)潛(qian)在空間(jian)中,可以(yi)有(you)效地保留連續(xu)幀之間(jian)的(de)運動信息,隨后(hou)使用堆疊的(de)卷(juan)積層(ceng)來提取分(fen)層(ceng)運動特征。

運動引導融合器則利用自(zi)適應歸(gui)一化層,將(jiang)這些多級運動條件無縫(feng)輸入到相應的(de)DiT塊中(zhong),以(yi)確保視頻生成始終遵循(xun)定義軌(gui)跡。

為了將(jiang)基(ji)于DiT的(de)視頻生成與軌跡(ji)相結(jie)合,作者探(tan)索了三種融合架構的(de)變體(ti),將(jiang)運動補丁注(zhu)入到每個(ge)STDiT塊(kuai)中(zhong),其中(zhong)自適應范數(Adaptive Norm)展示(shi)了最佳性(xing)能。

阿里發“神筆馬良版Sora”,輕輕一抹讓貓咪轉向,20個演示視頻+10頁技術報告解讀

▲運動引導融合器(qi)的三種架構設計

在具(ju)體的訓(xun)練(lian)過程(cheng)中(zhong),作者針對不(bu)(bu)同輸(shu)入條件采(cai)取了不(bu)(bu)同的訓(xun)練(lian)策略。

在軌跡訓(xun)(xun)練中,Tora使(shi)用(yong)(yong)兩階(jie)段訓(xun)(xun)練方法(fa)進行軌跡學習,第一(yi)階(jie)段從訓(xun)(xun)練視頻(pin)中提取密集光流,第二階(jie)段根據運動分段結(jie)果和光流分數,從光流中隨機選擇(ze)1到(dao)N個對(dui)象(xiang)軌跡樣本(ben),最后應用(yong)(yong)高(gao)斯濾波器進行細化。

在圖像(xiang)訓(xun)練中,Tora遵循OpenSora采(cai)用的掩碼策(ce)略來支持視(shi)覺調(diao)節,在訓(xun)練過程中隨機解鎖幀,未屏蔽幀的視(shi)頻補丁不受任何噪聲(sheng)的影響,這(zhe)使得(de)Tora能夠將(jiang)文(wen)本、圖像(xiang)和軌跡(ji)無縫集(ji)成(cheng)到一個統(tong)一的模型中。

與(yu)先進的運動可控視(shi)頻生成(cheng)模型進行定(ding)量比較(jiao)時,隨著生成(cheng)幀(zhen)數的增加(jia),Tora比基于UNet的方法具(ju)有越來越大的性(xing)能優勢,保持較(jiao)高(gao)的軌跡控制的穩(wen)定(ding)度(du)。

阿里發“神筆馬良版Sora”,輕輕一抹讓貓咪轉向,20個演示視頻+10頁技術報告解讀

▲Tora與其他可控視(shi)頻(pin)生成模型(xing)對比

例如基于同一輸(shu)入(ru),Tora生成的視頻(pin)比DragNUWA、MotionCtrl模型(xing)生成的更加(jia)平滑,對運(yun)動軌跡的遵(zun)循也更準確。

三、“期貨”已兌現,阿里持續布局AI視頻

AI視頻(pin)生(sheng)成玩(wan)家們打(da)得(de)如火如荼(tu),阿里(li)也一(yi)直(zhi)在(zai)持續圍攻AI視頻(pin)賽道。比(bi)起Sora等主攻視頻(pin)生(sheng)成長度和質量的(de)通用模型,阿里(li)團隊的(de)項目似乎(hu)更注重(zhong)于算(suan)法在(zai)不同視頻(pin)生(sheng)成形(xing)式上(shang)的(de)具體應(ying)用。

今年1月(yue),通(tong)義千問上線了“全民舞王”,憑(ping)借“兵馬俑跳科目三”出圈了一(yi)把;2月(yue),阿(a)里發布肖像視(shi)頻生成(cheng)框架(jia)EMO,一(yi)張圖就能讓照片里的人開口說話(hua)。

當時智東西(xi)統計了阿里在AI視頻上(shang)的布局,其在4個月(yue)內連發(fa)了至少(shao)7個新項目,覆蓋文生視頻、圖生視頻、人物跳舞(wu)、肖像(xiang)說話等方向。()

如今又(you)半年(nian)過去,EMO已經從“期(qi)貨(huo)”變(bian)成(cheng)通義App中的(de)“全民唱(chang)演”功(gong)能(neng),人(ren)人(ren)可用。阿(a)里也發布了更多AI視頻項目。

1AtomoVideo:高保真圖像到視頻生成

AtomoVideo發布于(yu)3月(yue)5日,是一(yi)個高保(bao)真(zhen)圖生(sheng)視頻框(kuang)架(jia),基于(yu)多粒度(du)圖像注入和高質(zhi)量(liang)的(de)(de)(de)數據集及訓練策略(lve),能夠保(bao)持生(sheng)成視頻與給定參考(kao)圖像之間的(de)(de)(de)高保(bao)真(zhen)度(du),同時實現豐富的(de)(de)(de)運動強度(du)和良好(hao)的(de)(de)(de)時間一(yi)致性。

阿里發“神筆馬良版Sora”,輕輕一抹讓貓咪轉向,20個演示視頻+10頁技術報告解讀

▲AtomoVideo生(sheng)成視頻效(xiao)果

項目主頁://atomo-video.github.io/

2EasyAnimate-v3:單張圖像+文本生成高分辨率長視頻

EasyAnimate是阿里在(zai)4月12日推出的(de)視(shi)(shi)頻生(sheng)成處理(li)流程,并在(zai)短短3個月內迭(die)代到v3版本。它通過(guo)擴展(zhan)DiT框架引入(ru)了運動模(mo)塊,增強了對(dui)時間動態的(de)捕(bu)捉(zhuo)能力(li),確保(bao)生(sheng)成視(shi)(shi)頻的(de)流暢性和一致性,可生(sheng)成不同分辨率6秒左右、幀率24fps的(de)視(shi)(shi)頻。

阿里發“神筆馬良版Sora”,輕輕一抹讓貓咪轉向,20個演示視頻+10頁技術報告解讀

▲EasyAnimate v3生成視頻效果

項目主頁://github.com/aigc-apps/EasyAnimate

結語:AI視頻生成可控性再上一層

在AI視頻(pin)生成時(shi)長、質量已經達到一定程度之際,如何讓生成的(de)(de)視頻(pin)更(geng)可控、更(geng)符合(he)需(xu)求(qiu),是當下的(de)(de)重要命題。

在精準度、可控性(xing)和資(zi)源利(li)用(yong)效(xiao)率等方(fang)面(mian)的持(chi)續優化下,AI視頻生成產品的使用(yong)體驗將迎來(lai)新的階段,價格(ge)也會更加親民(min),讓更多創(chuang)作者參與(yu)進來(lai)。