
智東西(公眾號:zhidxcom)
作者?|?香草
編輯?| 李水青
輸入單(dan)個物體視頻(pin),就能獲取任(ren)意拍攝(she)視角的全視圖3D動態視頻(pin)了!
智(zhi)東西(xi)7月25日(ri)消息(xi),昨日(ri)晚間,AI獨角獸Stability AI推(tui)出(chu)其首個(ge)視(shi)頻(pin)生視(shi)頻(pin)(video-to-video)模(mo)型Stable Video 4D(SV4D),該模(mo)型能夠將單個(ge)物體的視(shi)頻(pin)輸入,轉(zhuan)換(huan)為8個(ge)不同視(shi)角的多(duo)個(ge)新視(shi)頻(pin),用戶可(ke)任(ren)意指(zhi)定攝像機角度。
▲輸出全視圖視頻演示(shi)
目(mu)前,SV4D可以通過一次推理(li),在約(yue)40秒內生成8個(ge)視(shi)圖(tu)的各5幀(zhen)視(shi)頻,整個(ge)4D優化需(xu)要20-25分鐘。該模型已在Hugging Face上開(kai)源,適用(yong)于(yu)游戲開(kai)發、視(shi)頻編輯、虛擬(ni)現(xian)實(VR)等場景的應(ying)用(yong),可免費用(yong)于(yu)研(yan)究、非商業用(yong)途。
SV4D技術論文也同步發表,研究團隊由Stability AI和東北大學(xue)學(xue)者組成,其(qi)中詳細(xi)解讀了該模型的框架(jia)結構、優(you)化策略、測評(ping)結果(guo)等。
▲SV4D論文
Stability AI從2019年成立(li)起,就(jiu)(jiu)致力于研發文字、圖像、音頻、視頻等(deng)(deng)多個領域的開(kai)源模(mo)型(xing),其在2022年躋身獨角獸行列。雖然從去(qu)年以來它就(jiu)(jiu)陷入尋求賣身、核心技術團隊離職、CEO卸任等(deng)(deng)困境,但即便如此也(ye)沒能打斷(duan)其不斷(duan)開(kai)源新模(mo)型(xing)的腳(jiao)步。
今(jin)年6月,Stability AI在債臺高筑的(de)情況下獲(huo)得前Facebook總裁(cai)Sean Parker等投資者的(de)8000萬美元(yuan)注(zhu)資,并迎來(lai)了(le)新任(ren)CEO——前Weta FX(維塔數碼)負責(ze)人(ren)Prem Akkaraju。自(zi)Akkaraju上任(ren)以(yi)來(lai),Stability AI在一個月內又接連發布(bu)聊天機器人(ren)Stable Assistant、音頻生(sheng)成模型Stable Audio Open以(yi)及此次發布(bu)的(de)SV4D。
論文地(di)址(zhi):
//arxiv.org/abs/2407.17470
Hugging Face開(kai)源地(di)址:
//huggingface.co/stabilityai/sv4d
一、基于SVD升級4D框架,40秒生成多視角視頻
SV4D主要用在3D模型的(de)多(duo)視角(jiao)視頻生(sheng)成。其輸入為單個(ge)物(wu)體的(de)單視角(jiao)視頻,輸出為同一物(wu)體8個(ge)不同角(jiao)度的(de)多(duo)視角(jiao)視頻。
據介(jie)紹,該模(mo)型(xing)以圖生視(shi)(shi)頻(pin)模(mo)型(xing)Stable Video Diffusion(SVD)為基礎(chu),實(shi)現(xian)了從圖生視(shi)(shi)頻(pin)到視(shi)(shi)頻(pin)生視(shi)(shi)頻(pin)的能力飛躍(yue)。
具(ju)體(ti)運行時,用(yong)戶首先上傳一段視(shi)(shi)頻(pin)并指(zhi)定所需的(de)(de)攝(she)像機(ji)角度,SV4D會根據指(zhi)定的(de)(de)攝(she)像機(ji)視(shi)(shi)角生成8個(ge)新視(shi)(shi)角視(shi)(shi)頻(pin),從而提(ti)供拍攝(she)對象(xiang)的(de)(de)全面、多角度視(shi)(shi)頻(pin)。生成的(de)(de)視(shi)(shi)頻(pin)可(ke)用(yong)于(yu)優(you)化拍攝(she)對象(xiang)的(de)(de)動態表示,適用(yong)于(yu)游(you)戲(xi)開發(fa)、視(shi)(shi)頻(pin)編輯、VR等場景(jing)的(de)(de)應用(yong)。
▲SV4D輸入輸出
目前,SV4D仍處于研究(jiu)階段,可在(zai)40秒左右的時(shi)間內生成8個視角各5幀(zhen)視頻,整個4D優化流程約耗時(shi)20-25分鐘。
以(yi)往用(yong)于多視角視頻(pin)生成的(de)方(fang)法,通常需要從圖像擴散模(mo)(mo)型(xing)(xing)、視頻(pin)擴散模(mo)(mo)型(xing)(xing)和多視圖擴散模(mo)(mo)型(xing)(xing)的(de)組合中進行采(cai)樣(yang),而SV4D能夠同時(shi)生成多個(ge)新視圖視頻(pin),大(da)大(da)提高了空間(jian)和時(shi)間(jian)軸(zhou)的(de)一致性。此外(wai),該方(fang)法還(huan)可(ke)以(yi)實現更輕量的(de)4D優化(hua)框(kuang)架,而無需使用(yong)多個(ge)擴散模(mo)(mo)型(xing)(xing)進行繁瑣的(de)分數蒸餾采(cai)樣(yang)。
▲SV4D與其他方(fang)法(fa)對比
與其(qi)他方(fang)法相比,SV4D能夠生成更多(duo)樣(yang)的多(duo)視(shi)圖視(shi)頻(pin),且更加細致、忠(zhong)實(shi)于輸入視(shi)頻(pin),在(zai)幀和(he)視(shi)圖之(zhi)間保持一致。
SV4D是(shi)Stability AI推出的(de)(de)首(shou)個視(shi)頻到視(shi)頻生(sheng)成(cheng)模(mo)型,已在(zai)Hugging Face上開源發布。Stability AI稱,團隊仍在(zai)積極完(wan)善(shan)該模(mo)型,使其(qi)能夠處理更廣泛的(de)(de)現實世界視(shi)頻,而不(bu)僅僅是(shi)用于訓練的(de)(de)合成(cheng)數(shu)據集(ji)。
二、混合采樣保持時間一致,4D生成全面超基準線
SV4D的(de)技術論(lun)文也同步發(fa)表,其中詳細解讀了該模型的(de)框架結構。
總(zong)的(de)(de)來(lai)說,SV4D是一個(ge)用(yong)(yong)來(lai)生(sheng)成動(dong)態3D對象新視(shi)圖(tu)視(shi)頻的(de)(de)統(tong)一擴散模型(xing)。給定一個(ge)單目參考視(shi)頻,SV4D為每(mei)個(ge)視(shi)頻幀生(sheng)成在時間上一致的(de)(de)新視(shi)圖(tu),然后(hou)使用(yong)(yong)生(sheng)成的(de)(de)新視(shi)圖(tu)視(shi)頻來(lai)有效地優(you)(you)化(hua)隱式4D表(biao)示,而不需要基于分數蒸餾采樣的(de)(de)優(you)(you)化(hua)。
▲SV4D框架概述及生成(cheng)的4D資產(chan)
SV4D的(de)模(mo)型結構如(ru)下圖(tu)。基(ji)于(yu)相(xiang)機條件,SV4D將相(xiang)機視點的(de)正弦嵌(qian)入(ru)傳遞給UNet中的(de)卷積(ji)塊,并在空間和視圖(tu)注意力塊中,使用輸入(ru)視頻進行交叉(cha)注意力條件設定。為(wei)了提高時間一(yi)(yi)致性,SV4D引入(ru)了一(yi)(yi)個額(e)外(wai)的(de)運動注意力塊,并以(yi)第一(yi)(yi)幀的(de)相(xiang)應視圖(tu)為(wei)交叉(cha)注意力條件。
▲SV4D模型結構
為了在保持時間一致性(xing)的同時,擴(kuo)展生(sheng)成(cheng)的多視(shi)圖視(shi)頻,研發團隊在推理過程中提出了一種新穎的混合采樣(yang)策(ce)略。
首先,SV4D采樣(yang)一(yi)組稀(xi)疏的錨定幀(zhen),然后(hou)將錨定幀(zhen)作為(wei)新的條件(jian)(jian)圖像,對中間(jian)幀(zhen)進(jin)(jin)行密集采樣(yang)/插值。為(wei)了確(que)保連續生(sheng)成之間(jian)的平滑過(guo)渡,SV4D在密集采樣(yang)期間(jian),交(jiao)替(ti)使用時(shi)間(jian)窗(chuang)口(kou)內的第(di)一(yi)幀(zhen)前向(xiang)幀(zhen)或最后(hou)一(yi)幀(zhen)后(hou)向(xiang)幀(zhen)進(jin)(jin)行條件(jian)(jian)設置。
▲SV4D模型采樣
在框(kuang)架的(de)優(you)(you)化上,SV4D使用(yong)參考多(duo)視圖(tu)圖(tu)像的(de)第一(yi)幀,優(you)(you)化由(you)多(duo)分(fen)辨率哈希(xi)網格以(yi)及(ji)密度和顏色(se)多(duo)層感知機(MLP)表示的(de)靜態(tai)NeRF,然后(hou)解(jie)凍時間(jian)變形MLP,并使用(yong)隨(sui)機采樣的(de)視圖(tu)和幀來優(you)(you)化動(dong)態(tai)NeRF。
▲優化框架概述
為(wei)了訓(xun)練統一的新(xin)視(shi)(shi)圖(tu)視(shi)(shi)頻(pin)生成模型,SV4D研發(fa)團(tuan)隊(dui)從現有的Objaverse數(shu)(shu)據集中整(zheng)理(li)了一個動態3D對象(xiang)數(shu)(shu)據集。在多個數(shu)(shu)據集上的實驗結果和用戶研究表明,與之前的工(gong)作相比(bi),SV4D在新(xin)視(shi)(shi)圖(tu)視(shi)(shi)頻(pin)合(he)成以及4D生成方面具有最(zui)先進的性(xing)能(neng)。
▲ObjaverseDy數據集上4D輸出的評(ping)估(gu)
在ObjaverseDy數(shu)據集上的4D輸出評估中,SV4D在所(suo)有指標方(fang)面優于(yu)基線,在視覺(jue)質量(liang)(LPIPS和CLIP-S)、視頻(pin)(pin)幀一(yi)致(zhi)性(xing)(xing)(FVD-F)、多(duo)視圖一(yi)致(zhi)性(xing)(xing)(FVD-V)和多(duo)視圖視頻(pin)(pin)一(yi)致(zhi)性(xing)(xing)(FVD-Diag和FV4D)方(fang)面都擊敗了(le)此前的模型。
結語:Stability AI多模態再添新布局
Stability AI以文生圖開源模型起(qi)家,在文本、視頻、3D等多個(ge)模態(tai)上都(dou)有所布局。此次開源SV4D,是其在3D+視頻生成(cheng)兩個(ge)方向上的共同進(jin)展。
盡管該模型(xing)目(mu)前仍處(chu)于前期研究階段,但它(ta)在(zai)各指(zhi)標(biao)表現出的優秀能力和(he)模型(xing)架構上的創新(xin)思路,為未來的發展開辟了廣(guang)闊的前景。隨著模型(xing)的迭代和(he)優化,SV4D有望在(zai)游戲、VR等更多領域的應用發揮重要作用。