智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 云鵬

智東西8月12日報道,今日,昆侖萬維開源自研世界模型Matrix系列中Matrix-Game交互世界模型的升級版本——Matrix-Game 2.0

上周,谷歌DeepMind推出交互式世界模型Genie 3,實現了交互式實時長序列生成,引起產業關注。然而Genie 3并沒有開源。昆侖萬維Matrix-Game 2.0是業內首個在通用場景上,實現實時長序列交互式生成的世界模型開源方案。這意味著具身智能、游戲、影視及元宇宙多個領域的(de)開發(fa)者將獲(huo)得一個高(gao)開放(fang)可(ke)用(yong)的(de)數(shu)據合成、模型(xing)訓練及場景搭建的(de)生產力工(gong)具。

Matrix-Game 2.0有以下(xia)三大特點(dian):

1、實時蒸餾。采用(yong) “少步擴散” 技術,實現(xian)25FPS(幀(zhen)/秒)的(de)流式視(shi)頻(pin)合成(cheng),能以(yi)超高速在復雜(za)環境中生成(cheng)分鐘級、高保真的(de)視(shi)頻(pin)。

2、精準動作注入。一個 “鼠標(biao) / 鍵盤到幀(zhen)” 模塊,可將(jiang)用戶輸入作為直接交互(hu)嵌入其中,從而在(zai)生成(cheng)的視頻中實(shi)現幀(zhen)級控(kong)制和(he)動態響應。

3、大規模交互式數據管道。一個適用于虛幻引擎(Unreal Engine)和《俠盜獵車手 5》(GTA5)的(de)可擴展生(sheng)產系統,能生(sheng)成約(yue)1200小時的(de)高(gao)質量交(jiao)互(hu)式(shi)視頻(pin)數據(ju),涵(han)蓋多樣化場(chang)景,且具(ju)備幀級真實感。

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

▲基于Matrix-Game 2.0生(sheng)成(cheng)的(de)交互(hu)式(shi)模型

這款模型的視頻生成效果(guo)如(ru)何?有(you)(you)什么樣的應用價值?又(you)有(you)(you)什么技(ji)術亮(liang)點(dian)?本(ben)文帶大家一(yi)探究竟。

項目主頁:
//matrix-game-v2.github.io/
HuggingFace地址:
//huggingface.co/Skywork/Matrix-Game-2.0
GitHub地址:
//github.com/SkyworkAI/Matrix-Game

一、低延遲、高幀率、長時序,國產交互式世界模型開源

相較于上一版本,Matrix-Game 2.0更(geng)加(jia)側重低延遲、高幀率的(de)長序列交(jiao)互性(xing)能,能夠以25 FPS的(de)速(su)度,在多種(zhong)復雜場景中穩定(ding)生(sheng)成連續(xu)視頻內容(rong),且生(sheng)成時長可擴展至分鐘級(ji),大幅提升了連貫性(xing)與實用性(xing)。

在推理(li)(li)速(su)度顯著提升的同時(shi),模型依然保持了對(dui)物理(li)(li)規律與場景語義(yi)的精準理(li)(li)解(jie),支(zhi)持用戶通過簡(jian)單指令,自(zi)由(you)探索、操控并實(shi)時(shi)構建(jian)結構清晰、細節豐富、規則合理(li)(li)的虛擬環境(jing)。

在(zai)性(xing)能測(ce)(ce)試上,如(ru)下圖所示,Matrix-Game 2.0在(zai) Minecraft場景的(de)GameWorld Score基(ji)準(zhun)測(ce)(ce)試中取(qu)得了好成績,在(zai)圖像質量、美學品質、鼠標指針(zhen)等(deng)多個方面的(de)得分均(jun)超過了全球首(shou)個實時可玩可交互(hu)的(de)世界模(mo)型Oasis。

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

例如在一(yi)些無約束、不可(ke)(ke)控的真實(shi)場(chang)景,Matrix-Game 2.0可(ke)(ke)根據用(yong)戶輸入的任意控制指(zhi)令,如鍵盤的 W/A/S/D 方向鍵、鼠標用(yong)于(yu)視角移(yi)動,生成對應的交互世(shi)界視頻,支持角色(se)的前(qian)后(hou)左右移(yi)動以及視角變換等動態行為。

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

▲Matrix-Game 2.0支持(chi)無約(yue)束(shu)、不可控的真實場景交互

在GTA游戲場景和Minecraft場景中,Matrix-Game 2.0也支持(chi)鍵(jian)盤與(yu)鼠標操作,并且能夠生(sheng)成真實感更強、符合(he)物理邏輯的可交互(hu)視頻(pin)。

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

▲Matrix-Game 2.0支(zhi)持GTA游戲(xi)場景交互

二、自回歸擴散生成機制,實時生成長視頻

交(jiao)互式視頻生成領域的(de)最新進展展現了(le)(le)擴散模(mo)(mo)型作(zuo)為世界模(mo)(mo)型的(de)潛力。然而,現有的(de)交(jiao)互式世界模(mo)(mo)型依(yi)賴于雙向注意力機制(zhi)和冗長的(de)推理步驟,嚴重(zhong)限制(zhi)了(le)(le)實時性能。因此,它們難以模(mo)(mo)擬現實世界的(de)動態。

為(wei)了解決這個問題,昆侖萬維提出(chu)了Matrix-Game 2.0,一個交互式世(shi)界模型,它(ta)通過幾步(bu)自(zi)回歸擴散算法實時生成(cheng)長視(shi)頻。其基礎模型源自(zi)WanX,通過移除文本分支并添加(jia)動作(zuo)模塊(kuai),該模型僅根據視(shi)覺內容和對(dui)應的(de)動作(zuo)來(lai)預測下一幀。

AI做了個“GTA5”?國產開源世界模型硬剛谷歌,實時交互、分鐘級生成

Matrix-Game 2.0的框架由三(san)個關鍵組件組成(cheng):

1、一個適用于(yu)虛幻引擎和GTA5環境的(de)可(ke)擴展數(shu)據生產(chan)流水線(xian),可(ke)有效生成海量(liang)(約 1200小時(shi))交(jiao)互(hu)式(shi)視頻數(shu)據;

2、一個動(dong)作注入(ru)模塊(kuai),支持(chi)幀(zhen)級鼠標和(he)鍵盤(pan)輸入(ru)交互;

3、基(ji)于(yu)隨意架構的幾步提煉,用于(yu)實時流式(shi)視頻生成(cheng)。

Matrix-Game 2.0基于(yu)Self-Forcing訓(xun)練策略,通過(guo)創新(xin)的自(zi)回(hui)歸擴散生成(cheng)機制克(ke)服了傳統雙(shuang)向擴散模型(xing)的延(yan)遲和(he)誤差累積問題:

1、因果擴(kuo)散模(mo)(mo)(mo)型(xing)訓練:將(jiang)雙向(xiang)擴(kuo)散模(mo)(mo)(mo)型(xing)蒸餾為因果模(mo)(mo)(mo)型(xing),使(shi)用基礎模(mo)(mo)(mo)型(xing)初始化生成器,并構(gou)建小規(gui)模(mo)(mo)(mo)數據集,通過近似ODE軌跡進行訓練,穩定(ding)自回歸擴(kuo)散過程(cheng)。通過歷史幀(zhen)條件生成當(dang)前幀(zhen),減少(shao)因依賴未(wei)來幀(zhen)而(er)導致的(de)時序延遲。

2、分(fen)布匹配(pei)蒸(zheng)餾(liu)(DMD):通過最小化與基(ji)礎模型(xing)之間(jian)的分(fen)布差異,引導學生(sheng)模型(xing)學習生(sheng)成高質(zhi)量視頻(pin)幀,對齊訓練與推理階段的分(fen)布,顯著(zhu)緩解(jie)誤差積累問(wen)題。

3、KV緩存機(ji)制(zhi):引入鍵值緩存機(ji)制(zhi)(KV-Cache),顯(xian)著(zhu)提升長(chang)視頻生成(cheng)(cheng)(cheng)的(de)效(xiao)率和一致性。該機(ji)制(zhi)通過維護固定(ding)長(chang)度的(de)注(zhu)意力(li)上下(xia)(xia)文,實(shi)(shi)(shi)現(xian)(xian)無縫滾(gun)動生成(cheng)(cheng)(cheng),支持無限時長(chang)的(de)視頻輸出,解決了訓練(lian)與(yu)推理場景下(xia)(xia)上下(xia)(xia)文不一致的(de)問題。基于此實(shi)(shi)(shi)現(xian)(xian)長(chang)時視頻的(de)高效(xiao)生成(cheng)(cheng)(cheng)而無需重復(fu)計算,單GPU上可實(shi)(shi)(shi)現(xian)(xian)25 FPS實(shi)(shi)(shi)時生成(cheng)(cheng)(cheng)。

Matrix-Game 2.0能夠以25 FPS的超快(kuai)速度跨不同(tong)場景(jing)生成高質量的分(fen)鐘(zhong)級視頻。昆侖萬維(wei)開(kai)源其模型(xing)權重(zhong)和(he)代(dai)碼(ma)庫,以推進交(jiao)互式世界建模的研究。

結語:世界模型加速具身智能、游戲影視發展

以(yi)谷歌Genie等為代表的世界模型(xing),正推(tui)動(dong)AI從內容生成(cheng)工具升(sheng)級為“世界構建者”,昆侖萬(wan)維開源的Matrix系(xi)列是中國在(zai)空(kong)間智能領域取得里程碑進展。

隨著其最新迭代的Matrix-Game 2.0落地(di),具身智能體訓練與數據生成(cheng)、虛擬游戲世界高效搭(da)建、影視(shi)及(ji)元宇宙(zhou)內容生產等(deng)領域有望(wang)加速(su)發展,為中國AI產業開辟(pi)新范式。