
智東西AI前瞻(公眾號:zhidxcomAI)
作者 | 江宇
編輯 | 漠影
短短半月,混元團隊又向3D生成(cheng)的“視野盲區(qu)”推進了一(yi)步。
智東西9月2日報道,今日,騰訊混元團隊正式開源其HunyuanWorld 1.0世界模型的官方擴展模型“HunyuanWorld-Voyager”。
這也是混元在近兩個月內,圍繞3D世界生成系統的第三次發布:7月(yue),團隊首次開源HunyuanWorld 1.0模型,支(zhi)持從(cong)文本或圖像生成(cheng)可漫游的(de)三維(wei)場景;8月(yue),推(tui)出適配(pei)消(xiao)費級顯卡(ka)的(de)Lite版本,降低(di)部署門檻。
Voyager則將目標從“生成一個可看的世界”進一步推向“構建一個可走、可擴展的世界”。
它主要針對當前世界模型在長距離生成和視角一致性上的限制,首次引入RGB-D視頻聯合建模與空間緩存機制,可根據單張圖和用(yong)戶設定的(de)相機軌(gui)跡,生(sheng)成結構連續、深度一致的(de)點云視頻,并可直接導出(chu)為標準3D格式。
換句話說,它不僅能把視野之外的區域合理補全,還能持續“記住”用戶走過的路徑,并在空間中銜接新的視角內容。
根據斯(si)坦福李飛飛團隊主導(dao)的WorldScore排(pai)行(xing)榜,Voyager在當前主流世界模型中平均成績位列第(di)一。
體驗指路:
主頁://3d-models.hunyuan.tencent.com/world/
Github://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
Huggingface://huggingface.co/tencent/HunyuanWorld-Voyager
技術報告://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
一、多種3D任務解鎖,直出結果可即用
Voyager不(bu)(bu)僅繼承了混元世界模(mo)型1.0的(de)(de)圖生世界能(neng)力,還進一步解決了“用戶走出(chu)原(yuan)視角之后”的(de)(de)補全問題。其生成(cheng)結果(guo)不(bu)(bu)僅可(ke)實時呈現(xian),還能(neng)直接導出(chu)為標(biao)準3D格式(如點(dian)云(yun)、mesh),無需借助Colmap、VGGT等后處(chu)理工具。
具體來看,Voyager可應用于以(yi)下典型任(ren)務:
1、控制生成視頻畫面:用戶可通過鍵盤或(huo)搖(yao)桿設(she)定相機軌跡(ji),系統生成對應視角的視頻序列,同時保持空間結構一致性(xing);
2、風格化編輯與控制:支持對生成視頻進行畫面(mian)風格調整(zheng)與局部重繪,保持內容可控;
3、圖生3D與視頻深度估計:支持從(cong)圖像生成結(jie)構(gou)完整的(de)3D物體,也可對普通視(shi)頻進行深度補全,用(yong)于三(san)維理(li)解(jie)與后續建(jian)模;
▲圖生3D物體
▲視頻深度估計
二、引入新架構,空間建模能力顯著增強
混元世界模型-Voyager架構是對混元世界模型1.0新視角內容的補全,引(yin)入了(le)“世界(jie)一(yi)致視頻擴散”與“長距離(li)世界(jie)探(tan)索”兩(liang)大(da)核心機制(zhi)。
此前(qian),混元世界模(mo)(mo)型(xing)1.0模(mo)(mo)型(xing)已支持從文本或圖像生(sheng)成(cheng)可(ke)漫游的三維世界,并(bing)輸(shu)出標準3D格式,兼容游戲引(yin)擎(qing)。但(dan)當用戶(hu)“走出”原始(shi)畫面后,生(sheng)成(cheng)范(fan)圍會(hui)受限。Voyager解決的正是這類遮擋與長距(ju)離(li)視角(jiao)問題。
1、世界一致的視頻擴散
目前,可控視頻(pin)生成(cheng)模(mo)型已經具備構建(jian)“世界模(mo)型”的潛力,但這(zhe)類“圖生視頻(pin)”方案(an)多停留(liu)在(zai)(zai)RGB模(mo)態,難以還原三維結構,限制(zhi)了(le)交互性和空間一致(zhi)性。相比(bi)之(zhi)下,顯式(shi)生成(cheng)3D場景(如點云、Mesh)可用于更真(zhen)實的空間重(zhong)建(jian),但受限于訓(xun)練數(shu)據(ju)和計算資源,難以在(zai)(zai)大(da)規模(mo)場景中泛(fan)化。
混元世(shi)界模(mo)(mo)型Voyager結合了視頻(pin)生(sheng)成(cheng)(cheng)與顯(xian)式3D建模(mo)(mo)兩類方法,支持在用戶設定相機軌跡和初始場景的(de)(de)(de)條件(jian)下,生(sheng)成(cheng)(cheng)空(kong)間(jian)一致的(de)(de)(de)RGB-D視頻(pin)序列,并可直接(jie)導出(chu)為(wei)點云(yun)格式的(de)(de)(de)三維數據。
Voyager首次在視頻生成中引入RGB+Depth的雙模態聯合建模,形成(cheng)“點(dian)云視頻”:
1、輸(shu)入:圖片+用戶指(zhi)定的相機軌跡;
2、輸出:RGB-D視頻序列,每幀均(jun)具(ju)備像素級深度信息;
3、拼接機制:先在(zai)空間維(wei)度上拼接RGB和D(Depth),再在(zai)特征(zheng)維(wei)度上結合兩(liang)模態信息,用VAE框架學(xue)習RGB-D的生成規律;
4、訓(xun)(xun)練(lian)結構:由雙流模塊與控制(zhi)模塊組(zu)成(cheng),基(ji)于Hunyuan-Video DiT模型進行訓(xun)(xun)練(lian)。
此外,為支撐訓練需求,混元團隊構建了一套可擴展的數據構建引擎,可自動對(dui)任(ren)意輸入視(shi)頻估計相(xiang)機(ji)姿(zi)態(tai)與時序信息,擺脫人(ren)工標注依(yi)賴(lai),批量生成可用(yong)于RGB-D建模(mo)(mo)的訓(xun)練樣本。基(ji)于該引擎,Voyager融合(he)真實視(shi)頻與虛幻(huan)引擎合(he)成數據,構(gou)建了包含超(chao)過10萬(wan)段視(shi)頻片(pian)段的大規(gui)模(mo)(mo)訓(xun)練集(ji)。
這種(zhong)機制讓(rang)Voyager具(ju)備(bei)“原生(sheng)3D記憶能力”,無需后(hou)處(chu)理重(zhong)建(jian)步驟即可生(sheng)成空間一致、格(ge)式統一的3D點(dian)云。
2、長距離世界探索
Voyager通過(guo)提(ti)出(chu)一(yi)種具(ju)備空間一(yi)致性的可(ke)拓展世(shi)界緩存機制,突(tu)破了長距離世(shi)界探(tan)索(suo)的限(xian)制。
1、先生(sheng)成一個(ge)初始(shi)場景點云緩存(來自HunyuanWorld 1.0);
2、再(zai)將緩存投影(ying)至用戶(hu)設定的(de)相機視角;
3、利(li)用(yong)擴散模型生成新視角畫面(mian),并不斷更新緩(huan)存,最(zui)終形(xing)成一個支持任意(yi)相機軌跡的(de)閉環系統。
這一方法兼顧空間結構記憶、視角(jiao)可控與多(duo)視圖(tu)一致(zhi)性,意味著用戶(hu)可以像玩第一人稱游戲一樣“自(zi)由走(zou)”,所到之處都能被系統填補,并保持幾何結構一致(zhi)。
三、三項實驗:驗證空間一致性與重建質量
為全面驗證HunyuanWorld-Voyager的性能表現,混元團隊圍繞視頻生成質量、三維場景重建能力以及世界生成能力三(san)個方向進(jin)行了系統實驗,覆蓋RGB視頻(pin)質量(liang)、幾何一致(zhi)性與(yu)長(chang)距離空(kong)間表達等(deng)多個維(wei)度。
1. 視頻生成:相似性與結構性指標均領先
在視(shi)頻生成(cheng)任務中,混元團隊(dui)選(xuan)取RealEstate10K數據集(ji)中的150個視(shi)頻片段,并(bing)與四種開源的攝像頭可(ke)控視(shi)頻生成(cheng)方法進(jin)行對(dui)比。
結果顯示(shi),Voyager在(zai)全部指標上(shang)均優于現有方法。
定(ding)性分析(xi)中,Voyager能夠生成更為多樣(yang)、結(jie)構清晰的視頻(pin)幀,尤(you)其在細節區域的保留(liu)上表現(xian)出色。例(li)(li)如(ru)在樣(yang)例(li)(li)中,其他(ta)方法(fa)在相機(ji)大幅(fu)移動時易(yi)產生α影或結(jie)構塌陷(xian),而Voyager仍能準確還原輸入圖像中的產品邊界與(yu)材質(zhi)細節。
2. 場景重建能力:融合RGB-D,三維結構更準確
在場景生成任務(wu)中,Voyager進一(yi)(yi)步驗證了(le)其RGB-D視頻(pin)序列對(dui)三維結構重建的(de)支持能(neng)力。混元團隊使用VGGT方(fang)法(fa)作為后處理統(tong)一(yi)(yi)流程,對(dui)比核(he)心模型的(de)RGB視頻(pin)生成后能(neng)否支持高質量(liang)點(dian)云還原(yuan)。
結(jie)果表明,即便在僅(jin)使用(yong)RGB重(zhong)(zhong)建的(de)場景下,Voyager生(sheng)成(cheng)的(de)視(shi)頻(pin)在幾何一(yi)(yi)致性方(fang)面也優于其他方(fang)法;而一(yi)(yi)旦加入原生(sheng)深度(du)信息初(chu)始(shi)化點云,重(zhong)(zhong)建精度(du)進一(yi)(yi)步提升。
在(zai)3D Gaussian Splatting任務中,Voyager成(cheng)功還原(yuan)了復雜結構(如吊燈)的完整形狀,而(er)其他方(fang)法在(zai)邊緣(yuan)結構與局部細(xi)節上普遍存在(zai)缺失。
3. 世界生成能力:跨域泛化與長距離空間表達能力增強
在(zai)更具挑戰性(xing)的WorldScore靜態基準(zhun)測試(shi)中,Voyager同樣展現出(chu)領先(xian)能力。該基準(zhun)評(ping)估模型在(zai)開(kai)放域條件(jian)下的世界建構能力,尤(you)其關注光學運動控(kong)制能力與空間一(yi)致性(xing)表現。
Voyager在該任務(wu)中(zhong)獲(huo)得最高平均分,驗證了(le)其空(kong)間(jian)一致建模(mo)機(ji)制具備跨數據域的泛化能力。
同(tong)時(shi),由于(yu)生成條件一致(zhi),Voyager在保證(zheng)一致(zhi)性的前(qian)提下,所驅動(dong)的相機運(yun)動(dong)幅(fu)度大幅(fu)超過對比(bi)模型(xing),其對于(yu)長(chang)路徑建(jian)模與多視角(jiao)連續性控(kong)制更具備優勢。
結語:讓生成的世界走得更遠
從靜態場景到可控(kong)漫游,再(zai)到具(ju)備深度信(xin)息與空間拓展,Voyager補足了混元世界模型在空間連續性上的一(yi)塊關鍵能力。
從一(yi)(yi)(yi)段(duan)文(wen)字、一(yi)(yi)(yi)張圖生(sheng)成一(yi)(yi)(yi)個初(chu)始場景(jing),再根據用戶設定(ding)的相機軌跡拓展(zhan)新視(shi)角(jiao)內容(rong),這種“邊走邊生(sheng)成”的邏輯,正在成為AI理解空間的另一(yi)(yi)(yi)種可能。