機器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影

機器人前瞻1月9日報道,這兩天,智元機器人、上海交通大學與上海人工智能實驗室共同研發的機器人領域首個4D世界模型EnerVerse亮相,該模型旨在讓機器人在任務指引和實時觀測的基礎上規劃未來動作。

在機器(qi)人技術領域中,動作(zuo)規(gui)劃始始終是一大難(nan)(nan)題。現有的機器(qi)人動作(zuo)規(gui)劃方法,往(wang)(wang)往(wang)(wang)難(nan)(nan)以實現在語(yu)言、視(shi)覺和動作(zuo)等多(duo)模(mo)態空(kong)間之(zhi)間精確對(dui)齊,并(bing)且還缺乏大規(gui)模(mo)、多(duo)模(mo)態且帶(dai)有動作(zuo)標簽的數據集。

對此,EnerVerse架構可以通過自回歸擴散(san)模型(autoregressive diffusion),在生成未來具身空間的同時引導機器人完成復雜任務。EnerVerse還引入稀疏(shu)記憶機制(Sparse Memory)與自由錨定視(shi)角(Free Anchor View, FAV),在提升 4D 生成(cheng)能力的(de)(de)同時,實現了(le)動作規劃性能的(de)(de)顯(xian)著突破(po)。

智元機器人表示,EnerVerse 不僅(jin)具(ju)備(bei)卓越的未來空間生成(cheng)能力,更在機器人動作規(gui)劃任務(wu)中實現了當前最優(SOTA)表(biao)現。

目前,項目主頁與論文已上線,模型與相(xiang)關數據集即將開源。

首個機器人4D世界模型來了!智元和上交大聯合研發

一、逐步生成未來具身空間,靈活表達4D空間

EnerVerse 采用逐塊生成的自回歸擴散模型,通過逐步生成未來具身空間來引導機器人動作規劃。其關鍵設計包括:1)擴散模型架構:基于結(jie)合時空注(zhu)意(yi)力的 UNet 結(jie)構,每個(ge)空間塊內部通(tong)過卷積與雙向(xiang)注(zhu)意(yi)力建模(mo);塊與塊之間通(tong)過單向(xiang)因果邏輯(causal logic)保持時間一致性(xing),從而確保生成(cheng)序列的邏輯合理(li)性(xing)。

2)稀疏記憶機制:借鑒大模型(LLM)的上(shang)下(xia)文記(ji)憶,EnerVerse 在訓練(lian)階(jie)段對歷史幀進行高比例隨機掩碼(mask),推理(li)階(jie)段以較大時間間隔更新(xin)記(ji)憶隊列,有效(xiao)降低計(ji)算開銷,同時顯(xian)著提(ti)升長程任(ren)務(wu)的生成能力。

3)任務結束邏輯:通(tong)過(guo)特(te)殊(shu)的結束(shu)幀(EOS frame),實現對任務結束(shu)時機的精準監(jian)督,確保生成過(guo)程在合適節點終止。

首個機器人4D世界模型來了!智元和上交大聯合研發

▲自回歸擴散模型

EnerVerse提出了靈活的自(zi)由錨定視(shi)角(FAV)方法,以解決(jue)過(guo)去在具(ju)身(shen)操作中(zhong)由于(yu)遮擋關(guan)系復雜,難以構(gou)建(jian)完美的全局(ju)視(shi)角的問題。核(he)心特點有:

1)自由設定視角:允許根據(ju)場景(jing)靈活重置(zhi)錨定視角,避免固定多視角在狹窄空間中(zhong)的局限性。例如,在廚房等場景(jing),FAV可以輕松適應(ying)動(dong)態的遮擋(dang)環境。

2)跨視角空間一致性:基于光線(xian)投射原理,EnerVerse使用視(shi)(shi)線(xian)方向(xiang)圖(tu)作為(wei)視(shi)(shi)角控制條件,同時將(jiang)擴散模型中的(de)2D空(kong)(kong)間(jian)注意力擴展為(wei)跨視(shi)(shi)角的(de)3D空(kong)(kong)間(jian)注意力,確保生成(cheng)的(de)多(duo)視(shi)(shi)角視(shi)(shi)頻在幾何上保持(chi)一致。

3)Sim2Real Adaption:通過(guo)在仿真(zhen)數據上(shang)微調的(de)4D生(sheng)成(cheng)模型與4D高斯潑濺(4D Gaussian Splatting)交(jiao)替(ti)迭代,構(gou)建了一個數據飛輪,為真(zhen)實場景下(xia)的(de)FAV生(sheng)成(cheng)提供偽(wei)真(zhen)值支持。

首個機器人4D世界模型來了!智元和上交大聯合研發

▲自由錨定視角方法

EnerVerse 還通過在生(sheng)成(cheng)(cheng)網絡下游集成(cheng)(cheng) Diffusion 策略頭(tou)(Diffusion Policy Head),打通未來(lai)空間生(sheng)成(cheng)(cheng)與(yu)機器人動作規劃(hua)的全鏈條。關(guan)鍵(jian)設(she)計包括:

1)高效動作預測:生成(cheng)網絡在逆擴(kuo)散(san)的第一步即可(ke)輸出未來動(dong)作序(xu)列,無需等待完(wan)整(zheng)的空間生成(cheng)過(guo)程,確保動(dong)作預測的實時性。

2)稀疏記憶支持:在動作預測推(tui)理中,稀疏(shu)記憶隊(dui)列存儲真(zhen)實或(huo)重(zhong)建的(de) FAV 觀測結果,有效提升(sheng)長程任務規劃(hua)能力。

二、視頻生成、動作規劃等多項能力出眾

實驗結果表面,EnerVerse 在視頻生(sheng)成、動作規劃、消融與訓(xun)練策略分析(xi)及注意(yi)力(li)可視化方面都表現出卓越的性(xing)能。

1、視頻生成(cheng)性能

短程(cheng)生(sheng)(sheng)成任(ren)務中,EnerVerse 表現優于現有微調(diao)視(shi)頻生(sheng)(sheng)成模型,如基于 DynamiCrafter 與 FreeNoise 的擴(kuo)散模型。

在長程(cheng)生成任務中,EnerVerse 展現出更(geng)強的邏(luo)輯一致性與連續生成能力,這是現有模型無法實現的。

首個機器人4D世界模型來了!智元和上交大聯合研發

▲EnerVerse的視(shi)頻生成表現(xian)優(you)于DynamiCrafter 與 FreeNoise的擴(kuo)散(san)模型

此外,EnerVerse在(zai)LIBERO仿(fang)真場景和AgiBot World真實場景中生(sheng)成的多視角視頻質量也(ye)得到了充分驗證。

首個機器人4D世界模型來了!智元和上交大聯合研發

▲EnerVerse生成多(duo)視角(jiao)視頻

2、動(dong)作(zuo)規劃(hua)能(neng)力

在LIBERO基準測試(shi)中,EnerVerse在機(ji)器人(ren)動作規劃(hua)任務中取得了顯(xian)著(zhu)優(you)勢。

其單視角(one FAV)模型(xing)在LIBERO四類(lei)任(ren)務中的平(ping)均成功率已(yi)超(chao)過現有(you)最(zui)佳方(fang)法,多視角(three FAV)設(she)定進一步提升任(ren)務成功率,在每一類(lei)任(ren)務上均超(chao)越現有(you)方(fang)法。

首個機器人4D世界模型來了!智元和上交大聯合研發

▲EnerVerse單視(shi)(shi)角、多視(shi)(shi)角模型成功率均(jun)超越現有方(fang)法

3、消融與訓練策略分析

在稀疏記憶機制方面,消融實驗表明,稀疏記憶對(dui)長(chang)程序(xu)列生(sheng)成的合(he)理(li)性(xing)及長(chang)程動(dong)作(zuo)預測精度至關重(zhong)要。

首個機器人4D世界模型來了!智元和上交大聯合研發

▲EnerVerse引入稀疏(shu)記憶機(ji)制

另外,先進行未來空間生成訓練,再進行特定場景動作預測訓練的二(er)階段策略可顯著提升(sheng)動作(zuo)規(gui)劃性(xing)能(neng)。

首個機器人4D世界模型來了!智元和上交大聯合研發

4. 注意力可視化

通(tong)過可視化 Diffusion 策略頭(tou)中(zhong)的交叉注意力(li)模塊,研究發現(xian) EnerVerse 生(sheng)成的未(wei)來(lai)空(kong)(kong)間與預測的動(dong)作(zuo)空(kong)(kong)間具有較強(qiang)的時序(xu)一(yi)致性。這直觀體(ti)現(xian)了 EnerVerse 在未(wei)來(lai)空(kong)(kong)間生(sheng)成與動(dong)作(zuo)規(gui)劃任(ren)務中(zhong)的相關(guan)性與優(you)勢。

首個機器人4D世界模型來了!智元和上交大聯合研發

▲EnerVerse生(sheng)成(cheng)的(de)未來空間(jian)與(yu)預(yu)測的(de)動作空間(jian)具有較強(qiang)的(de)時序(xu)一致性

三、結語:EnerVerse探索具身智能全新范式

EnerVerse 架構(gou)憑借自回(hui)歸擴(kuo)散模型、稀疏記憶機制(zhi)以及(ji)自由錨定視(shi)角等創新(xin)設計,為具(ju)身(shen)智(zhi)能未來空間生成(cheng)引導動作規(gui)劃,不僅突破了機器人任務規(gui)劃的(de)技術(shu)瓶頸,還為多模態、長程任務的(de)研究提供(gong)了全(quan)新(xin)范(fan)式(shi)。

EnerVerse也或將(jiang)開(kai)啟機(ji)器(qi)(qi)人(ren)融入日常(chang)生活與(yu)各行業生產的(de)新篇(pian)章,對未(wei)來動作的(de)規劃(hua)能力可以使得機(ji)器(qi)(qi)人(ren)在(zai)工業制造、物流(liu)配送等(deng)諸(zhu)多場景實現更(geng)高的(de)生產效率。隨著(zhu)項目的(de)開(kai)源(yuan)推進,也將(jiang)會進一步(bu)優化、拓(tuo)展其應(ying)用邊(bian)界(jie),加速機(ji)器(qi)(qi)人(ren)從實驗室邁向千行百業、千家萬(wan)戶。