時間輸入對于3D占用預測非常重要,而現有方法大多遵循傳統的感知、轉換和融合流程。即給定順序輸入信息,感知模塊獨立獲得每個幀的場景表示,例如BEV特(te)(te)征(zheng)以及體(ti)素特(te)(te)征(zheng);并且轉(zhuan)換模塊根據自車(che)軌跡對齊多幀的時序特(te)(te)征(zheng)信息,融(rong)合模塊融(rong)合對齊的特(te)(te)征(zheng)表(biao)示以推斷當前的3D占用情況(kuang)。這些方法未能考慮(lv)駕駛(shi)場景演變的固有連續(xu)性和簡(jian)單性。

為此,清華大學自動化系提出一個基于高斯世界模型的流式三維語義占用預測模型GaussianWorld,現已開源。與GaussianWorld相關的論文成果已投稿CVPR 2025,清華大學自動化系智能視覺實驗室(IVG)博士生左(zuo)思成為論文一作。

清華開源GaussianWorld:基于高斯世界模型的3D占用預測模型 | 一作左思成博士主講預告

GaussianWorld采用顯式3D高斯作為場景表示,而不是傳統的隱式 BEV/Voxel 表示,這可以實現物體運動的顯式和連續建模。給定歷史 3D 高斯和當前(qian)視覺輸入(ru),GaussianWorld算(suan)法模型旨在預測(ce)場(chang)景如何演(yan)變并預測(ce)當前(qian)的占用情況(kuang)。

為(wei)了(le)證明(ming)提(ti)出的(de)GaussianWorld算法模型(xing)的(de)有效性(xing),在nuScenes數據集上進行了(le)大(da)量實驗。實驗表明(ming),GaussianWorld 可以(yi)有效地(di)預(yu)測場(chang)景(jing)演(yan)變,并(bing)在不引入額外(wai)計算的(de)情況下將單(dan)幀占用率預(yu)測提(ti)高 2% 以(yi)上(mIoU)。與現(xian)有方法相比,該模型(xing)在不引入額外(wai)計算開銷(xiao)的(de)前提(ti)下,展示了(le)SOTA的(de)性(xing)能。

清華開源GaussianWorld:基于高斯世界模型的3D占用預測模型 | 一作左思成博士主講預告

1月13日晚上7點,智猩猩邀請到論文一作、清華大學智能視覺實驗室(IVG)博士生左思成參與「智猩猩新青年講座自動駕駛專題」第42講,主講《基于高斯世界模型的流式3D占用預測》。

講者

左思成,清華大學智能視覺實驗室(IVG)博士生

清華(hua)大學自(zi)動(dong)化(hua)系智能(neng)視覺(jue)實驗室(shi)(IVG)博士生,主要研究方向是計算機視覺(jue)和自(zi)動(dong)駕駛。

第 42 講

?主 題?

《基(ji)于(yu)高斯(si)世界模型的流式3D占用預(yu)測》

?提 綱?

1、自動駕駛中的時序建(jian)模方法

2、基于世界(jie)模型的感知任務范式

3、基于高斯世界模型的流式OCC預測

4、在(zai)世界(jie)模型與端(duan)到端(duan)自動駕(jia)駛上的思考

直 播 信 息?

直播時間(jian):1月(yue)13日19:00

成果

論文標題

《GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction》

論文鏈接

//arxiv.org/abs/2412.10373

論文鏈接

//github.com/zuosc19/GaussianWorld

如何報名

有講座直播觀看需求的朋友,可以添加小助手“陳新”進行報名。已添加過“陳新”的老朋友,可以給“陳新”私信,發送“自動駕駛42”進行報名(ming)。對于通過(guo)報名(ming)的朋友,之后將(jiang)邀請入群進行觀(guan)看和交流。

清華開源GaussianWorld:基于高斯世界模型的3D占用預測模型 | 一作左思成博士主講預告