
視覺(jue)導(dao)航(hang)(hang)是具(ju)身(shen)智能(neng)體(ti)的(de)(de)基(ji)礎技能(neng),可以極大拓寬智能(neng)體(ti)的(de)(de)行(xing)動邊界和任務邊界。其(qi)中,基(ji)于開(kai)放域語(yu)言指令的(de)(de)視覺(jue)語(yu)言導(dao)航(hang)(hang)是目(mu)前最具(ju)挑戰(zhan)及(ji)應(ying)用價值,也是最難(nan)以進行(xing)現實(shi)部署(shu)的(de)(de)具(ju)身(shen)導(dao)航(hang)(hang)任務之一。
導航(hang)智能(neng)體需(xu)要(yao)理解從單個物體、到(dao)物體間關系、再(zai)到(dao)不(bu)同房(fang)間的(de)空間布局(ju),并借由開放域指(zhi)令(ling)進行導航(hang)規劃(hua)。這要(yao)求環境(jing)(jing)表征能(neng)從不(bu)同粒度上與語(yu)言語(yu)義對齊;且在未知場景的(de)導航(hang)需(xu)要(yao)實時(shi)動態(tai)地更新(xin)環境(jing)(jing)表征,傳統(tong)的(de)基于低(di)噪聲點云的(de)3D Visual Grounding等(deng)方法難以奏效,而2D基礎模型難以理解大范圍的(de)三(san)維環境(jing)(jing)布局(ju)。
為(wei)此,中科(ke)院計算所和新(xin)加(jia)坡國立大學等(deng)研(yan)究人(ren)員提出了(le)基(ji)(ji)于網格記(ji)憶地圖和三維(wei)(wei)特征(zheng)(zheng)(zheng)(zheng)場(chang)等(deng)一系(xi)列方(fang)法,包括動態構(gou)建地圖表征(zheng)(zheng)(zheng)(zheng)方(fang)法GridMM,基(ji)(ji)于特征(zheng)(zheng)(zheng)(zheng)場(chang)的導(dao)航(hang)(hang)前(qian)瞻探索策(ce)略HNR,高性能單目視覺語(yu)言(yan)導(dao)航(hang)(hang)Sim-to-Real方(fang)案(an)以及三維(wei)(wei)基(ji)(ji)礎模(mo)型3D-Language特征(zheng)(zheng)(zheng)(zheng)場(chang)。通過(guo)這些(xie)方(fang)法來(lai)解決視覺語(yu)言(yan)導(dao)航(hang)(hang)等(deng)具(ju)身任務中的三維(wei)(wei)環境表征(zheng)(zheng)(zheng)(zheng)和理解問題。
GridMM是動態(tai)構建與語言(yan)指(zhi)令(ling)細(xi)粒度對齊的(de)環(huan)境網(wang)格(ge)地圖的(de)方法。該方法通過映射(she)智能(neng)體水平觀察的(de)細(xi)粒度視(shi)(shi)覺特征到俯(fu)視(shi)(shi)角網(wang)格(ge)地圖,并在每個網(wang)格(ge)區域(yu)內與導(dao)(dao)航指(zhi)令(ling)做語義關(guan)聯聚合。與GridMM相關(guan)的(de)論文(wen)成(cheng)果收錄于ICCV 2023,并成(cheng)為CVPR 2023 Embodied AI 視(shi)(shi)覺語言(yan)導(dao)(dao)航RxR競賽(sai)冠軍(jun)方案。
通過GridMM能夠實現(xian)網格記(ji)憶(yi)地(di)圖的動態(tai)增長,并隨(sui)導(dao)航過程(cheng)同步更新,以支持全局的導(dao)航規劃。接(jie)著,相(xiang)關團隊(dui)又提出了第(di)一個可用于視覺語言導(dao)航的可泛化特征場HNR。與HNR相(xiang)關的論文成(cheng)果收錄(lu)于CVPR 2024 Highlight。
HNR通過將(jiang)智能體歷(li)史(shi)觀察的(de)視(shi)覺特征(zheng)(zheng)映射進三維空間,并利用(yong)體積渲染來解碼與CLIP語(yu)義(yi)空間對齊的(de)新(xin)視(shi)角表征(zheng)(zheng)。HNR對若干可導航的(de)候選點預(yu)測其周(zhou)圍的(de)新(xin)視(shi)角表征(zheng)(zheng),構建導航的(de)未來路(lu)徑樹以支(zhi)持其前瞻探(tan)索。這一(yi)策略大幅提升了智能體的(de)導航規劃表現。
如何(he)將仿真環(huan)境中(zhong)的(de)(de)(de)(de)訓(xun)練成果遷移到真實環(huan)境也(ye)是具(ju)身導(dao)(dao)航領(ling)域(yu)一項重(zhong)要(yao)的(de)(de)(de)(de)研(yan)究。不(bu)同于(yu)仿真環(huan)境中(zhong)慣用(yong)(yong)的(de)(de)(de)(de)全(quan)(quan)景(jing)RGB-D設置,現(xian)實環(huan)境中(zhong)的(de)(de)(de)(de)絕大(da)多數機器人(ren)僅(jin)配(pei)備單目相機,這(zhe)極大(da)限制了(le)視(shi)覺(jue)語(yu)言導(dao)(dao)航模型的(de)(de)(de)(de)實機部(bu)署。因而VLN-3DFF提出使用(yong)(yong)3D特(te)征場(chang)構建(jian)的(de)(de)(de)(de)高性能單目視(shi)覺(jue)語(yu)言導(dao)(dao)航Sim-to-Real方案,賦(fu)予單目機器人(ren)全(quan)(quan)景(jing)感(gan)知能力(li),即(ji)用(yong)(yong)語(yu)義地(di)圖預測全(quan)(quan)景(jing)范圍的(de)(de)(de)(de)可導(dao)(dao)航候選(xuan)點。該方案將單目視(shi)覺(jue)語(yu)言導(dao)(dao)航模型的(de)(de)(de)(de)最佳導(dao)(dao)航成功率提升了(le)6%以上。與VLN-3DFF相關的(de)(de)(de)(de)論文(wen)成果收錄(lu)于(yu)CoRL 2024。
此外,先前(qian)的可泛化(hua)(hua)特(te)征場(chang)通常僅(jin)由2D基礎模型進(jin)行語(yu)義對(dui)齊,或僅(jin)使用有限(xian)(xian)的物體類別標(biao)注做語(yu)義分割(ge)監(jian)督。這極大限(xian)(xian)制了特(te)征場(chang)模型的大范圍物體關系和空(kong)間(jian)布局(ju)理解。3D-LF是第一個通過大規模3D-Language數(shu)據訓練層次化(hua)(hua)特(te)征場(chang)的方法,實現了特(te)征場(chang)模型從(cong)物體、關系、到環境布局(ju)的多(duo)層級語(yu)義表(biao)征和理解。該(gai)方法能大幅(fu)提升視覺(jue)語(yu)言(yan)導航(hang)和零樣本物體導航(hang)等(deng)任務(wu)的性能表(biao)現,驗(yan)證了3D語(yu)言(yan)特(te)征場(chang)在具(ju)身任務(wu)的應用價值(zhi)。
11月21日(ri)晚7點,智猩猩邀請到上述四篇(pian)成果的(de)論文一(yi)作、新加坡國立大學計算(suan)機學院博士生王子涵參與「智猩猩具身智能前沿(yan)講(jiang)座」第(di)15講(jiang),以《具身導航中的(de)三維場景理解》為主題帶來直播講(jiang)解。
講者
王子涵
新加坡(po)國立大學計算機學院(yuan)博(bo)士生
新加坡國立大(da)學(xue)計算機(ji)學(xue)院博士(shi)生,導師為Gim Hee Lee教授。碩士(shi)師從中科院計算所蔣樹(shu)強研(yan)(yan)究(jiu)員。研(yan)(yan)究(jiu)領域為具身導航與用于具身智能的三維基礎模型,相關研(yan)(yan)究(jiu)發表于CVPR,ICCV,CoRL等計算機(ji)視覺與機(ji)器人(ren)頂(ding)會。曾獲CVPR 2023 Embodied AI 視覺語言(yan)導航RxR競賽冠軍。
第 15 講?
主 題?
《具身(shen)導航中的三維(wei)場景(jing)理解》
?提 綱?
1、具身導航的核心難點與基礎方法介紹
2、具身導航中的動態構建地圖表征方法GridMM
3、基于特征場的導航前瞻探索策略HNR
4、視覺語言導航的Sim-to-Real部署
5、利用3D語言數據訓練(lian)層次(ci)化特征場提升機器人(ren)導航能力(li)
?直 播 信 息?
直(zhi)播時(shi)間:11月21日19:00
成果
論文成果1
標題:《GridMM: Grid Memory Map for Vision-and-Language Navigation》
鏈(lian)接://arxiv.org/abs/2307.12907
收錄情況:ICCV 2023,CVPR 2023 Embodied AI 視覺語言導航RxR競賽冠軍(jun)方(fang)案(an)
論文成果2
標(biao)題:《Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language Navigation》
鏈(lian)接://arxiv.org/abs/2307.12907
收錄(lu)情況(kuang):CVPR 2024 Highlight
論文成果3
標題:《Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation》
鏈接://arxiv.org/abs/2406.09798
收錄情況(kuang):CoRL 2024
論文成果4
標題:《Generalizable 3D-Language Feature Fields for Embodied Tasks》
如何報名
有講座直播觀看(kan)需求(qiu)的(de)朋友(you),可以添(tian)加小助手“莓(mei)(mei)莓(mei)(mei)”進(jin)行(xing)報(bao)名(ming)。已添(tian)加過“莓(mei)(mei)莓(mei)(mei)”的(de)老朋友(you),可以給“莓(mei)(mei)莓(mei)(mei)”私信,發送“具(ju)身智能(neng)15”進(jin)行(xing)報(bao)名(ming)。對于通過報(bao)名(ming)的(de)朋友(you),之后將邀請入(ru)群進(jin)行(xing)觀看(kan)和交(jiao)流。