10月22日,由智猩猩聯合 NVIDIA 策劃推出的「智猩猩公開課 NVIDIA 自動駕駛智能體專場」順利完結。NVIDIA Research 自動駕駛方向研究科學家李柏依以《探索基于多模態LLM 的自動駕駛智能體》為主題進行了直播講(jiang)解,共涉及 LLaDA、TOKEN 以(yi)及 Wolf 三篇論文成果。首先(xian),李柏依博士通過視頻 demo 介(jie)紹(shao)了自動(dong)駕(jia)(jia)(jia)(jia)駛(shi)(shi)智能體 LLaDA 如(ru)(ru)何為駕(jia)(jia)(jia)(jia)駛(shi)(shi)員(yuan)和自動(dong)駕(jia)(jia)(jia)(jia)駛(shi)(shi)汽車(che)提(ti)供多語(yu)言和地區交通規(gui)則的實時指導;之后通過對比(bi)GPT-Driver、人(ren)類駕(jia)(jia)(jia)(jia)駛(shi)(shi)員(yuan)、LLaDA 的駕(jia)(jia)(jia)(jia)駛(shi)(shi)軌跡(ji),分(fen)析了 LLaDA 如(ru)(ru)何幫助自動(dong)駕(jia)(jia)(jia)(jia)駛(shi)(shi)汽車(che)和人(ren)類駕(jia)(jia)(jia)(jia)駛(shi)(shi)員(yuan)調整軌跡(ji)策(ce)略,使其可以(yi)在世界的任何地方(fang)駕(jia)(jia)(jia)(jia)駛(shi)(shi)。
而(er)(er)在(zai)(zai)復(fu)雜交通場(chang)景(jing)中,車輛之間存在(zai)(zai)過多(duo)交互(hu),這會導致智能體在(zai)(zai)預測時產生幻覺(jue),從(cong)而(er)(er)影(ying)響其規劃性能。為此,李柏依博士詳(xiang)解了如何基于 TOKEN 分解復(fu)雜交通場(chang)景(jing),進而(er)(er)提升智能體在(zai)(zai)長尾事(shi)件的規劃能力。
最后,李柏依博士介紹了能夠提升智能體場景理解能力的自動化視頻字幕生成模型 Wolf,并對比分析了 Wolf 與 GPT-4V、CogAgent、VILA-1.5-13b 等其他模型。目前,此次公開課的課件 PPT 已上傳至公眾號【智猩猩】,大家可以在后臺回復關鍵詞“自動駕駛智能體”進行獲取和學習。
完整回放
錯過本(ben)次直播的朋友,可(ke)以觀看「智(zhi)猩(xing)猩(xing)公開課(ke) NVIDIA 自動駕駛(shi)智(zhi)能體專場(chang)」完整回放。
//wqpoq.xetlk.com/sl/4p6Brv
精選PPT


相關資料
標題:《LLaDA: Driving Everywhere with Large Language Model Policy Adaptation》
鏈接:
//arxiv.org/abs/2402.05932
項目地址:
//boyiliee.github.io/llada/
NVIDIA博客:
//mp.weixin.qq.com/s/azJU4_OBzE_i8VvKnhDjww
標題:
《Tokenize the World into Object-level Knowledge to Address Long-tail Events in Autonomous Driving》鏈接:
//arxiv.org/abs/2407.00959
標題:《Wolf: Captioning Everything with a World Summarization Framework》
//boyiliee.github.io/llada/
鏈接:
//arxiv.org/abs/2407.18908
項目地址:
//wolfv0.github.io/leaderboard.html