
讓自動駕駛系統適應新環境和不同地區的習慣和法規是自動駕駛領域長期面臨的挑戰。NVIDIA Research 團隊提出的自動駕駛智能體 LLaDA 能夠利用 LLM 生成適應不同環境的駕駛策略和指令,為駕駛員和自動駕駛汽車提供多語言和地區交通規則的實時指導,幫助他們更輕松地在陌生的地方導航。此外,LLaDA 還能幫助自動駕駛汽車重新規劃出與當地環境更加匹配的運動軌跡,調整自動駕駛汽車的運動規劃策略。相關論文成果收錄于?CVPR 2024?。
然而,LLaDA 無法實(shi)現場景的(de)自動(dong)識別(bie),且對(dui)場景描述的(de)質量有著較高要求。盡管 GPT-4V 能(neng)(neng)夠(gou)提供這種描述,但是卻(que)不(bu)夠(gou)準(zhun)確。為此(ci),NVIDIA Research 提出一個創新的(de)自動(dong)化視(shi)頻字幕(mu)生成框架 Wolf。Wolf 采用(yong)專家混(hun)合方法,利(li)用(yong)視(shi)覺語言模型(VLMs)的(de)互(hu)補優勢,能(neng)(neng)夠(gou)提升自動(dong)駕駛智能(neng)(neng)體的(de)場景理解能(neng)(neng)力。
此外,LLaDA 通常是與用戶直接交互,并主要處理文本信息。相比之下,自動駕駛系統則需要提供具體的位置和軌跡規劃信息。基于這些差異,NVIDIA Research 團隊專為自動駕駛領域設計出一種多模態大型語言模型(MM-LLM)TOKEN。TOKEN 通過將復雜的交通環境轉化為對象級別的知識單元,增強了自動駕駛車輛在面對長尾事件時的規劃能力。該模型還結合了端到端駕駛模型的優勢,解決了數據稀缺和標記化效率低下的問題。相關論文收錄于?CoRL 2024?。
在上述背景下,智猩猩與 NVIDIA 策劃推出「智猩猩公開課 NVIDIA 自動駕駛智能體專場」,并將于10月22日以視頻直播形式進行。公開課邀請到?LLaDA 論文第一作者、NVIDIA Research 自動駕駛方向研究科學家李柏依進行主講,主題為《探索基于多模態LLM 的自動駕駛智能體》。
李柏(bo)依博士(shi)首先會重點講解(jie)(jie) LLaDA 如何利用 LLM 生成(cheng)(cheng)適應不同(tong)環境的(de)(de)(de)駕駛策略和指(zhi)令(ling);之后會解(jie)(jie)讀(du)如何使用 Wolf 框架生成(cheng)(cheng)字幕提升(sheng)智(zhi)(zhi)能(neng)體(ti)的(de)(de)(de)場景理解(jie)(jie)能(neng)力。接下來,李柏(bo)依博士(shi)會講解(jie)(jie)如何基于 TOKEN 分解(jie)(jie)復(fu)雜(za)交通(tong)場景提升(sheng)智(zhi)(zhi)能(neng)體(ti)在長尾事(shi)件的(de)(de)(de)規劃(hua)能(neng)力,最(zui)后會分享(xiang)在自動駕駛智(zhi)(zhi)能(neng)體(ti)上(shang)的(de)(de)(de)未來研究方(fang)向,并(bing)進行展(zhan)望。
公開課信息
?主 題?
《探索基于多模態 LLM 的自動駕駛智能體》
?提 綱
1、LLaDA 利用 LLM 生成適應不同環境的駕駛策略和指令
2、使用 Wolf 框架生成字幕提升智能體的場景理解能力
3、基于 TOKEN 分解復雜交通場景提升智能體在長尾事件的規劃能力
4、未來研究方向與展望(wang)
主 講 人
李柏依,NVIDIA Research 自動駕(jia)駛(shi)方向研(yan)究科學家(jia)
李柏依是 NVIDIA 自(zi)動駕(jia)駛汽車研(yan)究(jiu)小組的一名研(yan)究(jiu)科學(xue)家(jia)。博(bo)士畢業于康(kang)奈爾(er)大學(xue),師從Serge Belongie 教(jiao)授 和 Kilian Q. Weinberger 教(jiao)授。她對計(ji)算機(ji)(ji)視覺、機(ji)(ji)器學(xue)習和多(duo)媒體藝術感興趣,研(yan)究(jiu)重點是多(duo)模態與數(shu)據高效的機(ji)(ji)器學(xue)習。
?直 播 時 間
北京時間10月22日上午10點
報名方式
對此次公開課感興趣的朋友,可以掃描下方二維碼添加小助手小艾進行報名。已經添加小艾的老朋友,可以給小艾私信,發送“自動駕駛智能體”即可報名(ming)。我們會為報名(ming)成功(gong)的朋友推送直播(bo)鏈接。
同時,本(ben)次公開(kai)課也組(zu)建了(le)交流群,直(zhi)播開(kai)始前會邀請相關(guan)朋友入群交流。