
「自動駕(jia)駛(shi)新(xin)青(qing)年(nian)(nian)講座(zuo)」由智猩(xing)猩(xing)企劃,致力于邀(yao)請(qing)全球(qiu)知名(ming)高(gao)校、頂尖研(yan)究(jiu)機構以及優(you)秀企業(ye)的新(xin)青(qing)年(nian)(nian),主講在環境感知、精準定位(wei)、決策規劃、控制(zhi)執行等自動駕(jia)駛(shi)關鍵技術上的最(zui)新(xin)研(yan)究(jiu)成果和開發實踐。
使(shi)用生(sheng)成(cheng)模(mo)(mo)型來合(he)成(cheng)新數(shu)據已成(cheng)為(wei)自動駕駛(shi)領(ling)域解決(jue)數(shu)據稀缺(que)問題的(de)重要途徑。然而現有(you)方法雖能(neng)夠(gou)提升感知(zhi)模(mo)(mo)型的(de)性(xing)能(neng),但卻未能(neng)改(gai)善端到端自動駕駛(shi)模(mo)(mo)型的(de)規劃性(xing)能(neng),因(yin)為(wei)生(sheng)成(cheng)的(de)視(shi)頻通常少于8幀(zhen),且存在空間和時間的(de)一致性(xing)的(de)問題。
為此,理想汽(qi)車(che)智駕團隊聯合西(xi)湖大(da)(da)(da)學(xue)等(deng)提出(chu)了一(yi)種基于(yu)(yu)擴散模型的(de)(de)可控(kong)長(chang)視頻生成的(de)(de)方法Delphi。與Delphi相關的(de)(de)論(lun)文目前正處于(yu)(yu)NeurIPS 2024的(de)(de)投(tou)稿階段(duan)。其中,西(xi)湖大(da)(da)(da)學(xue)助理教授(shou)于(yu)(yu)開丞老(lao)師為通訊作(zuo)者(zhe),西(xi)湖大(da)(da)(da)學(xue)和浙江(jiang)大(da)(da)(da)學(xue)聯培(pei)博士、理想汽(qi)車(che)實習(xi)研究員馬恩慧為論(lun)文一(yi)作(zuo)。
多視(shi)角(jiao)長視(shi)頻生成方法(fa)Delphi主要包括(kuo)以下兩個模(mo)塊來提升一致(zhi)性(xing):1) 具有跨多視(shi)圖的(de)共享噪聲建模(mo)機制以增加空間一致(zhi)性(xing);2)特(te)征對齊交互模(mo)塊以實現(xian)(xian)精確的(de)可控性(xing)和時(shi)間一致(zhi)性(xing)。該方法(fa)能夠生成多達40幀(zhen)的(de)視(shi)頻而不失去(qu)一致(zhi)性(xing),約為現(xian)(xian)有最先進方法(fa)的(de)5倍。
此(ci)外,該團(tuan)隊進一步設(she)計(ji)了(le)failure case驅(qu)動的(de)(de)框架來高效進行數據(ju)增強(qiang)。通過(guo)多輪問詢策略,結(jie)合(he)(he)VLM分析失敗原因;利(li)用定(ding)向多樣化生成(cheng)策略,結(jie)合(he)(he)使用Delphi的(de)(de)可控(kong)生成(cheng)能力,定(ding)向生成(cheng)與failure case相(xiang)關的(de)(de)場(chang)景(jing)。
實驗表明,Delphi生成的(de)長視頻質(zhi)量更高,超越了現(xian)有最先進(jin)的(de)方法。該方法通過僅(jin)生成訓練集大小的(de)4%數據(ju),將(jiang)碰撞率從0.33降低到0.27,改善(shan)了自動駕(jia)駛模(mo)型的(de)感知和預測(ce)能(neng)力,并將(jiang)端到端自動駕(jia)駛模(mo)型的(de)規劃性(xing)能(neng)提升了25%。
8月(yue)23日(ri)晚7點,智(zhi)猩(xing)(xing)猩(xing)(xing)邀請(qing)到論(lun)文一作、西(xi)湖大學(xue)(xue)和浙江大學(xue)(xue)聯培(pei)博士(shi)、理想汽車實習研究(jiu)員(yuan)馬(ma)恩慧參(can)與「智(zhi)猩(xing)(xing)猩(xing)(xing)自動駕駛(shi)新青年講座」第38講,主(zhu)講《利用(yong)長視頻生(sheng)成模型釋放(fang)端(duan)到端(duan)自動駕駛(shi)泛(fan)化性》。
講者
馬恩慧
西湖大學(xue)和浙江大學(xue)聯培(pei)博士、理想汽車實習(xi)研究(jiu)員
馬恩(en)慧博士目(mu)前(qian)是西(xi)湖大學和浙江(jiang)大學聯培項目(mu)的一年級博士生,碩士畢業于天津大學智算學部(bu)。她的研究方向包括(kuo)可控視頻生成(cheng),三維場景理解等,曾在ICCV學術會議上(shang)發表研究成(cheng)果。
第 38 講
主 題
《利用長視頻生成模型釋(shi)放端到(dao)端自動駕駛泛化性》
提 綱
1、利用合成數據(ju)訓(xun)練端到端自動駕駛模型存在的問題
2、基于擴散模(mo)型(xing)的多視角長(chang)視頻生成方法(fa)Delphi
3、利用failure-case驅(qu)動框架增強端(duan)到端(duan)模型泛化能力(li)
4、nuScenes數據(ju)集上的實驗(yan)結果及Demo演示
直 播 信 息
直播(bo)時(shi)間:8月23日(ri)19:00
直(zhi)播地點:智猩猩GenAI視頻號(hao)
成果
論文標題
《Unleashing Generalization of End-to-End AutonomousDriving with Controllable Long Video Generation》
論文鏈接
//arxiv.org/abs/2406.01349
項目地址
//westlake-autolab.github.io/delphi.github.io/
直播預約
本次(ci)講座將在(zai)智猩(xing)猩(xing)GenAI視(shi)頻號進行直(zhi)播,歡迎(ying)預約~
入群申請
本次(ci)講座(zuo)組建(jian)了(le)學習(xi)交(jiao)流(liu)(liu)群。加入(ru)學習(xi)交(jiao)流(liu)(liu)群,除了(le)可以觀看直(zhi)播,并提前(qian)拿到課件外,你還能結識更多研究人員和開發者,所提問題也將會優(you)先解答(da)。
希(xi)望入群的朋友(you)可(ke)以(yi)掃(sao)描(miao)下(xia)方(fang)二維碼,添加小助手陳新進(jin)行(xing)申請(qing)。已添加過陳新的老朋友(you),可(ke)以(yi)給陳新私(si)信,發送“自(zi)動駕駛38”進(jin)行(xing)申請(qing)。