
「AI新青(qing)年講座」將邀(yao)請世(shi)界頂(ding)尖AI研(yan)究(jiu)機(ji)構和(he)大學(xue)的(de)科研(yan)新青(qing)年,主講他們在計算機(ji)視覺、機(ji)器學(xue)習等人工智(zhi)能領域的(de)最新重要(yao)研(yan)究(jiu)成果。
AI新青年是(shi)加速人工智(zhi)能(neng)(neng)前(qian)沿研究的(de)新生(sheng)力(li)量。AI新青年的(de)視頻講解和直播答疑,將可(ke)以幫助大家增(zeng)進對人工智(zhi)能(neng)(neng)前(qian)沿研究的(de)理解,相(xiang)應(ying)領域的(de)專業知識也能(neng)(neng)夠得(de)以積(ji)累加深(shen)。同時,通過與AI新青年的(de)直接交流,大家在AI學習(xi)和應(ying)用(yong)AI的(de)過程中遇到的(de)問題,也能(neng)(neng)夠盡快解決。
有興趣分(fen)享(xiang)學術(shu)成(cheng)果(guo)的朋友,可以與(yu)智東西公開(kai)課教研團隊進行郵件(class@sanyasheying.cn)聯系。
相(xiang)比(bi)于單模(mo)(mo)態(tai)(tai)(tai)檢(jian)測,而使用(yong)多模(mo)(mo)態(tai)(tai)(tai)傳(chuan)感器(qi)(如(ru)LiDAR 和相(xiang)機)的3D檢(jian)測,可以(yi)通過(guo)不同模(mo)(mo)態(tai)(tai)(tai)的數(shu)據來(lai)補充先驗知(zhi)識。例如(ru)來(lai)自(zi)點云的準(zhun)確位置和來(lai)自(zi)圖(tu)像(xiang)(xiang)的豐(feng)富上下文。但(dan)相(xiang)機缺乏準(zhun)確的深度,圖(tu)像(xiang)(xiang)則不能像(xiang)(xiang)點云那樣在體素空間中自(zi)然地(di)表(biao)示。因此(ci),對(dui)(dui)于多模(mo)(mo)態(tai)(tai)(tai)3D檢(jian)測而言,統一的表(biao)示方(fang)法對(dui)(dui)于促進(jin)跨模(mo)(mo)式(shi)的知(zhi)識轉移和特征融合至關(guan)重要。
為了(le)(le)有效(xiao)的(de)表(biao)(biao)示多模態3D檢(jian)(jian)測,在CVPR 2022上(shang),香港中文大學在讀博(bo)士李彥(yan)瑋等人提出了(le)(le)一個概(gai)念(nian)簡單但有效(xiao)的(de)跨(kua)模態三維目(mu)標檢(jian)(jian)測框架VFF(Voxel Field Fusion)。該方(fang)法旨在通過在Voxel field中將增強圖像特征表(biao)(biao)示為ray并進行融(rong)合(he)來(lai)保持跨(kua)模態一致性。在各種基準(zhun)測試(shi)中,VFF取(qu)得了(le)(le)一致的(de)收益,并且優(you)于以前(qian)基于KITTI和nuScenes數據(ju)集(ji)的(de)融(rong)合(he)方(fang)法。
同時(shi),為了在統一體素空(kong)間中(zhong)的(de)進行(xing)多模(mo)(mo)態(tai)(tai)(tai)表示,以(yi)實(shi)現準確和魯(lu)棒的(de)單模(mo)(mo)態(tai)(tai)(tai)或跨模(mo)(mo)態(tai)(tai)(tai)3D檢測(ce),李彥瑋博士基(ji)于Transformer最新提出了一個用于多模(mo)(mo)態(tai)(tai)(tai) 3D 對象檢測(ce)的(de)統一框架UVTR。UVTR在沒有高度壓縮的(de)情況(kuang)下保留了體素空(kong)間,以(yi)減輕(qing)語義歧義并(bing)實(shi)現空(kong)間交互(hu)。并(bing)且通過跨模(mo)(mo)態(tai)(tai)(tai)交互(hu)的(de)方式,充(chong)分利用不同傳感器的(de)固有屬性,包(bao)括知(zhi)識(shi)傳遞和模(mo)(mo)態(tai)(tai)(tai)融(rong)合。
通過這種方式,點(dian)云(yun)中(zhong)的(de)幾何感知(zhi)表達式和(he)圖像中(zhong)的(de)上下文豐富的(de)特征(zheng)得(de)到了很好的(de)利(li)用,以提高性(xing)能(neng)(neng)和(he)魯棒性(xing)。最后(hou)的(de)實驗(yan)證(zheng)明,UVTR超(chao)越了以前在單模態(tai)(tai)(tai)和(he)多模態(tai)(tai)(tai)輸(shu)入方面的(de)工(gong)作,并在 nuScenetest 數(shu)據集(ji)中(zhong)取得(de)了領先的(de)性(xing)能(neng)(neng),激光雷達、相機和(he)多模態(tai)(tai)(tai)輸(shu)入的(de) NDS 分(fen)別為 69.7%、55.1% 和(he) 71.1%。
8月11日晚6點,「AI新青年講座」第(di)145講,邀請(qing)到香(xiang)港中文大(da)學在讀(du)博士李彥(yan)瑋參與,主講《基于Transformer的(de)多模態(tai)3D檢測表示》。
講? 者
李(li)彥(yan)瑋,香(xiang)港(gang)中文(wen)大學(xue)在讀博士,師從賈(jia)佳亞教(jiao)授;主要研究方向(xiang)主要集(ji)中于2D和3D的場景感知,曾在CVPR、NeurIPS、TPAMI等會(hui)議和期刊上發表多(duo)篇學(xue)術論文(wen)。
主? 題
基于(yu)Transformer的多(duo)模態3D檢測表示
提? 綱
1、多模態3D感知的研究與發展 2、利用圖像光束的跨模態融合方法 3?、基于Transformer的多模態3D檢測統一表示框架 4、未來多模態感知的前景
直播信息
直播時間:8月11日18:00 直播地點:智東西公開課知識店鋪 成 果
VFF:《Voxel Field Fusion for 3D Object Detection》 UVTR:《Unifying Voxel-based Representation with Transformer for 3D Object Detection》
論文鏈接
//arxiv.org/pdf/2205.15938.pdf //arxiv.org/pdf/2206.00630.pdf 開源地址 //github.com/dvlab-research/VFF //github.com/dvlab-research/UVTR