「AI新(xin)青年(nian)講(jiang)座」將(jiang)邀請世(shi)界頂(ding)尖AI研究(jiu)機(ji)構和大學的科研新(xin)青年(nian),主(zhu)講(jiang)他(ta)們在計算機(ji)視覺(jue)、機(ji)器學習等人工智能(neng)領域的最新(xin)重要(yao)研究(jiu)成(cheng)果。

AI新(xin)青(qing)年是加速人(ren)工智能前(qian)沿(yan)研(yan)究(jiu)的(de)新(xin)生力量。AI新(xin)青(qing)年的(de)視頻講(jiang)解和直播答(da)疑,將可以(yi)幫助大家增進對人(ren)工智能前(qian)沿(yan)研(yan)究(jiu)的(de)理(li)解,相(xiang)應領域的(de)專業知識也能夠得以(yi)積累加深。同時,通過(guo)與(yu)AI新(xin)青(qing)年的(de)直接交流,大家在AI學習和應用AI的(de)過(guo)程中(zhong)遇到的(de)問題,也能夠盡快解決。

「AI新(xin)青年講(jiang)(jiang)座」目前(qian)已完結120講(jiang)(jiang),錯(cuo)過往期講(jiang)(jiang)座直播的朋友,可以點(dian)擊文(wen)(wen)章底部“閱讀原文(wen)(wen)”進(jin)行回看(kan)!

有興趣分享(xiang)學(xue)術成果的朋友(you),可以與智(zhi)東西公(gong)開課教研團隊進行郵件(class@sanyasheying.cn)聯系。

相較圖像而(er)言,視頻具有更(geng)豐富的信息,雖然給(gei)視覺理解(jie)任務(wu)帶來了更(geng)多(duo)的可能(neng)性,但(dan)也帶來了更(geng)大的挑(tiao)戰。為(wei)了更(geng)好地對視頻中的內容進行(xing)(xing)理解(jie),高效地對視頻幀之(zhi)間的時空信息進行(xing)(xing)建模是關鍵。

其實(shi)自從P3D和(he)R(2+1)D分(fen)別在17年(nian)的(de)(de)ICCV和(he)18年(nian)CVPR上被提出之(zhi)后(hou),很大一部分(fen)工作的(de)(de)時序理解(jie)都是通過在時間軸上的(de)(de)1D conv完成(cheng)的(de)(de),包括它的(de)(de)復雜度是O(C^2xKxTHW)。這(zhe)種基(ji)于像(xiang)素點的(de)(de)操作,會在純2D conv的(de)(de)基(ji)礎上帶來(lai)不(bu)可忽視的(de)(de)計算(suan)開銷。舉例來(lai)說,對于K=3的(de)(de)2D和(he)1D conv,1D conv會在2D conv的(de)(de)基(ji)礎上將計算(suan)量提高33%。

新加坡國立(li)大(da)學高級(ji)機器人研究中(zhong)心(xin)的(de)在讀博士黃(huang)子淵在達(da)摩院實習(xi)期(qi)間,與(yu)達(da)摩院的(de)同事們(men)以及NTU S-Lab的(de)老師們(men),提(ti)出了(le)一種時間自適應卷(juan)積TAdaConv。在不修改網絡其他結構的(de)情況下,使用(yong)TAdaConv代(dai)替(ti)網絡中(zhong)的(de)2D卷(juan)積,可以帶來顯著的(de)提(ti)升。

TAdaConv通過動態地對(dui)視(shi)(shi)頻(pin)中每(mei)一(yi)幀(zhen)的(de)卷積核(he)權(quan)重(zhong)進行自適應調整,對(dui)空間卷積賦予(yu)時(shi)(shi)序建(jian)模(mo)能力(li),從(cong)而在(zai)幾乎沒有額外(wai)計算開銷(xiao)的(de)情況下有效提升(sheng)現有模(mo)型的(de)時(shi)(shi)序推理能力(li)。相比常用的(de)時(shi)(shi)間卷積操作而言,TAdaConv更為高效,同時(shi)(shi)還(huan)能大大提升(sheng)模(mo)型容量。在(zai)TAdaConv的(de)基礎上,黃博還(huan)構(gou)建(jian)TAda2D和TAdaConvNeXt視(shi)(shi)頻(pin)分(fen)類模(mo)型,并在(zai)Kinetics-400、Something-Something-V2以(yi)及(ji)Epic-Kitchens-100視(shi)(shi)頻(pin)分(fen)類任務(wu)上達到了極(ji)具(ju)競爭力(li)的(de)性能。

TAdaConv論文已被ICLR 2022接收(shou),相應的PyTorch代碼和模型(xing)也(ye)已經作為視頻(pin)理解(jie)框(kuang)架EssentialMC2的一(yi)部(bu)分進行開源,并在達(da)摩(mo)院的多個視頻(pin)理解(jie)業務(wu)中成(cheng)功(gong)應用。

6月1日,「AI新(xin)青年講(jiang)(jiang)座」第121講(jiang)(jiang)邀請到TAdaConv一(yi)作、新(xin)加坡國立(li)大學高級機器人研究(jiu)中心在讀(du)博士黃(huang)子淵(yuan)參與,主講(jiang)(jiang)《TAdaConv:邁向高效(xiao)的卷積視頻(pin)理(li)解》。

講者
黃子(zi)淵,新加(jia)坡國立大學(xue)高級機器人研(yan)究中(zhong)心在讀博士;導師為Marcelo Ang;主要研(yan)究興(xing)趣是(shi)視(shi)頻理(li)(li)解(jie),包括(kuo)視(shi)頻動作理(li)(li)解(jie)、視(shi)頻表(biao)征學(xue)習、多模態學(xue)習、以(yi)及(ji)基(ji)于(yu)(yu)視(shi)頻的環境理(li)(li)解(jie)等;曾在阿里巴(ba)(ba)巴(ba)(ba)達(da)摩(mo)院實習,并獲得阿里巴(ba)(ba)巴(ba)(ba)優(you)秀科學(xue)研(yan)習生(sheng)榮譽。在達(da)摩(mo)院實習期間(jian),其研(yan)究成果集(ji)成于(yu)(yu)達(da)摩(mo)院自研(yan)的視(shi)頻理(li)(li)解(jie)算法模型EMC2。

第121講

主 題
《TAdaConv:邁向(xiang)高(gao)效的卷積(ji)視頻理解》

提 綱
1、視頻理解任務中的時序建模問題
2、增強時序建模的時序自適應卷積TAdaConv
3、高效的視頻分類模型TAda2D和TAdaConvNeXt
4、在視頻環(huan)境感知模型(xing)中的拓展(zhan)與(yu)應用

直 播 信 息
直播時間:6月1日19:00
直播地點:智東(dong)西公(gong)開課知識店鋪

成果

TAda:《TAda! Temporally-Adaptive Convolutions for Video Understanding》
論文鏈接://arxiv.org/pdf/2110.06178.pdf
項目主頁://tadaconv-iclr2022.github.io/
開源地址://github.com/alibaba/EssentialMC2