「AI新(xin)青年講座」將(jiang)邀(yao)請(qing)世界頂尖(jian)AI研(yan)究(jiu)機(ji)構和大學的科研(yan)新(xin)青年,主講他們在計算機(ji)視覺、機(ji)器學習等人工智(zhi)能領域的最新(xin)重要研(yan)究(jiu)成果。

AI新(xin)青年是加(jia)速人工智能(neng)前沿(yan)研(yan)究的(de)(de)新(xin)生力量。AI新(xin)青年的(de)(de)視頻講解(jie)和直(zhi)播(bo)答疑,將可以(yi)幫助(zhu)大(da)家增進對人工智能(neng)前沿(yan)研(yan)究的(de)(de)理(li)解(jie),相應領域的(de)(de)專業(ye)知識(shi)也(ye)能(neng)夠(gou)得以(yi)積(ji)累加(jia)深。同時(shi),通過(guo)與AI新(xin)青年的(de)(de)直(zhi)接交流,大(da)家在AI學習和應用(yong)AI的(de)(de)過(guo)程中(zhong)遇到(dao)的(de)(de)問題,也(ye)能(neng)夠(gou)盡快解(jie)決。

「AI新青年講座」目(mu)前已完結142講,錯過往期講座直播的(de)朋友,可以點擊文(wen)章底部(bu)“閱讀原文(wen)”進行回看!

有興趣分享學術成(cheng)果(guo)的朋友,可(ke)以與智東西公(gong)開(kai)課(ke)教(jiao)研(yan)團隊進行郵件(class@sanyasheying.cn)聯系。

視覺(jue)(jue)Transformer模(mo)型幾(ji)乎火遍計(ji)算機(ji)視覺(jue)(jue)各個領域,其性能(neng)(neng)隨著參(can)數(shu)(shu)增加和(he)更(geng)久的訓(xun)練過程而得到提升。然而,當可供訓(xun)練的參(can)數(shu)(shu)較(jiao)少時,較(jiao)大的視覺(jue)(jue)Transformer模(mo)型往(wang)往(wang)不易(yi)于(yu)發揮其強(qiang)大的建(jian)模(mo)表(biao)征能(neng)(neng)力(li)。

目(mu)前(qian),提高視覺Transformer模(mo)型有(you)(you)效性和效率的(de)思(si)(si)路主要有(you)(you)兩種:一種是擴大(da)可訓(xun)練(lian)參數范圍(wei),另一種是通(tong)過參數共享(xiang)實現淺(qian)層化或(huo)在(zai)模(mo)型深度(du)上進(jin)行壓縮(suo)。但是兩種思(si)(si)路各(ge)有(you)(you)其局限性,前(qian)者在(zai)訓(xun)練(lian)和推(tui)理過程中(zhong),性能(neng)不能(neng)被線性的(de)提升 ;后(hou)者則由(you)于壓縮(suo)了原(yuan)始(shi)模(mo)型的(de)深度(du),導致模(mo)型學習能(neng)力的(de)下降。

為(wei)了在(zai)(zai)更(geng)(geng)少(shao)的(de)可訓(xun)練參數下獲(huo)得更(geng)(geng)好的(de)性能,新加坡(po)國立(li)大學 HPC-AI實驗室(shi)在(zai)(zai)讀博士薛復昭等人提出了一個(ge)有效利用(yong)可訓(xun)練參數的(de)視覺Transformer框架WideNet。WideNet首(shou)先(xian)通過在(zai)(zai)Transformer Block之(zhi)間共(gong)(gong)享(xiang)(xiang)參數來壓縮可訓(xun)練參數和(he)深度。為(wei)了最大化(hua)每個(ge)Transformer Block的(de)建模能力,將混合專家(mixture-of-experts,MoE)結(jie)構代替前(qian)饋網絡(luo)。然后,使用(yong)參數不(bu)共(gong)(gong)享(xiang)(xiang)的(de)多個(ge)Layer Norm在(zai)(zai)Transformer層之(zhi)間共(gong)(gong)享(xiang)(xiang)MoE層。這樣起(qi)到了轉換各種語義表示的(de)作用(yong),使模型更(geng)(geng)具有參數效率和(he)有效性。

在ImageNet-1K數據集上,采(cai)用0.72倍(bei)可(ke)訓練參(can)數時,WideNet比Vision Transformer 高(gao)(gao)出(chu)1.46%。而在采(cai)用0.46×和0.13×可(ke)訓練參(can)數時,WideNet仍然比ViT和ViT-MoE分別(bie)高(gao)(gao)出(chu)0.83%和2.08%。

8月4日晚6點,「AI新青年講座」第(di)143講邀請(qing)到(dao)新加坡國(guo)立大學HPC-AI實驗室在讀博士薛復昭參(can)與,主講《更少參(can)數下(xia)提高視(shi)覺Transformer模型性(xing)能的通(tong)用(yong)框架WideNet》。

講者

薛復昭,新加坡國立(li)大(da)學HPC-AI實驗室在讀博士(shi),碩士(shi)畢(bi)業于南洋理工大(da)學獲得(de)碩士(shi)學位(wei),師從 Chng Eng Siong 教授(shou)和 Sun Aixin 教授(shou);目(mu)前(qian)是 Google AI 的(de)學生研究(jiu)員(yuan),與 Yi Tay 和 Mostafa Dehghani 合作;研究(jiu)興(xing)趣主(zhu)要集中在機器(qi)學習、自然語言處理和高性能計(ji)算(suan)(suan),最近的(de)興(xing)趣是設計(ji)算(suan)(suan)法(fa)和系統(tong)來訓練大(da)型和高效的(de)語言模(mo)型。

第143講

主題

更少參(can)數下(xia)提高視覺Transformer模型性能(neng)的通用(yong)框架WideNet

提綱

1、提高視覺Transformer模型性能的方法及局限性
2、在寬度上擴展可訓練參數的MoE架構
3、有效利用可訓練參數的視覺Transformer框架WideNet
4、在0.72倍或0.46倍參(can)數下的性(xing)能表現

直播信息

直播時間:8月4日18:00
直(zhi)播(bo)地點:智東西公開(kai)課(ke)知識(shi)店鋪