「自動駕駛(shi)(shi)新(xin)青(qing)年講(jiang)座」由(you)智東(dong)西公開(kai)課企(qi)劃(hua),致(zhi)力于邀請全(quan)球知名(ming)高校、頂尖(jian)研(yan)究(jiu)機構以及優秀企(qi)業的新(xin)青(qing)年,主講(jiang)在環境感(gan)知、精準(zhun)定位、決策規劃(hua)、控制執行等自動駕駛(shi)(shi)關鍵技(ji)術上的最新(xin)研(yan)究(jiu)成果和開(kai)發(fa)實踐(jian)。

「自動駕駛新(xin)青(qing)年講座」目(mu)前已(yi)完結15講!有興(xing)趣(qu)分享(xiang)的(de)朋友,可以與智東西公開課教(jiao)研團隊進行郵件(jian)(class@sanyasheying.cn)聯系。

Transformer是近(jin)年(nian)來最(zui)受關注(zhu)的(de)神經網絡模型,從自然語言領(ling)域(yu)開始(shi),現在(zai)已(yi)經慢(man)慢(man)影響到了各個(ge)(ge)不同的(de)領(ling)域(yu)。而Transformer在(zai)機器(qi)視覺(jue)領(ling)域(yu)最(zui)重要也是最(zui)徹(che)底的(de)應用(yong)就(jiu)是Swin-Transformer(SwinT),這(zhe)個(ge)(ge)工作也得到了機器(qi)視覺(jue)領(ling)域(yu)最(zui)高的(de)獎項——馬(ma)爾(er)獎。

Swin Transformer是(shi)在2021年提出(chu)的(de),也是(shi)目前(qian)視覺Transformer模型中的(de)典(dian)型代表(biao),在常見視覺任務,如分(fen)類、檢測、分(fen)割都有非(fei)常出(chu)色的(de)表(biao)現(xian)。然(ran)(ran)而在相同計算量的(de)模型指標上,SwinT雖然(ran)(ran)已經可以和傳統CNN為基礎的(de)視覺模型相媲美,但是(shi)SwinT面(mian)向(xiang)不同平臺(tai)的(de)硬件離(li)線部署仍然(ran)(ran)存在很多問題。

量(liang)(liang)化上,SwinT不(bu)僅面臨(lin)算(suan)子(zi)量(liang)(liang)化不(bu)支持的問題(ti),如roll算(suan)子(zi)在舊的ONNX框架上沒有(you)支持,也面臨(lin)直接量(liang)(liang)化算(suan)子(zi)會造成較(jiao)大精度損(sun)失的問題(ti)。

部署上,SwinT中的Vector計算占比較(jiao)大,如(ru)Elementwise、Reduce等。同時,數據不規則(ze)搬運(yun)的算子也比較(jiao)多,如(ru)Reshape、Transpose等。這些都導致SwinT對(dui)大算力張(zhang)量計算的平臺不太友好。

地平線征(zheng)程5的(de)設計是在2019年(nian),并(bing)于2021年(nian)發(fa)布。但是,SwinT目前已經可(ke)以在征(zheng)程5上通過(guo)低(di)于1%的(de)量(liang)化精度損失,得到FPS為133的(de)部署性(xing)能。這一結果與(yu)端(duan)側最強(qiang)GPU上SwinT的(de)部署性(xing)能相當(FPS為165)。

當然(ran),這(zhe)些都(dou)得益于(yu)BPU的(de)靈活性(xing)以及(ji)地(di)平(ping)(ping)線(xian)工(gong)具鏈(lian)的(de)持續優化。SwinT的(de)量化訓練,主要采用(yong)Calibration+QAT的(de)方(fang)式實現(xian)(xian),量化精度損失比較明(ming)顯。地(di)平(ping)(ping)線(xian)工(gong)具鏈(lian)團(tuan)隊是如(ru)何對SwinT進行量化精度優化的(de)呢?部署優化的(de)前(qian)提是不改變(bian)模型的(de)結構和(he)計算(suan)邏輯,不需要重訓模型,模型參數也可以等價復用(yong)。基于(yu)這(zhe)樣(yang)的(de)原(yuan)則,他們又采用(yong)什么樣(yang)的(de)方(fang)法實現(xian)(xian)SwinT在征程5平(ping)(ping)臺上的(de)針對性(xing)部署優化?基于(yu)SwinT在征程5上實現(xian)(xian)高效部署,對于(yu)更(geng)多Transformer模型的(de)部署,地(di)平(ping)(ping)線(xian)工(gong)具鏈(lian)團(tuan)隊又有哪些優化建議?

為了讓大家深入了解SwinT量化的精度優化及其在征程5平臺上的部署優化方法,3月28日晚7點,「自(zi)動駕駛(shi)新青(qing)年(nian)講座」第16講邀(yao)請到地平線工具鏈(lian)核心(xin)開發(fa)者楊志剛主講,主題為《基于(yu)征程5芯片的(de)Transformer量化部署實踐與經驗》。

楊志剛首先會介紹Transformer的發展趨勢及(ji)在嵌(qian)入式智(zhi)能(neng)芯(xin)片上部(bu)(bu)署(shu)的問題(ti),之后(hou)會以征程(cheng)(cheng)5為例,講(jiang)解嵌(qian)入式智(zhi)能(neng)芯(xin)片的算法開發流程(cheng)(cheng)。接下(xia)來,他會深入講(jiang)解SwinT的量化(hua)精度提升(sheng)和(he)部(bu)(bu)署(shu)性能(neng)優化(hua)方法。最后(hou),他會分享如何在征程(cheng)(cheng)5上既快又好(hao)地部(bu)(bu)署(shu)Transformer模型。

第16講

主 題
《基于征程5芯片的Transformer量化部署實踐與經驗》
提 綱
1、Transformer發展趨勢及在嵌入式智能芯片上部署的問題
2、以征程5為例的嵌入式智能芯片的算法開發流程
3、以SwinT為例的量化精度提升和部署性能優化
4、如何在征程(cheng)5上既(ji)快又好(hao)地部署Transformer模型

講 者
楊志(zhi)剛,地(di)平線(xian)(xian)工(gong)(gong)具鏈核心開(kai)發者;畢業于中國科學(xue)(xue)技術大學(xue)(xue),2017年(nian)加入地(di)平線(xian)(xian)之(zhi)后一直(zhi)從(cong)事天工(gong)(gong)開(kai)物(wu)芯片工(gong)(gong)具鏈相(xiang)關的(de)開(kai)發和落地(di);作為(wei)核心成(cheng)員(yuan)參與地(di)平線(xian)(xian)各代芯片上的(de)工(gong)(gong)具鏈算法包和量化工(gong)(gong)具的(de)開(kai)發工(gong)(gong)作,涉及PyTorch、MxNet、TensorFlow等多種深度(du)學(xue)(xue)習框架。

直 播 信 息
直播時間:3月28日19:00
直(zhi)播地(di)點:智東西公開課知識店鋪