
「AI新青年講(jiang)座」將(jiang)邀請世界頂尖AI研(yan)究(jiu)機(ji)(ji)(ji)構(gou)和大學的科研(yan)新青年,主講(jiang)他們(men)在計(ji)算機(ji)(ji)(ji)視覺(jue)、機(ji)(ji)(ji)器學習等人工智能領域(yu)的最新重要(yao)研(yan)究(jiu)成果。
AI新(xin)(xin)青年是(shi)加(jia)速人工(gong)智(zhi)能前沿(yan)研(yan)(yan)究的新(xin)(xin)生(sheng)力量。AI新(xin)(xin)青年的視頻(pin)講(jiang)解(jie)和(he)直播(bo)答疑(yi),將(jiang)可以幫(bang)助(zhu)大家(jia)(jia)增進對人工(gong)智(zhi)能前沿(yan)研(yan)(yan)究的理(li)解(jie),相應領域的專業(ye)知識也能夠得以積累加(jia)深。同時,通過與(yu)AI新(xin)(xin)青年的直接(jie)交流,大家(jia)(jia)在(zai)AI學(xue)習和(he)應用AI的過程中(zhong)遇到的問題,也能夠盡快解(jie)決。
有(you)興趣分享(xiang)學術成果的(de)朋友,可(ke)以(yi)與智東(dong)西公開課教研團(tuan)隊進行(xing)郵件(class@sanyasheying.cn)聯系。
隨著先進(jin)的(de)(de)神經網絡規模的(de)(de)增長,AI模型在器件(jian)端的(de)(de)部署變得(de)愈(yu)發困難(nan)。模型壓縮和軟硬件(jian)協同設計是目前最(zui)常(chang)見的(de)(de)兩(liang)種解決方案(an)。
混(hun)合精度(du)量化(hua)是模(mo)型壓縮(suo)領域的(de)(de)(de)(de)(de)重要方法。混(hun)合精度(du)量化(hua)允許神經(jing)網絡(luo)的(de)(de)(de)(de)(de)每一層(ceng)擁有不同的(de)(de)(de)(de)(de)量化(hua)位寬,從而(er)可以很(hen)大程度(du)上保(bao)留模(mo)型的(de)(de)(de)(de)(de)精確度(du),但(dan)是確定每一層(ceng)的(de)(de)(de)(de)(de)位寬導(dao)致了(le)一個(ge)指數(shu)級(ji)的(de)(de)(de)(de)(de)搜索(suo)空(kong)間。
來自伯克利人工智能實驗室 (BAIR) 的博士后董鎮等人針對混(hun)合精(jing)度(du)量化,提出(chu)了HAWQ系(xi)列(lie)、Q-BERT、ZeroQ等等研究成果。HAWQ系(xi)列(lie) (HAWQ、HAWQV2、HAWQV3)使用Hessian矩陣信息來優化混(hun)合精(jing)度(du)量化,Q-BERT則首次嘗試大規模(mo)語言模(mo)型的壓縮(suo),ZeroQ提出(chu)了不需(xu)要樣本(ben)的后訓練量化范(fan)式(shi)(Zero-Data PTQ)。
同(tong)時,針對(dui)軟硬(ying)件(jian)協同(tong)設計的(de)(de)問題,董鎮博士等(deng)人還提出了CoDeNet、HAO、ETA等(deng)相關工作。CoDeNet是(shi)一(yi)個可(ke)以在(zai)FPGA上部(bu)署的(de)(de)目標檢測網絡,HAO是(shi)在(zai)FPGA上進行高效推理的(de)(de)神經網絡架構搜(sou)索算法。
12月2日早10點,「AI新青年講(jiang)座(zuo)」第177講(jiang)邀請到伯克利大學博士后董鎮參(can)與,主講(jiang)《模型壓縮和軟(ruan)硬件協(xie)同設計的算法研(yan)究》。
講者
董鎮,伯(bo)克利(li)大學博士后(hou) ;2018年本科畢(bi)業(ye)于(yu)(yu)北(bei)大EECS,2022年博士畢(bi)業(ye)于(yu)(yu)伯(bo)克利(li)EECS,目前(qian)在(zai)伯(bo)克利(li)做Postdoc,研(yan)究(jiu)的(de)(de)(de)(de)方向有(you)模(mo)型壓縮、模(mo)型量(liang)化(hua)、架構搜索(suo)、軟件硬件協同(tong)設計;發(fa)表的(de)(de)(de)(de)論(lun)文(wen)(wen)HAWQ系列 (HAWQ、HAWQV2、HAWQV3)使(shi)用(yong)Hessian矩陣信息來優(you)化(hua)混合精度量(liang)化(hua),論(lun)文(wen)(wen)Q-BERT首次嘗試大規(gui)模(mo)語(yu)言模(mo)型的(de)(de)(de)(de)壓縮,論(lun)文(wen)(wen)ZeroQ提(ti)出不(bu)需要(yao)樣(yang)本的(de)(de)(de)(de)后(hou)訓練量(liang)化(hua)范式(Zero-Data PTQ),發(fa)表的(de)(de)(de)(de)綜述(shu)論(lun)文(wen)(wen)詳細地介紹了以往的(de)(de)(de)(de)模(mo)型量(liang)化(hua)方法(fa)并(bing)且系統(tong)的(de)(de)(de)(de)對(dui)量(liang)化(hua)進行了歸類和展望(wang)。
第177講
主 題
《模型壓縮和軟(ruan)硬件協同設計(ji)的算(suan)法(fa)研究》
提 綱
1、深度神經網絡的端側部署困境
2、實現低精度和混合精度的量化算法庫HAWQ
3、面向FPGA軟硬件協同設計的CoDeNet、HAO
4、量化與協(xie)同(tong)設計的探(tan)討總結
直 播 信 息
直播時間:12月2日10:00
直播地點(dian):智東西(xi)公開課(ke)知識(shi)店鋪
成果
HAWQ:
《HAWQ: Hessian AWare Quantization of Neural Networks with Mixed-Precision》
鏈接:
//arxiv.org/pdf/1905.03696
HAWQV2:
《HAWQ-V2: Hessian Aware trace-Weighted Quantization of Neural Networks》
鏈接:
//arxiv.org/pdf/1911.03852
HAWQV3:
《HAWQV3: Dyadic Neural Network Quantization》
鏈接:
//proceedings.mlr.press/v139/yao21a.html
Q-BERT:
《Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT》
鏈接:
//dong-zhen.com/wp-content/uploads/Q-BERT.pdf
ZeroQ:
《ZeroQ: A Novel Zero Shot Quantization Framework》
鏈接:
//arxiv.org/pdf/2001.00281.pdf
CoDeNet:
《CoDeNet: Algorithm-hardware Co-design for Deformable Convolution》
鏈接:
//arxiv.org/abs/2006.08357
HAO:
《HAO: Hardware-aware neural Architecture Optimization for Efficient Inference》
鏈接:
//arxiv.org/abs/2104.12766