智東西(公眾號:zhidxcom)
文 | 白鴿

3月9日(ri),由智東西主辦,極果和(he)AWE聯合舉辦的(de)中(zhong)國(guo)首(shou)場(chang)AI芯(xin)片(pian)峰會在(zai)上海浦東成功舉辦。本次大會共(gong)吸(xi)引(yin)近(jin)萬名(ming)觀(guan)眾(zhong)參加,到(dao)場(chang)人數比預計(ji)翻了(le)3倍。即使(shi)是下午場(chang),依然爆滿,有的(de)觀(guan)眾(zhong)寧愿(yuan)站(zhan)著也(ye)要(yao)聽完(wan)全場(chang)。在(zai)大會現場(chang),近(jin)40位人工智能及AI芯(xin)片(pian)業界翹(qiao)楚共(gong)聚一堂,系(xi)統地探討了(le)AI芯(xin)片(pian)在(zai)2018年的(de)技術(shu)前景和(he)產業趨勢。

GTIC2018 | 英特爾陳玉榮:情感識別認知計算的三年發展之路

在特邀演講(jiang)嘉(jia)賓(bin)中,英特爾(er)中國研究院認(ren)知(zhi)(zhi)計(ji)算(suan)實驗室主任陳(chen)玉榮(rong)博士以(yi)《發(fa)掘AI芯片能(neng)力 提(ti)升認(ren)知(zhi)(zhi)計(ji)算(suan)新高度》為主題進(jin)行演講(jiang),系統(tong)闡述英特爾(er)在認(ren)知(zhi)(zhi)計(ji)算(suan)、情感(gan)識別、人臉(lian)分析(xi)技(ji)術以(yi)及軟硬件結合等方面(mian)的成果。以(yi)下是(shi)由智(zhi)東西為您整理的陳(chen)玉榮(rong)博士大會(hui)演講(jiang)干貨(huo)。

一、認知計算

開(kai)場,陳玉(yu)榮博士(shi)就詳細的(de)闡(chan)述了何(he)為(wei)認知(zhi)計算(suan)。他表(biao)示,認知(zhi)計算(suan)是一套計算(suan)機技術(shu),用(yong)以模(mo)擬人(ren)類感知(zhi)、智能和解決問題的(de)能力。

GTIC2018 | 英特爾陳玉榮:情感識別認知計算的三年發展之路

認知計算(suan)如(ru)金字(zi)塔結構(gou)一樣,具有(you)多個層(ceng)次(ci)。其最底(di)層(ceng)則是用過各種傳感(gan)器進(jin)行感(gan)知,如(ru)麥克風(feng)、攝像頭以及其它傳感(gan)器等(deng),然后基于對(dui)感(gan)知數據的識(shi)別(bie)(bie),包括(kuo)對(dui)聲音(yin)、語音(yin)等(deng)音(yin)頻信號(hao)的識(shi)別(bie)(bie);對(dui)物體、手(shou)勢、人(ren)臉等(deng)視(shi)覺(jue)的識(shi)別(bie)(bie);以及其他的傳感(gan)信號(hao),如(ru)位(wei)置(zhi)、生物特征等(deng)的識(shi)別(bie)(bie)。

在識別基礎上就(jiu)是(shi)對(dui)多模態(tai)語義的(de)(de)理(li)解(jie)(jie),包括對(dui)各種(zhong)結(jie)(jie)構(gou)化(hua)和非(fei)結(jie)(jie)構(gou)化(hua)數據的(de)(de)理(li)解(jie)(jie),如文本、語音、視覺、情(qing)感等。最后(hou),到最頂層才(cai)是(shi)基于理(li)解(jie)(jie)的(de)(de)認知,包括對(dui)上下文語境(jing)的(de)(de)認知,以(yi)及對(dui)自然人機交互、計劃與(yu)行動(dong)、類人記憶、適應用戶的(de)(de)需求和愿(yuan)望等的(de)(de)認知。

事實(shi)上(shang),認(ren)知計算的發(fa)展(zhan)和應用是一(yi)個過程,它(ta)是機(ji)器學習算法和傳統(tong)知識工(gong)程擴展(zhan)結合的結果(guo),其總體目標是提(ti)高個人和組織的生產力(li)(li)、創造力(li)(li)。

二、深度學習的部署難題及解決方案

近(jin)年來,認知計算所取(qu)得的突破仍(reng)停留在識(shi)別的層次上。得益于(yu)深度學習的快速發展,目前(qian)計算機已經能夠在圖(tu)像識(shi)別,語音識(shi)別等領域達到或超(chao)過人的平(ping)均水(shui)平(ping)。

深(shen)度學(xue)習(xi)(xi)也被廣泛應用(yong)到其(qi)他的(de)領域,如醫療診(zhen)斷里(li)的(de)腫瘤監測、投資分析里(li)面(mian)的(de)文檔分類、智能交互的(de)語音助手(shou)、工(gong)業(ye)應用(yong)里(li)的(de)產品缺陷監測、生物工(gong)程(cheng)當中(zhong)的(de)基因(yin)測序等(deng)。但深(shen)度學(xue)習(xi)(xi)也存在(zai)挑(tiao)(tiao)戰,如需要用(yong)大量標(biao)注(zhu)數據、計算資源來(lai)進行訓練(lian),這是(shi)深(shen)度學(xue)習(xi)(xi)的(de)訓練(lian)挑(tiao)(tiao)戰,但陳玉榮博士所要闡述的(de)則是(shi)深(shen)度學(xue)習(xi)(xi)的(de)部(bu)署挑(tiao)(tiao)戰。

以視覺(jue)識(shi)別為例,為了提高識(shi)別準(zhun)確率,目(mu)前主(zhu)流(liu)的設(she)計方(fang)法有兩種,其(qi)一是(shi)將卷積(ji)神經網絡設(she)計的越(yue)來越(yue)深。其(qi)二,卷積(ji)神經網絡可以設(she)計的不那(nei)么深,但一定要足夠寬。使(shi)用這(zhe)兩種方(fang)法就會帶來一個問題,即目(mu)前主(zhu)流(liu)的模型參數通(tong)常(chang)是(shi)上(shang)千萬、上(shang)億甚(shen)至(zhi)更多(duo),這(zhe)就導致計算空(kong)間、存儲空(kong)間的復雜性(xing)非常(chang)大,這(zhe)樣就很難(nan)將其(qi)部署(shu)在計算和存儲資源受限的嵌入式(shi)、邊緣設(she)備上(shang)。

為了解決上述挑戰,除了進(jin)行有針(zhen)對(dui)性的(de)高(gao)效網絡設計(ji)以外,另一個(ge)主要的(de)辦法(fa)就是進(jin)行DNN模(mo)型壓縮。

英特爾在此(ci)方(fang)向上提出了一套低(di)精度(du)的(de)深(shen)度(du)壓縮解決方(fang)案,它(ta)可(ke)以(yi)將(jiang)DNN的(de)權(quan)重參數(shu)和激活(huo)值(zhi)表述成低(di)精度(du)的(de)二進(jin)制表示,并且,可(ke)以(yi)實現百(bai)倍級的(de)無損壓縮,這樣就(jiu)為深(shen)度(du)學(xue)習推斷在硬件(jian)和軟件(jian)上的(de)加速奠定了基礎(chu)。

GTIC2018 | 英特爾陳玉榮:情感識別認知計算的三年發展之路

該解決方案共包括了三個關鍵模塊:

1、優化DNN結構的動(dong)態(tai)網(wang)絡手術算(suan)法(fa)DNS。它可(ke)以將任意的DNN模(mo)(mo)型變成(cheng)疏松的DNN模(mo)(mo)型,但是不會損失模(mo)(mo)型的識別準(zhun)確率。

2.漸進網絡量化技術(shu)INQ,它可以將給定的DNN模(mo)型(xing)權重參(can)數變成低精度(du)的二進制表(biao)示(shi),同樣保證不會(hui)降低模(mo)型(xing)的識別準確率。

3.多(duo)尺度(du)的(de)編碼量化(hua)MLQ,它可以把(ba)DNN模型的(de)激活值變(bian)成(cheng)給定位框的(de)低精度(du)表示,同(tong)樣不(bu)會降(jiang)低模型的(de)識別準(zhun)確率。

通過把這三個(ge)技術結合起來,就形成了一套完整(zheng)的(de)、低精度(du)的(de)深度(du)壓縮解決方案。

接下(xia)來,陳(chen)玉榮博士(shi)詳細(xi)闡述了INQ技術原理。他(ta)表示,INQ技術通過(guo)(guo)三個(ge)(ge)創新的(de)(de)操作,即參數劃分、分組量(liang)化(hua)、重訓練(lian),從而(er)使得(de)整個(ge)(ge)量(liang)化(hua)過(guo)(guo)程(cheng)變(bian)成一(yi)個(ge)(ge)漸進式的(de)(de)操作過(guo)(guo)程(cheng),同時保證不會(hui)降低(di)模型(xing)(xing)的(de)(de)識(shi)別準(zhun)確率。INQ是(shi)第(di)一(yi)個(ge)(ge)無損的(de)(de)DNN量(liang)化(hua)壓(ya)縮的(de)(de)解決方案,它沒有對任(ren)何網絡(luo)模型(xing)(xing)類型(xing)(xing)進行假設(she),這意味著,它不僅可(ke)(ke)以(yi)用在卷積網絡(luo)模型(xing)(xing)CNN上(shang),也還可(ke)(ke)以(yi)用在其他(ta)網絡(luo)模型(xing)(xing)上(shang)。

此外,因其是(shi)二(er)進(jin)制表示,所以通(tong)過INQ技術(shu)與量化的模型可以使大部分的乘(cheng)法(fa)操作變(bian)成簡單的一位(wei)操作,同(tong)時采用專門(men)的硬件就(jiu)(jiu)可以實(shi)現很(hen)高的加速。另(ling)外,量化技術(shu)是(shi)基于(yu)預訓(xun)練模型的,也就(jiu)(jiu)是(shi)說不需要從頭(tou)開始訓(xun)練,那(nei)么(me)這樣量化的效(xiao)率很(hen)高。

通過對主流的DNN模型(xing)(xing)進行實驗,在(zai)5比特量化(hua)的結(jie)果(guo)顯示其(qi)量化(hua)模型(xing)(xing)的準確(que)率不但沒有(you)降低反而(er)有(you)所增加,在(zai)超低精度(du),也(ye)就(jiu)是(shi)在(zai)2/3比特的量化(hua)結(jie)果(guo)也(ye)顯示其(qi)識別準確(que)率非常接近全(quan)精度(du)的參考(kao)模型(xing)(xing)。

三、促進深度學習推斷硬件加速

針對深(shen)度(du)學習,英特爾提供了多種技術解決方案(an),涵蓋(gai)了從數據中心到邊緣(yuan)端的(de)訓練和推斷(duan)。

GTIC2018 | 英特爾陳玉榮:情感識別認知計算的三年發展之路

通過將低(di)精度(du)深度(du)壓縮(suo)技術與英特爾的(de)低(di)功(gong)耗(hao)硬件結(jie)合,就可(ke)以(yi)為霧計算(suan)、邊緣計算(suan)提供(gong)深度(du)學習推(tui)斷的(de)硬件加速(su)能力。例如,通過采用(yong)FPGA(現場(chang)可(ke)編程門(men)列)友好的(de)DNN設(she)計,并結(jie)合低(di)精度(du)深度(du)壓縮(suo)技術,就可(ke)以(yi)在霧計算(suan)應用(yong)場(chang)景提供(gong)更快的(de)速(su)度(du)、更近的(de)延遲和能耗(hao)以(yi)及(ji)更高的(de)吞(tun)吐(tu)量(liang)。

英特爾最(zui)新的(de)Movidius超級功耗視覺處理單元Myriad X?VPU已經具備了神經網絡計算加(jia)速的(de)引擎——NCE,將來把它與壓縮技術結合,就(jiu)可(ke)以實現低精度的(de)DNN計算。這樣,就(jiu)可(ke)以進一步提高在邊緣計算上DNN的(de)計算速度和(he)吞吐量。

此外,英(ying)特(te)爾(er)還研發出其他芯片,能夠支(zhi)持數據中心和邊(bian)緣端的各種AI計算(suan)(suan)。如英(ying)特(te)爾(er)凌動、酷睿和至(zhi)強(qiang)處(chu)理(li)器就可(ke)以對諸如機器學習、認知推理(li)等通用AI的算(suan)(suan)法進行(xing)計算(suan)(suan),如果算(suan)(suan)力不夠,還可(ke)以用FPGA進行(xing)靈活加速。

在每(mei)種CPU的(de)(de)(de)基礎之上,英(ying)特爾還(huan)(huan)會(hui)提供廣(guang)泛的(de)(de)(de)加速器(qi)組合,以(yi)便滿足(zu)不同(tong)用戶的(de)(de)(de)需(xu)求(qiu)。如英(ying)特爾的(de)(de)(de)Nervana神經網絡處理(li)器(qi),就(jiu)是(shi)專門(men)針(zhen)對(dui)深(shen)度(du)(du)學(xue)(xue)習設計,它可(ke)以(yi)對(dui)高(gao)強(qiang)度(du)(du)的(de)(de)(de)深(shen)度(du)(du)學(xue)(xue)習訓(xun)練和推(tui)斷進(jin)行加速。另(ling)外針(zhen)對(dui)視覺、語音、音頻以(yi)及自動駕駛等方面(mian)的(de)(de)(de)處理(li),還(huan)(huan)有專門(men)的(de)(de)(de)英(ying)特爾的(de)(de)(de)Movidius VPU、GNA以(yi)及Mobileye EyeQ芯片來(lai)進(jin)行專門(men)加速。

然(ran)而,光有芯片是不夠(gou)的(de),為此,英特(te)爾還提(ti)供(gong)了端(duan)到(dao)端(duan)的(de)AI全棧解決方案。其(qi)中包括多種(zhong)計算、存儲網絡硬件平臺;多種(zhong)軟件工具、函數庫;優化的(de)開源框架以及各種(zhong)人工智能平臺。

未來(lai),英特爾研究院(yuan)也在進(jin)行其他(ta)領域的(de)(de)研究,包括先進(jin)算法、神經(jing)擬態芯片(pian)、自(zi)主系統、量(liang)子(zi)(zi)計算。在今(jin)年的(de)(de)CES上,英特爾研究院(yuan)發布了代號Loihi神經(jing)擬態芯片(pian),以及代號為Tangle Lake的(de)(de)具有49個量(liang)子(zi)(zi)比特的(de)(de)超(chao)導量(liang)子(zi)(zi)測試芯片(pian)。

四、軟硬協同提升對“人”的認知

英(ying)特爾(er)(er)(er)人(ren)臉(lian)(lian)分析研究(jiu)始于2011年,其(qi)中共(gong)經歷了三個階(jie)段。早期采(cai)用(yong)(yong)比較傳統的算(suan)法實現(xian)了人(ren)臉(lian)(lian)檢測(ce)識別(bie)(bie)、微笑檢測(ce)、性別(bie)(bie)年齡識別(bie)(bie)等(deng)簡單功能。之后結合英(ying)特爾(er)(er)(er)架構(gou)(gou)進(jin)行軟(ruan)硬件協同(tong)設(she)計,采(cai)用(yong)(yong)更高效(xiao)的人(ren)臉(lian)(lian)檢測(ce)識別(bie)(bie)算(suan)法,實現(xian)更完(wan)整的功能,包括人(ren)臉(lian)(lian)關(guan)鍵點檢測(ce)跟蹤、動(dong)態人(ren)臉(lian)(lian)表情識別(bie)(bie)等(deng)。目前,英(ying)特爾(er)(er)(er)最新(xin)人(ren)臉(lian)(lian)分析技術則是利用(yong)(yong)了基于深(shen)度學習的高效(xiao)網絡結構(gou)(gou)設(she)計。在實際應用(yong)(yong)場景(jing)中,其(qi)功耗很低。

此外,英(ying)特(te)(te)爾(er)(er)還實現(xian)了(le)(le)三(san)維人臉分析,包括三(san)維人臉建模和增強。陳玉榮博士介(jie)紹,他們(men)研發的(de)(de)先進的(de)(de)2D人臉技(ji)術已經被(bei)集成到(dao)英(ying)特(te)(te)爾(er)(er)軟硬件當中,如英(ying)特(te)(te)爾(er)(er)的(de)(de)集成顯卡(ka)、實感技(ji)術SDK等,進一(yi)步(bu)提高了(le)(le)英(ying)特(te)(te)爾(er)(er)用戶的(de)(de)視覺體驗。

在(zai)基(ji)于2D人(ren)(ren)臉(lian)分析技(ji)(ji)術(shu)(shu)上(shang),英特(te)爾還開發了一套3D人(ren)(ren)臉(lian)分析技(ji)(ji)術(shu)(shu),通過該技(ji)(ji)術(shu)(shu),使用普通的筆記本電腦(nao)就可(ke)以(yi)實(shi)現(xian)實(shi)時的三(san)維(wei)人(ren)(ren)臉(lian)建模、跟蹤和增強。在(zai)會(hui)上(shang),陳玉(yu)榮(rong)博士演示(shi)了用參數化表(biao)(biao)示(shi)的三(san)維(wei)人(ren)(ren)臉(lian)形(xing)變模型(xing),它(ta)可(ke)以(yi)用來模擬任何人(ren)(ren)的相貌、臉(lian)形(xing)、表(biao)(biao)情變化等(deng)。這項(xiang)技(ji)(ji)術(shu)(shu)可(ke)以(yi)廣泛用在(zai)虛擬現(xian)實(shi)、游(you)戲場景當中(zhong),從(cong)而(er)進一步提升用戶的沉浸式體驗。

除對人臉分析(xi)之(zhi)外(wai),對情感的(de)計算(suan)也是認(ren)知(zhi)計算(suan)的(de)重要方面。

GTIC2018 | 英特爾陳玉榮:情感識別認知計算的三年發展之路

對于(yu)人類來說,聲音(yin)、表情(qing)(qing)是表達情(qing)(qing)感(gan)的(de)(de)(de)最主要(yao)的(de)(de)(de)方(fang)(fang)式。英特爾(er)通(tong)過對情(qing)(qing)感(gan)識別(bie)算法的(de)(de)(de)研究,在(zai)2015年就提(ti)出了基(ji)于(yu)人工定義特征(zheng)的(de)(de)(de)人臉表情(qing)(qing)識別(bie)算法,并基(ji)于(yu)算法研發出了一套音(yin)視頻情(qing)(qing)感(gan)解(jie)決方(fang)(fang)案(an)(an)。該方(fang)(fang)案(an)(an)在(zai)2015年舉(ju)辦的(de)(de)(de)非受(shou)限的(de)(de)(de)音(yin)視頻情(qing)(qing)感(gan)識別(bie)挑戰賽EmotiW2015中獲得(de)第一名。

2016年(nian),英(ying)特(te)爾研(yan)發(fa)出了全(quan)新的(de)深(shen)度(du)(du)神經(jing)網(wang)絡算法(fa)HoloNet,其(qi)速度(du)(du)很快,在(zai)普通的(de)CPU上運行速度(du)(du)可(ke)達百幀(zhen)每秒。這(zhe)樣可(ke)以滿(man)足機(ji)器(qi)人(ren)、智(zhi)能家(jia)居、在(zai)線(xian)教育應(ying)用(yong)場景的(de)使用(yong)需求。2017年(nian),英(ying)特(te)爾又提出了全(quan)新聚合監督的(de)情感識別算法(fa),該算法(fa)取得(de)了單模型比HoloNet高(gao)5.5%的(de)識別率,通過多模型的(de)融合在(zai)去年(nian)比賽當中再次獲得(de)第一名。

GTIC2018 | 英特爾陳玉榮:情感識別認知計算的三年發展之路