智東西(公眾號:zhidxcom)
文 | Lina

3月9日(ri),由智(zhi)東(dong)西主辦(ban)(ban),極果和AWE聯(lian)合舉(ju)辦(ban)(ban)的中(zhong)國首場(chang)AI芯(xin)(xin)片(pian)峰會(hui)在(zai)上(shang)海浦東(dong)成功舉(ju)辦(ban)(ban)。本(ben)次大會(hui)共(gong)吸引近萬名觀眾參加(jia),到(dao)場(chang)人數比預計翻(fan)了(le)(le)3倍。即使是下午場(chang),依然爆(bao)滿,有(you)的觀眾寧愿站著也要聽完全場(chang)。在(zai)大會(hui)現場(chang),近40位(wei)人工智(zhi)能(neng)及AI芯(xin)(xin)片(pian)業界翹楚(chu)共(gong)聚一堂(tang),系統(tong)地探討了(le)(le)AI芯(xin)(xin)片(pian)在(zai)2018年的技術前景和產業趨勢(shi)。

GTIC 2018 | 英偉達Simon See:揭秘增加AI芯片能效的兩大法寶

在上午場的演講中(zhong)(zhong),芯(xin)片(pian)巨頭英偉達AI技(ji)術中(zhong)(zhong)心亞太(tai)首席技(ji)術官Simon See博士發表了主題為《端到端的AI計算》的演講,深入探討(tao)了深度學習(xi)在越(yue)來(lai)越(yue)多的行業(ye)中(zhong)(zhong)落地應用的同時,數據(ju)量也隨之增加,由此對于AI芯(xin)片(pian)的打(da)造者來(lai)說(shuo)帶來(lai)了不(bu)少(shao)新挑戰(zhan);此外,Simon See博士還詳細(xi)解讀(du)了兩(liang)種壓縮神經(jing)網(wang)絡、增加芯(xin)片(pian)效率的方法(fa):降低(di)計算精度與剪(jian)枝網(wang)絡(Purne)。

GTIC 2018 | 英偉達Simon See:揭秘增加AI芯片能效的兩大法寶

以(yi)下(xia)為Simon See博士(shi)演講的(de)要點精析。

一、AI行業應用大幅鋪開,催生各類新興AI芯片

Simon See博士首(shou)先介紹道,從2012年的(de)ImageNet比(bi)賽(sai)開始,深(shen)度神經網絡開始逐漸走進人們的(de)的(de)視線當(dang)中,并從此之(zhi)后一直不(bu)斷發(fa)展,以圖像(xiang)分(fen)類為首(shou)的(de)深(shen)度學(xue)習(xi)應用準確度越(yue)(yue)來越(yue)(yue)高、性能越(yue)(yue)來越(yue)(yue)強(qiang)、應用領域(yu)也越(yue)(yue)來越(yue)(yue)廣。

GTIC 2018 | 英偉達Simon See:揭秘增加AI芯片能效的兩大法寶

基于這些技(ji)術,又逐漸衍生出來基于圖(tu)像的物體檢測(ce)、場(chang)景檢測(ce)、風格(ge)檢測(ce)等(deng)(deng)不同能力(li),并產生出智(zhi)慧城市(shi)、智(zhi)能醫(yi)療(liao)、安防監控(kong)等(deng)(deng)不同行業(ye)應用。

GTIC 2018 | 英偉達Simon See:揭秘增加AI芯片能效的兩大法寶

由(you)于AI的廣泛(fan)鋪開,也催生了(le)目前(qian)市場(chang)上一大批新(xin)(xin)興AI芯片(pian)(pian)創業公(gong)司的出現。PPT里的大多(duo)是國外代表公(gong)司,中(zhong)國也差不(bu)多(duo)有幾十家公(gong)司在研發新(xin)(xin)型(xing)AI芯片(pian)(pian)。

二、深度神經網絡日趨復雜,對芯片要求增加

那么(me)為什(shen)么(me)會(hui)需要這(zhe)種(zhong)芯片(pian)呢?第一我(wo)們(men)需要看到算(suan)(suan)法。剛剛魏老師(shi)也說過,這(zhe)個算(suan)(suan)法一直在改變(bian),無論是CNN、DNN、GANs,還有其他Deep Q-Learning,尤其是用(yong)在AlphaGo這(zhe)方面(mian)。

這些種種AI芯片興起的(de)另一個(ge)原因,則是(shi)AI對于(yu)算力(li)要求的(de)不斷提升。在(zai)2014年的(de)時候,10層神經(jing)網絡的(de)計(ji)算就需要30多(duo)個(ge)GPU;而AlphaGo的(de)第一個(ge)版本(不是(shi)最新那個(ge)AlphaZero),在(zai)訓練時則需要50個(ge)GPU訓練超(chao)過三個(ge)星期才能(neng)做到。

而在這(zhe)期間,CNN、RNN、GANs、Deep Q-Learning等算法不(bu)斷變(bian)得復雜(za),更是對深度(du)學(xue)習計算硬(ying)件提出(chu)了新挑戰。與(yu)2015年相比(bi),翻譯神經(jing)網絡的(de)(de)復雜(za)度(du)提高了10倍;與(yu)2014年相比(bi),語音神經(jing)網絡的(de)(de)復雜(za)度(du)提高了30倍;而與(yu)2012年相比(bi),圖像深度(du)神經(jing)網絡的(de)(de)復雜(za)度(du)則提高了350倍。

除了深度神經網絡日趨復雜之外,數據量也在不斷(duan)增加。舉(ju)個(ge)例子,一(yi)(yi)個(ge)采(cai)集225×225圖像(xiang)、采(cai)用ResNet-50網絡的(de)(de)無(wu)人(ren)駕(jia)駛車的(de)(de)攝像(xiang)頭需要230Gops/30fps的(de)(de)計算(suan)(suan)量,需要運(yun)行(xing)77.2億次計算(suan)(suan)。而(er)一(yi)(yi)臺無(wu)人(ren)車需要12-24個(ge)攝像(xiang)頭,其計算(suan)(suan)量以指數級增加。

GTIC 2018 | 英偉達Simon See:揭秘增加AI芯片能效的兩大法寶

以上種(zhong)種(zhong)原因,使得(de)AI對(dui)于(yu)硬件計(ji)算(suan)的(de)要求越(yue)來越(yue)高。不過如(ru)果(guo)我們(men)仔(zi)細研究(jiu)神經(jing)網絡,就會發現深(shen)度(du)(du)學習中的(de)基本處(chu)理是(shi)最簡單的(de)矩陣運算(suan),如(ru)果(guo)你(ni)(ni)可以把他們(men)全部都放在一起(qi)的(de),你(ni)(ni)就可以高度(du)(du)并行化地(di)計(ji)算(suan)。而最早(zao)由圖(tu)像處(chu)理起(qi)家的(de)英(ying)偉達,其GPU芯片設計(ji)本就是(shi)為了矩陣運算(suan)而生的(de),隨后英(ying)偉達又在GPU中加(jia)(jia)入了深(shen)度(du)(du)學習相關加(jia)(jia)速(su)。

三、神經網絡壓縮的兩大發展方向

神(shen)經(jing)(jing)網絡(luo)的(de)(de)壓縮(suo)與簡(jian)化(hua)則是一個學術(shu)界(jie)與工程界(jie)都(dou)在(zai)研(yan)究討論的(de)(de)重要問題。目前的(de)(de)深度神(shen)經(jing)(jing)網絡(luo)普遍(bian)較大,無論是在(zai)云端還是在(zai)終端,都(dou)會(hui)影響(xiang)網絡(luo)速(su)度,增大功(gong)耗。

GTIC 2018 | 英偉達Simon See:揭秘增加AI芯片能效的兩大法寶

在演(yan)講中(zhong),Simon See博士提到了(le)優化AI芯片效率的(de)(de)(de)(de)(de)(de)這(zhe)兩(liang)大(da)方(fang)向(xiang):一個(ge)(ge)是降低計算(suan)精度(du)。圖中(zhong)不同精度(du)的(de)(de)(de)(de)(de)(de)數值的(de)(de)(de)(de)(de)(de)計算(suan)功耗(hao),可以看到精度(du)越高、功耗(hao)越大(da)。為(wei)此,英(ying)偉達推出(chu)TensorRT,它是一款可編程推理(li)加(jia)速(su)器,能加(jia)速(su)現有和未來(lai)的(de)(de)(de)(de)(de)(de)網絡(luo)架構,包含一個(ge)(ge)為(wei)優化在生產環(huan)境中(zhong)部署的(de)(de)(de)(de)(de)(de)深度(du)學習(xi)模型而創建的(de)(de)(de)(de)(de)(de)庫,可獲(huo)取經(jing)過(guo)訓練的(de)(de)(de)(de)(de)(de)神經(jing)網絡(luo)(32位或16位的(de)(de)(de)(de)(de)(de)數字),并(bing)通過(guo)降低精度(du)來(lai)優化網絡(luo)運算(suan)。

此外,還可以通過網(wang)絡來進行網(wang)絡剪枝(Purne),先構造好(hao)整個算法網(wang)絡,然后(hou)再嘗試消(xiao)除多(duo)余的節點(dian),壓縮(suo)網(wang)絡大小(xiao)。

結語:從云到端、從硬到軟

在(zai)演講中,Simon See博士對于AI芯片(pian)保持著(zhu)十分積極的態度,他認(ren)為,從交通到健康(kang),越(yue)來越(yue)多的行業(ye)開始擁抱AI;而隨(sui)著(zhu)數據量的激增,AI芯片(pian)也變得越(yue)來越(yue)重要(yao)。

不(bu)過,由于AI芯(xin)片仍屬于一個(ge)技(ji)術(shu)早期(qi)的(de)前沿科技(ji)產品(pin),在(zai)有(you)了(le)芯(xin)片硬(ying)件之后,配套的(de)軟件生態(如編譯(yi)器(qi)器(qi)、模擬器(qi)、開發者套件等)也需要配合(he)跟上,打造從(cong)云到端、從(cong)硬(ying)到軟的(de)AI環境。

GTIC 2018 | 英偉達Simon See:揭秘增加AI芯片能效的兩大法寶