
芯東西(ID:aichip001)
編輯 | ?心緣
GTIC 2020全(quan)(quan)球AI芯片(pian)創新峰(feng)會(hui)(hui)剛剛在北京圓(yuan)滿收官!在這場(chang)全(quan)(quan)天座無虛席、全(quan)(quan)網直播(bo)觀看人數(shu)逾150萬次的高規格AI芯片(pian)產業峰(feng)會(hui)(hui)上,19位產學界重磅嘉賓從不(bu)同維(wei)度分享了(le)對中國AI芯片(pian)自主創新和應用落地的觀察與(yu)預判。
清華大(da)學(xue)微納電子系副主(zhu)任、微電子所副所長尹首一教授(shou)首登GTIC,圍繞《中國AI芯(xin)片(pian)的(de)創新(xin)之路》主(zhu)題,深入淺出地(di)探討了(le)AI芯(xin)片(pian)在中國的(de)進(jin)展,并對AI芯(xin)片(pian)產業的(de)關(guan)鍵(jian)技術(shu)與(yu)創新(xin)機會進(jin)行(xing)了(le)系統的(de)梳理(li)與(yu)預(yu)判(pan)。
▲清華大學(xue)微(wei)納(na)電(dian)子系副(fu)主(zhu)任、微(wei)電(dian)子所(suo)副(fu)所(suo)長(chang)尹首(shou)一教(jiao)授
在演講(jiang)期間,尹首(shou)一教授重(zhong)(zhong)點為大家梳理(li)了當前AI芯片(pian)的技(ji)術路線分(fen)類(lei),分(fen)別介(jie)紹了指令集(ji)架構(gou)處(chu)理(li)器(qi)、數據流處(chu)理(li)器(qi)、存內計(ji)算處(chu)理(li)器(qi)、可重(zhong)(zhong)構(gou)處(chu)理(li)器(qi)、脈沖神經(jing)網絡處(chu)理(li)器(qi)及神經(jing)形態器(qi)件等AI芯片(pian)的不同研究方向,并對AI芯片(pian)進(jin)行了階(jie)段性回顧和(he)展望。
他總結道,目前AI芯(xin)片仍(reng)處起(qi)步(bu)階段(duan),在科(ke)學(xue)研究和(he)產業(ye)(ye)應用方面(mian)具有廣闊的(de)創(chuang)新(xin)空(kong)間(jian),而(er)中(zhong)國AI芯(xin)片產業(ye)(ye)創(chuang)新(xin)正與(yu)國際(ji)同步(bu),未(wei)來大有可為。
以下為尹首一教授演講實錄整理:
一、2025年全球AI芯片市場規模將達700億美元
AI芯片產業發展至今已有五六個年頭,現在進入攻堅階段。大家已經達成這樣一個共識,人類社會正從信息化邁向智能化,人工智能(AI)成為實現智能化的一個關鍵手段,而在這其中,芯片是核心基石和戰略制高點。
耳熟能詳(xiang)的(de)AlphaGo、自動駕(jia)駛,手機上的(de)人(ren)臉解鎖、智能拍照(zhao),無(wu)線耳機的(de)人(ren)機交互……都離不開(kai)AI芯片(pian)的(de)支撐。
在推動智能化發展方面,AI芯片有兩個最核心的作用:一是芯片的“絕對算力”是決定智能化所能達到的最高水平的關鍵因素之一;二是“計算能效”是決定智能化應用范圍的關鍵因素之一。
從“絕對算力”來看,今年(nian)OpenAI推出(chu)的GPT-3非常火(huo),成為今年(nian)自(zi)然語(yu)言處理中最強大(da)的模(mo)型,這個(ge)模(mo)型有(you)1700億(yi)個(ge)參數,使用了一萬張GPU卡進行(xing)訓練。沒有(you)這樣強大(da)的算(suan)力(li)(li),GPT-3無法達到目前的智能化水平(ping),可(ke)以說“絕對算(suan)力(li)(li)”決定了今天智能化的水平(ping)。
芯(xin)片算(suan)力的(de)發(fa)展速(su)度與人工(gong)智(zhi)能算(suan)法(fa)對算(suan)力的(de)需求增長之間(jian)存在巨大(da)的(de)差距,通用處理器平均每(mei)(mei)兩年性(xing)能翻(fan)一番,而算(suan)法(fa)模型對算(suan)力的(de)需求大(da)概每(mei)(mei)3.4個月就翻(fan)一番,這(zhe)是(shi)AI芯(xin)片需要解決的(de)問(wen)題。
從“計算能效”來看,今天有(you)非常多的應用領(ling)域面臨(lin)迫(po)切的智能(neng)化(hua)需求,人(ren)(ren)(ren)工智能(neng)技術正從云(yun)端向(xiang)邊緣(yuan)和(he)物聯網(wang)設備快速滲透。然(ran)而人(ren)(ren)(ren)工智能(neng)技術能(neng)否實用化(hua),受(shou)限于軟硬件系統的計(ji)算能(neng)效(xiao)。比如,語音識別顛覆了傳統的人(ren)(ren)(ren)機(ji)交互接口,如果沒有(you)低功耗高能(neng)效(xiao)的AI芯片,在智能(neng)耳機(ji)等便(bian)攜(xie)穿戴設備上就無法實現令人(ren)(ren)(ren)滿意的用戶體驗。
伴隨著人(ren)工智能產業的(de)快速(su)發(fa)展(zhan),AI芯片(pian)(pian)展(zhan)現出(chu)巨大的(de)發(fa)展(zhan)潛(qian)力。據第(di)三方(fang)機(ji)構預測,全(quan)球AI市場規(gui)模到(dao)(dao)2025年(nian)(nian)(nian)將達到(dao)(dao)6.4萬億美元,其中(zhong)全(quan)球AI芯片(pian)(pian)市場規(gui)模預計在2025年(nian)(nian)(nian)將達到(dao)(dao)700億美金(jin),今年(nian)(nian)(nian)中(zhong)國AI芯片(pian)(pian)市場規(gui)模已超過75億人(ren)民(min)幣,未來有非常強勁的(de)增(zeng)長潛(qian)力。
二、兩大維度整體梳理AI芯片分類
大(da)家經常問:“AI芯(xin)(xin)片用在哪里?”、“AI芯(xin)(xin)片屬于什(shen)么類別(bie)的產品(pin)?”在峰會現場(chang),尹首一教(jiao)授從(cong)應(ying)用場(chang)景和(he)技術路線兩個維度,概述了(le)AI芯(xin)(xin)片尤其是中國AI芯(xin)(xin)片的發(fa)展全貌。
他認為,中國的AI芯片發展起步和國際產業基本同步。據不完全統計,今天中國在做AI芯片的企業超過100家,從地(di)域(yu)劃分來看,北(bei)京、上(shang)海、長三角、珠三角是最為活躍的區域(yu)。
從應用場景的角度做劃分,AI芯片可以分成云端、邊緣端兩類。
云端可(ke)以進一步細(xi)分成推理應(ying)用和(he)訓(xun)(xun)練(lian)應(ying)用。推理應(ying)用是大(da)家(jia)每(mei)天都在互聯網(wang)服務中能感受到(dao)的(de)(de),比如搜(sou)索引擎中的(de)(de)自然語(yu)言翻譯、電商網(wang)站的(de)(de)用戶推薦系統(tong)、很(hen)多地(di)方在建的(de)(de)城市大(da)腦等(deng);而訓(xun)(xun)練(lian)應(ying)用是今天所有(you)人工智能系統(tong)開(kai)發的(de)(de)基礎。
邊緣側的應用場景非常繁多,比如智(zhi)能(neng)手(shou)機、智(zhi)能(neng)音箱、安防監(jian)控(kong)、智(zhi)能(neng)駕駛、無人系統等,在這些終端設備上都是推理應用。
今(jin)天(tian)AI芯片(pian)成(cheng)長(chang)非常速(su)度,從(cong)2017年(nian)到2022年(nian),不同應用領域(yu)的AI芯片(pian)的復(fu)合(he)(he)增(zeng)長(chang)率都在50%左右(you)。綜合(he)(he)來看(kan),五(wu)年(nian)間以(yi)55%的年(nian)均復(fu)合(he)(he)增(zeng)長(chang)率快速(su)發展。
從技術路線的角度,今天的AI芯片可以分成兩大類。
一類是深(shen)度神(shen)(shen)經(jing)網絡(luo)處理器,對今(jin)天深(shen)度學習的(de)核心基礎——深(shen)度神(shen)(shen)經(jing)網絡(luo)——進行計算加速。
另(ling)一類是(shi)神經形態(tai)處理器,通過對人(ren)腦(nao)結(jie)構的研究,設計電(dian)路或器件來復制或模仿人(ren)腦(nao)機理,實(shi)現智能(neng)處理能(neng)力。
三、實現深度神經網絡處理器的四類典型架構
深度神經網絡處理器,從計算架構的角度可分成四種不同的類型:(1)指令集處理器(2)數據流處理器(3)存內計算處理器(4)可重構處理器。
無論哪種技(ji)術(shu)路(lu)線,最終目(mu)標(biao)都是實現對深度(du)神經網(wang)絡的計(ji)算加速。
首先來看一下指令集架構AI處理器。
指令集架構AI處理器(qi)可(ke)以定義為一類使(shi)用專門(men)為神(shen)經網絡運算而(er)設計的指令集的處理器(qi)。
說到指(zhi)(zhi)令集(ji),大家熟悉的(de)(de)CPU是最(zui)典型(xing)的(de)(de)指(zhi)(zhi)令集(ji)處理(li)器(qi)(qi)的(de)(de)例子(zi),采用一(yi)套預定義的(de)(de)定長或(huo)者(zhe)變長的(de)(de)指(zhi)(zhi)令作(zuo)為數據處理(li)的(de)(de)基本單(dan)元(yuan),通過(guo)對這(zhe)些指(zhi)(zhi)令的(de)(de)組合構成指(zhi)(zhi)令流(liu),由指(zhi)(zhi)令流(liu)來(lai)驅動處理(li)器(qi)(qi)完成復雜(za)計(ji)算任務。
通過(guo)對神經網絡計算特征的抽象,構造出神經網絡專用(yong)指令集,設(she)計硬(ying)件(jian)架構高(gao)效執行這些指令,就實(shi)現了專用(yong)的AI處理器。
尹首一教授通過寒武紀的例子進一步解釋了神經網絡專用指令集和處理器架構。上圖是寒武紀公開發表的DianNao架構結構示意圖,其中典型的計算部件有三個NFU(神經功能(neng)單元),分別(bie)(bie)是并(bing)行乘法(fa)器、加法(fa)樹、激(ji)活(huo)函數三(san)類單元,另外還有三(san)個不(bu)同的存儲單元,分別(bie)(bie)存儲著輸(shu)入特(te)征數據、模(mo)型權重、輸(shu)出(chu)數據。
寒(han)武(wu)紀(ji)DianNao架(jia)構的(de)(de)運(yun)行受到CP控(kong)制器(qi)的(de)(de)控(kong)制,神經(jing)網(wang)絡指(zhi)(zhi)令(ling)集中有(you)存儲指(zhi)(zhi)令(ling)LOAD、READ、WRITE等(deng)、運(yun)算指(zhi)(zhi)令(ling)MULT、ADD等(deng)。典型的(de)(de)神經(jing)網(wang)絡被表達為通過這些指(zhi)(zhi)令(ling)組合構成的(de)(de)指(zhi)(zhi)令(ling)流(liu),從而驅動處理器(qi)完成計算。
第二類是數據流AI處理器,這是一種計算行(xing)為(wei)由數(shu)據調度決定的數(shu)據流驅(qu)動的張量處理架(jia)構,其特點是優化(hua)數(shu)據復用和計算并行(xing)度。
在典(dian)型的(de)數(shu)據(ju)流(liu)(liu)處理器(qi)中(zhong),神經網絡張量會被(bei)劃分成不同的(de)tile,每個tile內的(de)計算被(bei)映射到一(yi)個處理單(dan)元(PE)陣列(lie)中(zhong)。典(dian)型的(de)數(shu)據(ju)流(liu)(liu)包括(kuo)兩種:一(yi)種稱(cheng)為權重(zhong)穩定數(shu)據(ju)流(liu)(liu),一(yi)種稱(cheng)為輸出穩定數(shu)據(ju)流(liu)(liu),分別對應著充分復用(yong)權重(zhong)數(shu)據(ju)、充分復用(yong)輸出數(shu)據(ju),通過(guo)不同數(shu)據(ju)流(liu)(liu)提高數(shu)據(ju)復用(yong)、減少緩(huan)存(cun),提高計算并行(xing)度,從而最終(zhong)提高芯片的(de)處理能力和處理能效。
第三類存內計算處理器,如(ru)今吸引了很多研(yan)究機構、創業公司及(ji)投(tou)資機構的(de)興趣(qu)。
什么是(shi)存內(nei)計(ji)算?邏輯電路或(huo)處理單元(yuan)被放置到存儲器內(nei)部,使數據更接近(jin)處理單元(yuan);或(huo)者直接在存儲電路中執行計(ji)算,而無需進行數據傳輸,這就是(shi)我(wo)們今天所說的存內(nei)計(ji)算概(gai)念。
它能解決什么問(wen)題?在(zai)(zai)(zai)傳統(tong)計(ji)(ji)算(suan)架構中,處理單元和(he)存儲(chu)(chu)器是分離的結(jie)構,每次計(ji)(ji)算(suan)都要在(zai)(zai)(zai)處理單元和(he)存儲(chu)(chu)器之間(jian)進行一定的數(shu)據搬移。而存內計(ji)(ji)算(suan)架構,不需要在(zai)(zai)(zai)存儲(chu)(chu)器和(he)計(ji)(ji)算(suan)單元間(jian)大量(liang)搬移數(shu)據,解決了今天傳統(tong)計(ji)(ji)算(suan)架構面臨的“存儲(chu)(chu)墻”問(wen)題。
存(cun)(cun)內計算(suan)根(gen)據采用(yong)存(cun)(cun)儲器(qi)類型(xing)的(de)不(bu)同,可以分(fen)成不(bu)同的(de)技術路線,包括(kuo):阻變存(cun)(cun)儲器(qi)(RRAM)、閃存(cun)(cun)(Flash)、靜(jing)態隨機(ji)存(cun)(cun)儲器(qi)(SRAM)等。
RRAM和Flash屬于非易失存儲。以RRAM為例,每個(ge)存(cun)儲單(dan)(dan)元(yuan)里面的電阻值(zhi)通過電流來調(diao)節(jie),每個(ge)單(dan)(dan)元(yuan)可以調(diao)節(jie)多種阻值(zhi),典(dian)型(xing)憶阻器(qi)結構是交叉開關(guan)形式。
AI算(suan)法中(zhong)大量存在的(de)(de)是矩(ju)陣和張量計算(suan),在RRAM中(zhong),將神經網絡權重(zhong)以(yi)(yi)電導的(de)(de)形(xing)式(shi)寫到cross-point上(shang)(shang)(shang)(shang),再把輸入值以(yi)(yi)電壓(ya)形(xing)式(shi)輸入到存儲器的(de)(de)字(zi)線上(shang)(shang)(shang)(shang),當(dang)電壓(ya)施加(jia)到電阻上(shang)(shang)(shang)(shang),就(jiu)有電流流過,這(zhe)些電流在位(wei)線上(shang)(shang)(shang)(shang)自然地被累加(jia)起來。這(zhe)就(jiu)形(xing)成了在矩(ju)陣和張量計算(suan)中(zhong)的(de)(de)乘法累加(jia)過程,把數(shu)學上(shang)(shang)(shang)(shang)的(de)(de)矩(ju)陣和張量計算(suan)轉化成了物理上(shang)(shang)(shang)(shang)的(de)(de)基(ji)爾霍夫定(ding)律和歐姆(mu)定(ding)律表達(da)的(de)(de)電壓(ya)和電流的(de)(de)關系,用物理方式(shi)完成了數(shu)學計算(suan)。
這也(ye)就是今天存內計(ji)(ji)算(suan)(suan)最吸引人的地方(fang)(fang),我(wo)們不再(zai)采用(yong)傳統的數字計(ji)(ji)算(suan)(suan)部件,而(er)是采用(yong)模擬、物(wu)理(li)的方(fang)(fang)式(shi)去實現計(ji)(ji)算(suan)(suan)。
除(chu)了(le)(le)前面提到的(de)RRAM、Flash非易失存儲以外,芯(xin)片中用(yong)到最多的(de)是(shi)SRAM,有(you)制造上的(de)優勢。SRAM中也(ye)能(neng)夠(gou)通過模擬方式實現(xian)矩陣/張量計(ji)算(suan),免(mian)除(chu)了(le)(le)數據搬移(yi),降低了(le)(le)計(ji)算(suan)功耗、提高了(le)(le)計(ji)算(suan)能(neng)效。
第四類是可重構AI處理器。用(yong)簡單(dan)(dan)的(de)詞(ci)來概(gai)括(kuo)可(ke)重(zhong)構架(jia)構的(de)特點,可(ke)以(yi)說(shuo)它是一種(zhong)空間陣(zhen)列(lie),計(ji)(ji)算單(dan)(dan)元(yuan)在空間排成一個陣(zhen)列(lie)結構,具(ju)有(you)計(ji)(ji)算并行(xing)性(xing);它也是近存(cun)計(ji)(ji)算,每個計(ji)(ji)算單(dan)(dan)元(yuan)附近有(you)存(cun)儲單(dan)(dan)元(yuan),這樣減(jian)少了數據(ju)(ju)搬(ban)移的(de)距離;另外,它還具(ju)有(you)彈(dan)性(xing)粒(li)度的(de)計(ji)(ji)算單(dan)(dan)元(yuan),通過電路重(zhong)構支(zhi)持多(duo)(duo)種(zhong)數據(ju)(ju)位寬(kuan);隨著算法需求變化,動(dong)態重(zhong)構計(ji)(ji)算架(jia)構,靈活支(zhi)持多(duo)(duo)種(zhong)數據(ju)(ju)流,由數據(ju)(ju)驅(qu)動(dong)完成計(ji)(ji)算。
可重(zhong)(zhong)構(gou)AI處理器在運算(suan)部件、處理單(dan)元、片上互連、計(ji)算(suan)陣列等方面(mian)實現(xian)了分層次(ci)架(jia)構(gou)重(zhong)(zhong)構(gou),各(ge)個層次(ci)在運算(suan)中協同配合,實現(xian)了多元編程機制,這樣的(de)架(jia)構(gou)克服(fu)了傳(chuan)統計(ji)算(suan)架(jia)構(gou)中數(shu)(shu)據位寬固(gu)(gu)定(ding)或者數(shu)(shu)據流固(gu)(gu)定(ding)的(de)缺點,提(ti)升了AI計(ji)算(suan)的(de)算(suan)力和(he)能效。
例如,今天的神經(jing)網絡中有(you)一個典型(xing)需(xu)求(qiu)是多數據位(wei)寬量化,一個神經(jing)網絡中不(bu)同(tong)神經(jing)層可(ke)被量化成不(bu)同(tong)的數據位(wei)寬,可(ke)重構AI處理(li)器的多尺(chi)度(du)編(bian)程能力與之配(pei)合,可(ke)以顯(xian)著(zhu)減小模型(xing)體積、提高計算速度(du)和能效。
四、解讀神經形態處理器的兩大研究路徑
接著(zhu),尹首一(yi)教授(shou)講解了AI芯片(pian)的另一(yi)大技(ji)術路線——神經形態處(chu)理器。
從技術路線角度來看,神經形態處理器可以被細分為兩類:一是脈沖神經網絡處理器,二是神經形態器件。
脈沖神(shen)(shen)經(jing)(jing)網(wang)(wang)絡(luo)從(cong)數(shu)學(xue)上模擬了大腦神(shen)(shen)經(jing)(jing)網(wang)(wang)絡(luo)中的脈沖放電機制,是對人腦神(shen)(shen)經(jing)(jing)網(wang)(wang)絡(luo)的一(yi)種抽(chou)象。把(ba)脈沖神(shen)(shen)經(jing)(jing)網(wang)(wang)絡(luo)的典(dian)型(xing)數(shu)學(xue)模型(xing),通過電路(lu)方式(shi)實現出來,芯片在運行中就能模仿(fang)人腦計算的特(te)點,即(ji)實現了一(yi)定(ding)程度的類腦計算。
例如,清(qing)華大(da)學(xue)的(de)天機(Tianjic)芯片(pian),通(tong)過優化(hua)電路設計(ji),不僅支(zhi)(zhi)持脈(mo)沖(chong)神(shen)經(jing)(jing)網絡(luo),而且同時支(zhi)(zhi)持深度神(shen)經(jing)(jing)網絡(luo),實現了深度神(shen)經(jing)(jing)網絡(luo)和脈(mo)沖(chong)神(shen)經(jing)(jing)網絡(luo)的(de)“二合一”。此(ci)前(qian)大(da)家看過一段演示視頻,通(tong)過天機芯片(pian)控制(zhi)實現了自行車的(de)自動駕(jia)駛,展現了脈(mo)沖(chong)神(shen)經(jing)(jing)網絡(luo)的(de)智(zhi)能處(chu)理能力。
神經形態器件,則(ze)是設計一種物理器件,在物理上模擬神經元的行為。
應用離(li)子動(dong)力學可以(yi)逼真(zhen)地模擬生物突(tu)觸(chu)的(de)(de)可塑性以(yi)及神(shen)經(jing)(jing)元(yuan)工作機制,通過物理方式實現能夠(gou)模擬神(shen)經(jing)(jing)元(yuan)放(fang)電(dian)過程的(de)(de)器(qi)件(jian)。假如我們把大量的(de)(de)模擬人類神(shen)經(jing)(jing)元(yuan)行(xing)為的(de)(de)器(qi)件(jian)互(hu)連起來,就有(you)機會制造一個(ge)非常接近(jin)于人腦神(shen)經(jing)(jing)網絡(luo)的(de)(de)系(xi)統,有(you)望實現類腦智能。
這里(li)的(de)(de)代表性工作(zuo)(zuo)是中科(ke)院微電子所和麻省(sheng)大學的(de)(de)合作(zuo)(zuo)成果,設(she)計制(zhi)備(bei)出了一種新(xin)型器(qi)件結(jie)構,當施加電脈沖以后,它的(de)(de)響應曲線和人(ren)(ren)腦神(shen)經(jing)(jing)元受到(dao)刺激后的(de)(de)響應曲線非常接近。大量的(de)(de)器(qi)件連起來,就能構造出類似人(ren)(ren)腦的(de)(de)神(shen)經(jing)(jing)網絡(luo)系統。這就是通過神(shen)經(jing)(jing)形態器(qi)件的(de)(de)方式(shi)去實現人(ren)(ren)工智能計算的(de)(de)技術路線。
五、中國AI芯片產業創新正與國際同步
在演講尾聲,尹首一教授對AI芯片發展做了階段性回顧和總結。
首先,經過五六年的發展,AI芯片已經取(qu)得非(fei)(fei)常大的成績(ji),但它仍然(ran)處于起步階(jie)段,無論在(zai)科學研(yan)究還是產業應(ying)用方(fang)面,都具有非(fei)(fei)常廣闊的創新空(kong)間。
其次,人工智能(neng)從算法和應(ying)用角(jiao)度來講,給(gei)芯片(pian)提出大量新需(xu)求,它將促使AI芯片(pian)去探索很多顛覆性(xing)的(de)技術(shu),徹底突破傳統架構的(de)性(xing)能(neng)和能(neng)效瓶頸(jing),實現跨(kua)越(yue)式發展(zhan)。
最后,中國的AI芯(xin)片創新與國際同步,今天中國AI芯(xin)片的技術路線最(zui)(zui)全面、應用領域最(zui)(zui)豐富,伴隨著人工智能產(chan)業快速(su)發(fa)展,中國AI芯(xin)片將大有可為。
以上是尹首一教授演講內容的完整整理。除尹首一教授外,在本屆GTIC 2020 AI芯片創新峰會期間 ,比特大陸、地平線、黑芝麻智能、燧原科技、壁仞科技、光子算數、知存科技、億智電子、豪微科技等芯片創企,全球FPGA領先玩家賽靈思,Imagination、安謀中國等知名IP供應商,全球EDA巨頭Cadence,以及北極光創投、中芯聚源等知名投資機構,分別分享了對AI芯片產業的觀察與思考。如感興趣更多嘉賓演講的核心干貨,歡迎關注芯東西后續推送內容。
往期峰會演講整理: