
智東西(公眾號:zhidxcom)
編譯 |? 香草
編輯 |??李水青
智東西8月24日(ri)消息(xi),8月23日(ri),IBM研究(jiu)中心發布了一款新型模擬(ni)AI芯(xin)(xin)片(pian),在語(yu)音識別和(he)轉錄等自然語(yu)言處理AI任務上,其(qi)能(neng)源效率較(jiao)傳統芯(xin)(xin)片(pian)提(ti)升約14倍,相關(guan)論(lun)文已刊發于國際頂(ding)刊Nature。
據介紹,這款芯片(pian)(pian)的(de)設計(ji)靈感來源于(yu)人腦,可(ke)以在(zai)14nm芯片(pian)(pian)上(shang)集成3500萬PCM(相變存(cun)儲(chu)器)。IBM研發(fa)團(tuan)隊在(zai)此(ci)芯片(pian)(pian)上(shang)進行了語音識(shi)別(bie)和轉錄實(shi)驗,在(zai)保障準(zhun)確率的(de)前提下,速度和能(neng)效均有很大提升。
一、利用PCM存儲數據,模擬芯片解決AI技術高能耗問題
AI相關技術在飛速發(fa)展(zhan)的(de)(de)(de)同(tong)(tong)(tong)時,也面臨著能(neng)(neng)源消耗(hao)的(de)(de)(de)問題。為(wei)了提升能(neng)(neng)源效率,IBM來自世(shi)界各地實驗(yan)室的(de)(de)(de)研(yan)(yan)究人(ren)員共同(tong)(tong)(tong)研(yan)(yan)發(fa)了這款模(mo)擬AI芯片(pian)(pian)。據(ju)稱,在兩個AI推理實驗(yan)中,該芯片(pian)(pian)都像同(tong)(tong)(tong)類數字(zi)芯片(pian)(pian)一(yi)樣可靠地執行任務(wu),但其完成任務(wu)的(de)(de)(de)速度更(geng)快,能(neng)(neng)耗(hao)更(geng)低。
IBM稱,其(qi)研究人員(yuan)一直(zhi)都(dou)在(zai)深(shen)耕模(mo)擬(ni)AI芯(xin)片(pian)(pian)領域。2021年,其(qi)團隊就(jiu)發布(bu)了(le)一款名(ming)為Fusion的模(mo)擬(ni)芯(xin)片(pian)(pian),利用PCM設備的存儲能力和物理屬性,更(geng)高效(xiao)地實現人工神經網絡。
傳統計算(suan)機基于馮(feng)·諾依曼結構——一(yi)種將(jiang)程序指令存(cun)(cun)儲器和數據存(cun)(cun)儲器合并在一(yi)起的電腦設計概念結構,每次計算(suan)都(dou)將(jiang)數據從DRAM(動(dong)態隨機存(cun)(cun)取存(cun)(cun)儲器 )內(nei)存(cun)(cun)傳輸到CPU,導致工作速(su)度(du)受(shou)到實(shi)際限(xian)制,永遠(yuan)無法實(shi)現CPU的真正計算(suan)能力,這被稱(cheng)為“馮(feng)·諾依曼瓶頸”。
▲當每次計算(suan)將(jiang)數據從DRAM內(nei)存傳(chuan)輸到CPU時,傳(chuan)統計算(suan)機(ji)就會出現瓶頸(圖源(yuan):IBM官網)
利用PCM設備的(de)(de)物理特性,模擬芯片(pian)可以(yi)克(ke)服馮(feng)·諾依曼瓶頸,在存儲數據的(de)(de)同(tong)一(yi)位(wei)置執(zhi)行計算。由于沒(mei)有數據移動,它可以(yi)在很短的(de)(de)時間內執(zhi)行任務(wu),并且消耗的(de)(de)能(neng)源更少。
▲模擬芯片通過在存儲數據的地方執行計算來克服瓶頸(圖源:IBM官網)
例如,將64位數(shu)據從(cong)DRAM移動到CPU會(hui)消(xiao)(xiao)耗1-2nJ(納(na)焦)能量,而在PCM設(she)備上執行(xing)只需(xu)消(xiao)(xiao)耗1-100fJ(飛焦),是前者的1萬(wan)(wan)至200萬(wan)(wan)分之一。當(dang)擴展到數(shu)十億次操作時,所節省(sheng)的能源是巨(ju)大的。此外,當(dang)設(she)備不活動時,PCM不會(hui)消(xiao)(xiao)耗電(dian)力(li),即使斷電(dian),數(shu)據也(ye)將保留10年。
二、采用全新設計方式,14nm芯片可編碼3500萬個PCM
雖然(ran)IBM早在(zai)兩年前便已研發(fa)出了模(mo)擬芯片,并嘗試將其用于提(ti)升(sheng)AI計(ji)算性能,但Fusion芯片一(yi)次(ci)只能訪問一(yi)個PCM設(she)備,對(dui)速度和能效的(de)提(ti)升(sheng)并不(bu)顯著。
IBM本次發布的(de)這款芯(xin)片(pian)采用了(le)新的(de)設計方(fang)(fang)式,利用34個大(da)型PCM陣列,結合(he)了(le)數(shu)模(mo)轉換輸入、模(mo)擬外圍(wei)電(dian)路(lu)(lu)、模(mo)數(shu)轉換輸出(chu)和大(da)規模(mo)并行二維網格路(lu)(lu)由。每個14nm芯(xin)片(pian)上可編碼3500萬(wan)個PCM,在(zai)每權重對(dui)應2-PCMs的(de)方(fang)(fang)案中,可容納1700萬(wan)個參(can)數(shu)。將這些芯(xin)片(pian)組(zu)合(he)在(zai)一(yi)起,便能夠(gou)像(xiang)數(shu)字芯(xin)片(pian)一(yi)樣有效地處理(li)真實AI用例的(de)實驗。
▲IBM模擬AI芯(xin)片(pian)的顯微照片(pian)(圖(tu)源:論文插圖(tu))
上圖(tu)中(zhong),圖(tu)a顯示了(le)(le)芯片的(de)(de)(de)顯微照(zhao)片,突出(chu)顯示了(le)(le)34個PCM陣(zhen)列模(mo)塊(kuai)的(de)(de)(de)2D網格,每個模(mo)塊(kuai)都有自己(ji)的(de)(de)(de)512×2048 PCM交叉陣(zhen)列。PCM器件集(ji)成在14nm前(qian)端電(dian)路上方的(de)(de)(de)后端布線中(zhong)(圖(tu)b),可通過電(dian)脈(mo)沖調整窄底電(dian)極上晶(jing)體(ti)相(xiang)(xiang)(高導(dao)電(dian)性)和非晶(jing)相(xiang)(xiang)(高電(dian)阻性)材料的(de)(de)(de)相(xiang)(xiang)對體(ti)積來編(bian)碼模(mo)擬(ni)電(dian)導(dao)狀態。對PCM器件進行編(bian)程時采用并行編(bian)程方案(an)(圖(tu)c),這樣同一行中(zhong)的(de)(de)(de)所有512個權值都會(hui)同時更新。
該研發團(tuan)隊采用的(de)(de)(de)方法是(shi)優化主導深度學習計(ji)(ji)算的(de)(de)(de)MAC(乘積累加運算)。通過(guo)讀(du)取電阻式NVM(非易失(shi)性存儲器(qi))設備(bei)陣列的(de)(de)(de)行,然后沿(yan)列收集電流(liu),團(tuan)隊證明可以(yi)在存儲器(qi)內執行MAC,無需在芯(xin)片的(de)(de)(de)存儲器(qi)和計(ji)(ji)算區(qu)域(yu)之間或跨芯(xin)片移(yi)動權重(zhong)。
三、精確度不減,語音識別速度提升7倍、大模型運行能效提升14倍
為了(le)驗證芯片(pian)的(de)有效性,該團隊(dui)設計(ji)了(le)兩個實驗對其進(jin)行測試(shi)。他們從(cong)MLPerf中選擇了(le)兩個神經網絡模(mo)型,分別(bie)是語音(yin)喚(huan)醒和語音(yin)轉文本(ben)模(mo)型。MLPerf是由斯坦福、哈佛等(deng)頂尖學術(shu)機構發起成(cheng)立的(de),權(quan)威性最大、影(ying)響力最廣的(de)國(guo)際AI性能基(ji)準測試(shi)。
第一個實(shi)驗圍繞關鍵(jian)詞語音檢測展開。該團(tuan)隊(dui)提(ti)出了(le)一種(zhong)卷積神經網絡架(jia)構,并在包(bao)含12個關鍵(jian)字的(de)(de)谷歌語音命令數據集上(shang)進行訓練。團(tuan)隊(dui)采用了(le)架(jia)構更簡單(dan)的(de)(de)FC(全連(lian)接(jie))網絡結構,最終達到(dao)了(le)86.14%的(de)(de)識(shi)別精度(du),且提(ti)交速度(du)比MLPerf目(mu)前最佳情況(kuang)快(kuai)7倍(bei)。該模型使用硬件感知訓練在GPU上(shang)進行訓練,然(ran)后部署在團(tuan)隊(dui)的(de)(de)模擬(ni)AI芯片上(shang)。
▲端到端語音喚醒任務(wu)相關圖(tu)表(圖(tu)源:論文插圖(tu))
第二(er)個(ge)實驗圍繞語(yu)音(yin)轉(zhuan)(zhuan)文本展開,規模(mo)(mo)更(geng)大。團隊使用5個(ge)模(mo)(mo)擬AI芯片組合(he)在一起,運行(xing)RNN-T(循環神經網絡轉(zhuan)(zhuan)換器)模(mo)(mo)型,以逐個(ge)字母地轉(zhuan)(zhuan)錄語(yu)音(yin)內容。該系統包(bao)含(han)5個(ge)芯片上(shang)1.4億個(ge)PCM設備的4500萬個(ge)權重,能(neng)夠(gou)采集人(ren)們(men)說(shuo)話的音(yin)頻并(bing)以非常接近數字硬件設置的精度(du)進行(xing)轉(zhuan)(zhuan)錄。該實驗最終達到9.258%的單詞(ci)錯誤率(lv),能(neng)量(liang)效率(lv)達6.704TOPS/W(萬億次操作(zuo)每秒/瓦),比MLPerf目前最佳(jia)能(neng)效提高了14倍。
▲模擬AI芯片在RNN-T模型上表(biao)現出(chu)的性能相關圖表(biao)(圖源:論文插圖)
與(yu)第一個實(shi)驗(yan)不同,這(zhe)個實(shi)驗(yan)并不完全(quan)是端到(dao)端的,這(zhe)意味(wei)著它(ta)確(que)實(shi)需要一些(xie)片外(wai)數字計(ji)算(suan)。IBM稱,這(zhe)里涉及的額外(wai)計(ji)算(suan)很少,如果在芯片上實(shi)現,最(zui)終的能效(xiao)仍然高于(yu)當今市場(chang)上的產品。
結語:模擬AI芯片能否成為下一個趨勢
繼2021年推出第一款模擬(ni)芯片Fusion后,IBM于近日(ri)發布了專攻AI的(de)模擬(ni)芯片,速(su)度、能效均比傳統數(shu)字芯片大幅(fu)提升,準確率(lv)也保持高(gao)水準。
傳統芯(xin)片受制于“馮(feng)·諾依曼瓶頸”,而模擬芯(xin)片可以打破這一桎梏,為AI技術(shu)帶(dai)來(lai)(lai)新(xin)的(de)生(sheng)命力。未來(lai)(lai),模擬芯(xin)片市場能否得到(dao)進(jin)一步發展,我(wo)們(men)會持續關注。
來源:Nature、IBM官網(wang)
最新評論