芯東西(公眾號:aichip001)
編輯 |? GACS

芯(xin)(xin)東西10月7日報(bao)道,9月14日~15日,2023全球(qiu)AI芯(xin)(xin)片(pian)峰會(GACS 2023)在(zai)深圳南山圓滿(man)舉行。在(zai)次日高效能(neng)AI芯(xin)(xin)片(pian)芯(xin)(xin)片(pian)專場上,九天睿芯(xin)(xin)副總裁(cai)袁野分享了主(zhu)(zhu)題為《基于6T SRAM的混合存內計(ji)算(suan)架構(gou)處理器加速多樣化應(ying)用落地》的主(zhu)(zhu)題演講。

袁野在演講(jiang)中介紹了AIGC和(he)存內計算(suan)與(yu)高速互(hu)聯的技術。對于AIGC,他(ta)強調了它(ta)是人類(lei)的助手而不(bu)是取代(dai)工作,指(zhi)出了基于ChatGPT的應(ying)用領域(yu)和(he)未來的發展趨勢(shi)。同時,他(ta)講(jiang)到存內計算(suan)技術,包括模(mo)式(shi)混合架構和(he)純數字架構各自的優勢(shi)。

袁野還介紹了九天睿芯(xin)(xin)開發的ADA系列芯(xin)(xin)片,針對傳(chuan)感(gan)器側、SoC側大算力需(xu)求的定位。并且列舉了一(yi)些應用機會,如(ru)星光級(ji)夜視和個人(ren)智能終(zhong)端。

以下為袁野的演講實錄:

非常高(gao)興能來參加這(zhe)次活動(dong),大概給(gei)大家(jia)講(jiang)一(yi)(yi)下我(wo)們(men)現在(zai)的(de)一(yi)(yi)些(xie)情況,也給(gei)大家(jia)分(fen)享一(yi)(yi)下我(wo)們(men)所暢(chang)想的(de)一(yi)(yi)些(xie)未來。分(fen)成四個(ge)(ge)部分(fen),第(di)一(yi)(yi)個(ge)(ge)講(jiang)講(jiang)AIGC,第(di)二個(ge)(ge)講(jiang)講(jiang)我(wo)們(men)存內計算(suan)與高(gao)速互聯(lian)的(de)技術(shu)。因為在(zai)突破大算(suan)力瓶頸(jing)上,除了(le)本身的(de)存內計算(suan)技術(shu)是(shi)最底層的(de)解決互聯(lian)問(wen)題以外(wai),中間相互之間的(de)互聯(lian)也是(shi)非常重要(yao)的(de)一(yi)(yi)個(ge)(ge)板(ban)塊(kuai)。

第一個(ge)板塊(kuai)是(shi)(shi)AIGC。ChatGPT剛出來的(de)時候,很多人在說基于(yu)這個(ge)生態可能(neng)會取代(dai)很多工(gong)作,但(dan)是(shi)(shi)在我(wo)看來AIGC一直是(shi)(shi)人類的(de)助手(shou)(shou),所以不(bu)要(yao)太(tai)過于(yu)把它看成(cheng)一個(ge)猛虎,而是(shi)(shi)要(yao)把它看成(cheng)一個(ge)伙伴,一個(ge)絕(jue)對(dui)非常(chang)好用的(de)輔助工(gong)具跟助手(shou)(shou)。

我一(yi)直(zhi)在用ChatGPT,在使用過(guo)程中發現它(ta)(ta)(ta)(ta)有自身的(de)(de)(de)缺陷,包括(kuo)它(ta)(ta)(ta)(ta)本身是一(yi)個逐字推理的(de)(de)(de)模型,所以效率肯定不(bu)會(hui)特(te)別(bie)高。第(di)二,它(ta)(ta)(ta)(ta)腦洞(dong)確實比較小,因為受本身內部邏(luo)輯的(de)(de)(de)限制。還有它(ta)(ta)(ta)(ta)在時空域的(de)(de)(de)聯想(xiang)會(hui)比較差,如果前天問(wen)(wen)了它(ta)(ta)(ta)(ta)一(yi)個問(wen)(wen)題(ti)今(jin)天再去問(wen)(wen),同一(yi)個人(ren)對它(ta)(ta)(ta)(ta)問(wen)(wen)的(de)(de)(de)問(wen)(wen)題(ti),但是得出來的(de)(de)(de)結果是不(bu)一(yi)樣的(de)(de)(de)。

ChatGPT是(shi)一(yi)個通(tong)(tong)用大模(mo)型,當(dang)它真正做(zuo)到個人(ren)模(mo)型后就可以(yi)(yi)解(jie)決相關的問(wen)題,所以(yi)(yi)真正的通(tong)(tong)用大模(mo)型未來到垂直落地(di)場景、到個人(ren)大模(mo)型,我覺得(de)是(shi)大趨(qu)勢(shi)。

大(da)(da)模(mo)型可(ke)以應用的(de)點,像教育、客服(fu)、助手(shou)、NPC這(zhe)些都(dou)非常(chang)多。我是(shi)(shi)一(yi)個(ge)游戲愛(ai)好(hao)者,也是(shi)(shi)一(yi)個(ge)小說(shuo)愛(ai)好(hao)者,所以網絡上(shang)腦(nao)洞大(da)(da)開的(de)寫(xie)游戲的(de)虛擬小說(shuo),我覺得(de)(de)寫(xie)得(de)(de)非常(chang)好(hao)。通過ChatGPT和(he)現在大(da)(da)算力(li)的(de)發展,包括存內(nei)計(ji)算的(de)發展,那種游戲的(de)落地在未來已經不遠了。這(zhe)對我個(ge)人(ren)來說(shuo)是(shi)(shi)一(yi)件非常(chang)值得(de)(de)興奮的(de)事(shi)情(qing),在我有生之年能夠(gou)完善這(zhe)樣的(de)游戲我就圓滿了。

一、基于純數字架構SRAM存內計算,ADA系列芯片能效、面效雙提升

基(ji)于我們本(ben)身的(de)存(cun)內(nei)計(ji)算給大(da)家講一講。初(chu)期我們是(shi)做模式混合架(jia)構(gou)存(cun)內(nei)計(ji)算的(de)芯(xin)(xin)片,后面(mian)(mian)(mian)同(tong)步延(yan)展了(le)基(ji)于純(chun)數字(zi)架(jia)構(gou)SRAM的(de)存(cun)內(nei)計(ji)算的(de)芯(xin)(xin)片。現在第二代ADA200芯(xin)(xin)片能效(xiao)跟面(mian)(mian)(mian)效(xiao)比(bi)已(yi)經非常明顯了(le),能效(xiao)比(bi)做到(dao)20TOPS/W,面(mian)(mian)(mian)效(xiao)是(shi)做到(dao)10TOPS/平方(fang),比(bi)現有(you)純(chun)數字(zi)架(jia)構(gou)的(de)MPU有(you)非常大(da)的(de)優勢。

九天睿芯袁野:存內計算適配AIGC芯片需求,高速互聯接口打通“搬運墻”丨GACS 2023

另外,基(ji)于數字(zi)板(ban)塊架構的(de)SRAM存內計算也在(zai)設(she)計當中。

為什么(me)還(huan)去做一(yi)個純數(shu)字(zi)(zi)的(de)(de)(de)(de)?因為模式混(hun)合的(de)(de)(de)(de)架(jia)構(gou)在(zai)支持INT8、INT4、INT2這(zhe)樣(yang)有效精(jing)度(du)計算時(shi)候是(shi)非(fei)常(chang)好的(de)(de)(de)(de),但是(shi)在(zai)做更高(gao)精(jing)度(du)的(de)(de)(de)(de)比如16甚至32精(jing)度(du)計算的(de)(de)(de)(de)時(shi)候表現就(jiu)沒有那么(me)好。所以(yi)做了(le)純數(shu)字(zi)(zi)架(jia)構(gou)SRAM的(de)(de)(de)(de)東西以(yi)后(hou),純數(shu)字(zi)(zi)的(de)(de)(de)(de)可(ke)(ke)以(yi)做更高(gao)精(jing)度(du)的(de)(de)(de)(de)計算,模式混(hun)合的(de)(de)(de)(de)可(ke)(ke)以(yi)做低(di)精(jing)度(du)的(de)(de)(de)(de)計算。整個芯片做好融合以(yi)后(hou),在(zai)推理跟訓練的(de)(de)(de)(de)時(shi)候都可(ke)(ke)以(yi)用到(dao),這(zhe)就(jiu)類似于GPU的(de)(de)(de)(de)核心功能。

這是(shi)我們一個完(wan)整的(de)實現方式(shi),數(shu)字的(de)就是(shi)數(shu)字信號+加法樹+無精度損(sun)(sun)失,好處是(shi)無精度損(sun)(sun)失。模式(shi)混合的(de)架(jia)構的(de)好處是(shi)在(zai)面效(xiao)跟能效(xiao)上(shang)表現上(shang)會更高,但(dan)是(shi)會有一定精度損(sun)(sun)失。現在(zai)我們自己測試(shi)下來(lai),精度損(sun)(sun)失差不多在(zai)百萬分之(zhi)二,在(zai)大模型或(huo)者大量AI運算上(shang)基本(ben)是(shi)可(ke)以忽略不計的(de)損(sun)(sun)失。

另外一(yi)種方式是(shi)CIMA,用(yong)純模(mo)擬(ni)的架構做,它更(geng)(geng)好的支(zhi)持類似于INT4、INT2更(geng)(geng)低精(jing)度的運算。在(zai)未來大模(mo)型量化(hua)過后,CIMA也是(shi)很好的方向。我們(men)跟很多做AIGC的大廠、做大模(mo)型大廠溝通的時候,他們(men)現在(zai)還(huan)(huan)是(shi)基于INT8、INT16級別在(zai)做。往更(geng)(geng)低層(ceng)次的量化(hua),他們(men)有(you)(you)在(zai)研究(jiu)但(dan)是(shi)還(huan)(huan)沒(mei)有(you)(you)做。

九天睿芯袁野:存內計算適配AIGC芯片需求,高速互聯接口打通“搬運墻”丨GACS 2023

我們(men)也得到了其它的消息,現在(zai)AIGC算(suan)法或者大(da)模型(xing)的算(suan)法未來會(hui)(hui)往(wang)什么(me)方向走還(huan)(huan)是不定(ding)性的,而(er)且國內的牌(pai)(pai)照未來可能還(huan)(huan)會(hui)(hui)重新洗(xi)牌(pai)(pai),到底哪些廠商有(you)資格去做大(da)模型(xing)現在(zai)還(huan)(huan)沒有(you)定(ding)論(lun)。

所以(yi)在做(zuo)這(zhe)個芯片的(de)(de)(de)時候,無論是(shi)(shi)(shi)選擇CIMD還是(shi)(shi)(shi)CIMX架構,我們(men)更多(duo)思(si)考的(de)(de)(de)是(shi)(shi)(shi)怎么把底層對(dui)Transformer一些算子(zi)的(de)(de)(de)支持、把互聯做(zuo)好,而(er)不是(shi)(shi)(shi)現在就去做(zuo)一顆SoC。如果現階段就去做(zuo)SoC,可能在某個階段等真(zhen)真(zhen)正(zheng)正(zheng)大模(mo)型定下來(lai)以(yi)后到底適(shi)不適(shi)用,還是(shi)(shi)(shi)一個非常大的(de)(de)(de)問(wen)題(ti)。現在更多(duo)的(de)(de)(de)精力(li)是(shi)(shi)(shi)跟很多(duo)的(de)(de)(de)大廠(chang)做(zuo)溝通或者基于存內計算定制開發的(de)(de)(de)合作。這(zhe)里講了CIMD、CIMX的(de)(de)(de)優勢。

九天睿芯袁野:存內計算適配AIGC芯片需求,高速互聯接口打通“搬運墻”丨GACS 2023

我們定位的(de)(de)(de)幾(ji)個事(shi)情:第(di)一(yi)(yi),針對(dui)傳(chuan)(chuan)(chuan)感器側(ce),已經量產的(de)(de)(de)ADA100芯(xin)(xin)片系(xi)列是完全針對(dui)傳(chuan)(chuan)(chuan)感器側(ce)AI的(de)(de)(de)運算(suan)。AI的(de)(de)(de)東西應該是無(wu)處不在的(de)(de)(de),從最初的(de)(de)(de)傳(chuan)(chuan)(chuan)感器端(duan)開(kai)始就可以帶一(yi)(yi)定的(de)(de)(de)AI處理,幫(bang)助壓縮傳(chuan)(chuan)(chuan)到后端(duan)的(de)(de)(de)數據(ju)量或者是更(geng)準確(que)的(de)(de)(de)數據(ju)傳(chuan)(chuan)(chuan)到后端(duan)的(de)(de)(de)核心功能,所(suo)以第(di)一(yi)(yi)代(dai)芯(xin)(xin)片中非常小算(suan)力的(de)(de)(de)部分(fen)主要是針對(dui)邊緣側(ce)傳(chuan)(chuan)(chuan)感器的(de)(de)(de)AI。

ADA200系(xi)列差不(bu)多4T左右,而且4T-20T范(fan)圍(wei)內的(de)(de)(de)(de)AI芯片(pian)就是(shi)(shi)針(zhen)(zhen)對(dui)(dui)SoC側的(de)(de)(de)(de)算(suan)(suan)力(li)補充。SoC側的(de)(de)(de)(de)算(suan)(suan)力(li)想覆蓋所有(you)應用是(shi)(shi)非常難(nan)的(de)(de)(de)(de),現在很多產(chan)品對(dui)(dui)AI需(xu)求(qiu)會越(yue)來(lai)越(yue)大(da),但是(shi)(shi)SoC要重新設計(ji)或者做更(geng)大(da)的(de)(de)(de)(de)NPU難(nan)度是(shi)(shi)非常大(da)的(de)(de)(de)(de)。我們就去做了這樣的(de)(de)(de)(de)NPU來(lai)幫(bang)助做算(suan)(suan)力(li)支撐(cheng),算(suan)(suan)是(shi)(shi)SoC側的(de)(de)(de)(de)一個(ge)協(xie)處理(li)器。ADA300更(geng)多是(shi)(shi)針(zhen)(zhen)對(dui)(dui)更(geng)大(da)算(suan)(suan)力(li)需(xu)求(qiu),比如100T-1000T范(fan)圍(wei)的(de)(de)(de)(de)算(suan)(suan)力(li)支撐(cheng),我們也是(shi)(shi)針(zhen)(zhen)對(dui)(dui)算(suan)(suan)力(li)支撐(cheng)而沒有(you)做完(wan)整(zheng)的(de)(de)(de)(de)SoC。

為什么做(zuo)這(zhe)(zhe)樣(yang)的東西(xi),或者ADA300為什么做(zuo)呢?跟國內做(zuo)筆電、手機(ji)大廠溝通的時候發現(xian),他們想把AIGC直接落地在(zai)平板、電腦上(shang),形成個(ge)人的AI智(zhi)能(neng)終端。這(zhe)(zhe)樣(yang)的AI智(zhi)能(neng)終端對算(suan)(suan)力的需求很(hen)大,而且(qie)對功耗(hao)方(fang)面的要(yao)求很(hen)高,所(suo)以(yi)存內計(ji)算(suan)(suan)在(zai)這(zhe)(zhe)個(ge)階段可以(yi)發揮非常好的作用(yong),這(zhe)(zhe)是我們為什么要(yao)做(zuo)這(zhe)(zhe)個(ge)產品的原因,待(dai)會兒有具體的應用(yong)跟大家分享。

二、高速互聯接口,打通CPU、算力、存儲的次級搬運墻

我(wo)(wo)們公司2018年(nian)成(cheng)立,中(zhong)(zhong)間有做了兩代(dai)、三(san)代(dai)存內(nei)計算(suan),今年(nian)開始做互(hu)(hu)(hu)聯(lian)。為什(shen)么做互(hu)(hu)(hu)聯(lian)?存內(nei)計算(suan)所(suo)形成(cheng)的算(suan)力(li)芯片并不大,單個存內(nei)計算(suan)芯片算(suan)力(li)基(ji)本上是(shi)(shi)堆到(dao)4T,再往上走是(shi)(shi)通過互(hu)(hu)(hu)聯(lian)通過疊加(jia)的形式實現更(geng)大算(suan)力(li)的模式,所(suo)以互(hu)(hu)(hu)聯(lian)在整(zheng)個AI或(huo)者存內(nei)計算(suan)中(zhong)(zhong)起到(dao)的作用是(shi)(shi)非常核心(xin)的,這是(shi)(shi)我(wo)(wo)們為什(shen)么做互(hu)(hu)(hu)聯(lian)的原因。

在芯片內部(bu)或者芯片外部(bu),互聯技(ji)術已(yi)經非常多了(le),基本上是把整個行業(ye)做了(le)一(yi)個串(chuan)聯,從最初傳(chuan)感器到端(duan)側的SoC,通過低(di)速接(jie)口(kou)做連(lian)接(jie)。

SoC內部CPU、GPU之(zhi)間(jian)的(de)(de)(de)互(hu)相通(tong)信也是(shi)有(you)自己的(de)(de)(de)通(tong)信技術。存儲(chu)跟CPU之(zhi)間(jian)的(de)(de)(de)通(tong)信不用說(shuo),SATA是(shi)最早的(de)(de)(de),但是(shi)現(xian)在(zai)PCIe的(de)(de)(de)東西越來(lai)越多,特別(bie)是(shi)服務器級類似(si)這樣的(de)(de)(de)芯片越來(lai)越多。存儲(chu)又跟傳輸中(zhong)心(xin)、算(suan)力中(zhong)心(xin)互(hu)連,中(zhong)間(jian)有(you)非常多的(de)(de)(de)互(hu)連技術。典型代(dai)表,現(xian)在(zai)比較火(huo)的(de)(de)(de)類似(si)于(yu)英特爾(er)提的(de)(de)(de)CXL,基于(yu)PCIe5、PCIe6、NVlink這樣一些互(hu)連技術,包括上面總線(xian)內部的(de)(de)(de)互(hu)聯就是(shi)我們現(xian)在(zai)所做的(de)(de)(de)核心(xin),一切是(shi)為了實(shi)現(xian)大算(suan)力做準備。

我們(men)自定義的技(ji)(ji)術(shu)就(jiu)不詳細講(jiang)了。一個是(shi)(shi)片內的,一個是(shi)(shi)片間(jian)的。這兩塊(kuai)互聯技(ji)(ji)術(shu)本(ben)身是(shi)(shi)圍(wei)繞未來大算(suan)(suan)力(li)(li)需求(qiu)或者是(shi)(shi)中(zhong)算(suan)(suan)力(li)(li)需求(qiu)而去做(zuo)準(zhun)備(bei)的。

九天睿芯袁野:存內計算適配AIGC芯片需求,高速互聯接口打通“搬運墻”丨GACS 2023

三、算法+系統+底層硬件支持,AI技術升級加速應用落地

最后我想(xiang)說的是(shi)迎接智能時(shi)代。

英(ying)偉達不用說(shuo)(shuo)了,它(ta)(ta)本(ben)身(shen)的(de)(de)(de)生態(tai)搭建得很完整。新一代(dai)應(ying)對于推理(li)(li)側的(de)(de)(de)芯片也(ye)出來(lai)了,而且它(ta)(ta)跟很多(duo)行業內(nei)大廠已經開始向做下一代(dai)個(ge)人智能終端設備(bei)的(de)(de)(de)趨勢走了。他們最早也(ye)是做協處(chu)理(li)(li)器(qi)(qi),英(ying)偉達最早是做游戲顯卡起家,但是到下一代(dai)智能PC階段(duan),基(ji)本(ben)上超過英(ying)特(te)爾成為主控了,英(ying)特(te)爾CPU反而可以(yi)說(shuo)(shuo)是一個(ge)協處(chu)理(li)(li)器(qi)(qi)、控制器(qi)(qi)的(de)(de)(de)概(gai)念。我們還(huan)是很看好(hao)AI的(de)(de)(de)未來(lai),希望順著這條路走出國內(nei)的(de)(de)(de)發展。

我(wo)列舉了(le)一些應用的機(ji)(ji)會(hui),現在可以(yi)看到(dao)無論是(shi)手機(ji)(ji)、PC還(huan)是(shi)智能終(zhong)端的設(she)備,有越來(lai)(lai)越多AI升級(ji)的機(ji)(ji)會(hui),所(suo)以(yi)最終(zhong)會(hui)帶(dai)來(lai)(lai)新(xin)(xin)的終(zhong)端設(she)備、新(xin)(xin)的行業設(she)備、新(xin)(xin)的芯片架構包括(kuo)整個新(xin)(xin)的生態邏輯,是(shi)非常龐大的一個新(xin)(xin)的市(shi)場。在座的各位如果還(huan)有心思,可以(yi)仔細想(xiang)一想(xiang)在中間能夠找到(dao)什么樣的機(ji)(ji)會(hui)。

這(zhe)邊列舉了一(yi)些(xie)應用。第一(yi)個(ge),星光級(ji)夜(ye)視。這(zhe)是(shi)(shi)(shi)我(wo)朋友公司做(zuo)(zuo)的(de)技術,他(ta)(ta)們可以(yi)在只有0.001lux的(de)前提下做(zuo)(zuo)到真彩(cai)成(cheng)像,這(zhe)是(shi)(shi)(shi)非(fei)(fei)常(chang)(chang)牛(niu)的(de)一(yi)個(ge)技術。它(ta)的(de)算力是(shi)(shi)(shi)不(bu)高,但參數量非(fei)(fei)常(chang)(chang)大,怎么(me)樣把(ba)它(ta)量化、跑(pao)起來是(shi)(shi)(shi)非(fei)(fei)常(chang)(chang)難的(de)事(shi)情,所以(yi)現在用傳統的(de)SoC跑(pao)延時(shi)就非(fei)(fei)常(chang)(chang)嚴重,而且成(cheng)像效果并不(bu)佳。他(ta)(ta)的(de)想法是(shi)(shi)(shi)基于存(cun)內可不(bu)可以(yi)把(ba)這(zhe)個(ge)東西做(zuo)(zuo)得更(geng)好?這(zhe)是(shi)(shi)(shi)存(cun)內的(de)應用點,類似(si)這(zhe)樣的(de)算法在未來會越來越多。怎么(me)支持這(zhe)樣的(de)算法把(ba)AI落地得更(geng)好?這(zhe)是(shi)(shi)(shi)我(wo)們要做(zuo)(zuo)的(de)事(shi)情。

九天睿芯袁野:存內計算適配AIGC芯片需求,高速互聯接口打通“搬運墻”丨GACS 2023

第二(er)個(ge)(ge),個(ge)(ge)人智能(neng)終(zhong)端,這是(shi)暢想型的(de)(de)東西(xi)。所有ChatGPT或者(zhe)AIGC的(de)(de)東西(xi)越來越成(cheng)熟后,我們(men)想把這些(xie)AI算力布置到各(ge)個(ge)(ge)終(zhong)端上,包(bao)括(kuo)手(shou)持式終(zhong)端、便攜式終(zhong)端,最(zui)終(zhong)形成(cheng)的(de)(de)是(shi)真正的(de)(de)自動化助手(shou)。其中(zhong)的(de)(de)生意機會(hui)也(ye)非常多。

總的(de)來說(shuo),我們公司(si)是提供支撐(cheng)算力平臺(tai)的(de)公司(si),我們想把它從傳感(gan)器側、到(dao)SOC側、到(dao)未(wei)來個人平臺(tai)側一些算力做更好的(de)支撐(cheng),感(gan)謝大家(jia)!

以上是袁野演講內容的完整整理。