芯東西(公眾號:aichip001)
編輯 |? GACS 2024

2024全球AI芯(xin)(xin)片峰會(GACS 2024)于9月6日~7日在北(bei)京舉(ju)行(xing),大會由(you)智一科技旗下芯(xin)(xin)片行(xing)業(ye)媒體芯(xin)(xin)東(dong)西和(he)硬科技知識分享社區智猩(xing)猩(xing)發起(qi)舉(ju)辦,在主會場(chang)開(kai)幕(mu)式上,蘋芯(xin)(xin)科技聯合創始人(ren)兼CEO楊越以《存(cun)算的進階——從神經網絡(luo)到(dao)大模型》為題(ti)發表(biao)了演(yan)講(jiang)。

蘋(pin)芯科技聯合創始人兼CEO楊越拆解了存算一體技術的(de)進(jin)階(jie)過程。產業界主(zhu)流芯片的(de)出現和(he)成長與當下(xia)計(ji)(ji)算需求(qiu)的(de)特點緊密相關,2015年前后,計(ji)(ji)算體系結構中的(de)計(ji)(ji)算瓶(ping)頸從處理器端(duan)向(xiang)存儲(chu)端(duan)遷移(yi),尤其(qi)是神經網絡的(de)出現,加快了人工智能(AI)芯片計(ji)(ji)算效率的(de)提升節(jie)奏,存算技術因此受到關注。

楊越認為,存算(suan)(suan)一(yi)體(ti)技(ji)術在(zai)大模型時代(dai)的新風口,是盡(jin)量在(zai)有數(shu)據存儲的地方,都加入計算(suan)(suan)。隨著軟件不(bu)斷發展,基(ji)于存算(suan)(suan)的端(duan)側芯(xin)片今年已經逐步(bu)成(cheng)熟。未來,在(zai)云端(duan)解決(jue)數(shu)據帶寬瓶頸,或將成(cheng)為存算(suan)(suan)芯(xin)片下一(yi)個殺手級應用(yong)。

蘋芯科技楊越:拆解存算一體技術進階,解讀大模型芯片的四個優化方向 | GACS 2024

▲蘋芯科技聯合創始人兼CEO楊越

以下為楊越演講內容的完整整理:

存算一(yi)體技術是解決當下算力焦(jiao)慮和(he)效率(lv)焦(jiao)慮的有效途徑之一(yi)。蘋芯科技是以存算一(yi)體技術為抓手的(de)一(yi)家芯片設計初創公司(si)。今天(tian),我(wo)們的(de)話(hua)題(ti)圍繞著AI芯片展開,演講的(de)主題(ti)是從AI 1.0時代的(de)神經網(wang)絡,走(zou)向AI 2.0時代的(de)大模型,存算一(yi)體技術如何持續(xu)賦能(neng)。

一、存算一體的誕生:數據處理瓶頸從計算端,轉移到存儲端

我們不難發現,產業界(jie)所有主流(liu)芯(xin)片的(de)出現與(yu)成長,都與(yu)當下計算(suan)需求的(de)特點緊密(mi)相(xiang)關。

最初,斯(si)坦(tan)福實驗室于1969年首先提出了存算技術這個概念。后(hou)來,1992年(nian)在多倫多大學,1997年(nian)在伯克利實驗(yan)室,相(xiang)繼嘗試(shi)以邏輯電路的形式拉近存儲與計算的距離(li)。

但在上個世紀的計算(suan)機(ji)體系的整(zheng)個架構中,計算(suan)的瓶(ping)頸位于處理器端,因此大家主要提高了CPU的效(xiao)率(lv)。同時(shi),外加摩爾(er)定律(lv)當(dang)時(shi)仍然有(you)(you)效,從(cong)存算的(de)角度來(lai)說它(ta)的(de)殺手級(ji)應用還沒有(you)(you)出現。

2000年前(qian)后,大數據(ju)對于并行(xing)計算的(de)需求逐步加大,以英偉(wei)達為代表的(de)GPU芯片逐漸成為主流。英偉達(da)的市值現在已(yi)接近3萬億(yi)美元了。GPU這種架構對于高級(ji)制程升級(ji),以及對于通用性(xing)計算(suan)支持(chi)都(dou)是(shi)非常好(hao)的。

大概到了2015年,隨著神經網絡架構的(de)出現(xian),存算技術受到更(geng)多關注。背后的(de)原因(yin)主要有兩方(fang)面。

一方面,計算體系結構的(de)計算瓶頸開始向存儲端遷(qian)移(yi),存儲墻、能效墻的(de)問題逐步浮現。

另一方面(mian),AI本地化要(yao)求芯片具有更高的(de)計算效率要(yao)求。過(guo)往馮·諾伊曼架(jia)構(gou)的數據搬運模式并不能滿(man)足AI芯片(pian)的計算(suan)效(xiao)率,但神經網絡(luo)架(jia)構(gou)突(tu)破了這一點(dian),并且(qie)用存算(suan)技術(shu)可以有(you)效(xiao)支(zhi)撐AI推理中大(da)部(bu)分的陣列式運算(suan),這也給存算(suan)技術(shu)帶(dai)來了寬廣的商業化空間。

我們可以了解下馮·諾伊曼架構與存算一體架構間的區別。將一個計算結構分為計算單元和存儲單元兩部分。絕(jue)大多(duo)數(shu)芯片(pian)能(neng)耗都浪費在數(shu)據搬運上,占比(bi)超85%。如(ru)果我(wo)們把這部分(fen)節省掉,一定程度上,計算(suan)效率能大幅提升(sheng)。

在馮(feng)·諾(nuo)伊曼架構(gou)中,需(xu)要計算時,數(shu)據(ju)先從存(cun)儲(chu)單元(yuan)里面(mian)讀取出來,通過數(shu)據(ju)種線(xian)傳到計算單元(yuan),運(yun)算完成后,結(jie)果會返回到存(cun)儲(chu)單元(yuan)。我(wo)們發(fa)現,計算總線(xian)上數(shu)據(ju)搬運(yun)得(de)非(fei)常頻(pin)繁。

相比(bi)于馮·諾伊(yi)曼架(jia)構,計(ji)(ji)(ji)(ji)算體系(xi)內還有存(cun)(cun)(cun)內計(ji)(ji)(ji)(ji)算架(jia)構、近存(cun)(cun)(cun)計(ji)(ji)(ji)(ji)算架(jia)構等。近存(cun)(cun)(cun)計(ji)(ji)(ji)(ji)算的方(fang)式是不斷縮(suo)短(duan)存(cun)(cun)(cun)儲和計(ji)(ji)(ji)(ji)算單元間的距(ju)離,而存(cun)(cun)(cun)內計(ji)(ji)(ji)(ji)算就是把這(zhe)個距(ju)離縮(suo)短(duan)到極(ji)致。

在存算技術架構(gou)中,計算單元和存儲單元放在了一(yi)起(qi),計算總(zong)線(xian)上數(shu)據搬運頻次降低了,總(zong)量(liang)也減(jian)少了。

不過,當計(ji)算(suan)單(dan)(dan)元(yuan)(yuan)所(suo)需要(yao)(yao)做的(de)事情,簡(jian)化(hua)為只是(shi)給存儲單(dan)(dan)元(yuan)(yuan)發(fa)出開始計(ji)算(suan)的(de)指(zhi)令,這個(ge)架(jia)構也相(xiang)應會有(you)一(yi)些(xie)劣勢(shi)。原因是(shi)并非所(suo)有(you)的(de)計(ji)算(suan)種類都依靠(kao)一(yi)些(xie)簡(jian)單(dan)(dan)的(de)指(zhi)令,便能夠在存儲單(dan)(dan)元(yuan)(yuan)中(zhong)完成。這種架(jia)構需要(yao)(yao)犧牲(sheng)一(yi)部(bu)分通用(yong)性。

我們評價一個架構的時候,主要考慮其通用性、專用性、成本這3個指標。相(xiang)比馮(feng)·諾(nuo)伊曼架構來(lai)說(shuo),近存和存內計算架構不僅專用性更(geng)強,而(er)且成本(ben)更(geng)低(di)。

二、存算一體的意義:動用更少的資源,來高效解決更多的計算任務

大多(duo)數情(qing)況下,不同的(de)存算技(ji)術(shu)路線(xian)指向(xiang)的(de)是(shi)底層(ceng)對于不同存儲(chu)器件的(de)使用,比(bi)如說(shuo)有(you)靜態SRAM,也有(you)ReRAM。每(mei)一種存儲(chu)器都有(you)其工藝特(te)點,甚(shen)至(zhi)還有(you)上(shang)層(ceng)成本特(te)點、性能特(te)點等(deng)等(deng)。

例如,SRAM耐久性比較好,讀寫速度(du)比較快(kuai);ReRAM存(cun)儲密度(du)高,可以支撐大(da)量(liang)模型存(cun)儲。然而,從整個計(ji)算(suan)系統結構來(lai)看,很難說有一(yi)種(zhong)RAM通吃(chi)市場(chang),歷史上(shang)這種(zhong)事情也(ye)從來(lai)沒有發生過。

我們(men)對比(bi)了幾個主流的、基(ji)于CMOS結構的存儲器,比(bi)較的項目(mu)主要是讀寫時延、數據穩定(ding)性、功耗等幾個方(fang)面。

做推理(li)運算(suan)的(de)時候,無論(lun)是算(suan)法工(gong)程師,還是芯(xin)片(pian)工(gong)程師,可能更(geng)關(guan)注(zhu)存儲器(qi)的(de)穩定(ding)性,以及(ji)讀寫的(de)速(su)度。

而(er)在(zai)訓練(lian)場景中,大家可能更(geng)關注存儲(chu)器的(de)耐(nai)久性(xing),以及讀和(he)寫的(de)對稱性(xing)。因(yin)此,不同的(de)應用場景對于底(di)層存儲(chu)器的(de)需求和(he)選擇也會有所(suo)差(cha)別。

與現(xian)有的存儲器(qi)相(xiang)比(bi),SRAM產業化基礎、產品化基礎比(bi)較好。過(guo)去幾十年,SRAM和(he)DRAM在計(ji)算(suan)體系結構中從(cong)未缺席。

硬件(jian)各有所長,市場各取(qu)所需,那么存算技術的(de)意(yi)義(yi)是什(shen)么?

存算(suan)(suan)(suan)技術突破了馮·諾伊曼架(jia)構處(chu)理(li)器的(de)計算(suan)(suan)(suan)效(xiao)率天花板,而選擇存算(suan)(suan)(suan)架(jia)構的(de)處(chu)理(li)器能(neng)用更小的(de)能(neng)耗(hao)完成更大(da)的(de)計算(suan)(suan)(suan)任(ren)務。

我們最終交付給客戶的芯片,通常(chang)有多(duo)種形態(tai)。NPU主要可(ke)以(yi)(yi)提升神經網絡的效率,可(ke)能涵蓋(gai)矩陣加速(su)、非(fei)線性加速(su)等。基于NPU還可(ke)以(yi)(yi)打(da)造端(duan)(duan)側(ce)SoC,比如MCU+AI、車載SoC等。云端(duan)(duan)也(ye)相繼出現服務(wu)器(qi)板卡、加速(su)版(ban)卡等。

一(yi)般來說,對精度要求比(bi)較(jiao)(jiao)低(di)的隨機運算(suan)(suan),對精度要求比(bi)較(jiao)(jiao)高的科(ke)學運算(suan)(suan),精度要求介于兩者之間的信號(hao)處理、深度學習加速等,都(dou)可以借助存算(suan)(suan)技術為其賦能。

隨著模(mo)型規(gui)模(mo)不斷突破上限(xian),無論是神經網絡(luo)模(mo)型、Transformer大模(mo)型,還是大家最關心(xin)的生成式模(mo)型,其存儲要求越來越高,帶寬越來越大。其中,生成式模(mo)型已經出(chu)現幾百億,甚至(zhi)更(geng)大的參(can)數量(liang)需求。

AIoT領(ling)域(yu)(yu)十分(fen)看重智能(neng)化升級和功耗(hao)能(neng)耗(hao),存算(suan)技(ji)(ji)術的(de)(de)高能(neng)效比可以發揮出較大(da)(da)優勢。因此,存算(suan)技(ji)(ji)術可以為大(da)(da)模型、AI芯片賦能(neng),其落地場景(jing)也大(da)(da)多集中(zhong)在AIoT領(ling)域(yu)(yu)。這也給(gei)存算(suan)技(ji)(ji)術創造了一個進軍AI生態的(de)(de)切入口(kou)。

三、蘋芯科技部署SRAM存算一體端側模型

我們回顧一下產業界近期的動態。今年(nian),存(cun)算技(ji)術的(de)應(ying)用(yong),首先實現(xian)端側的(de)產(chan)業化落地(di)。

蘋芯(xin)科技正在(zai)推進SRAM存(cun)算(suan)一體端側模型部署。

首(shou)先向(xiang)大家介紹蘋芯(xin)科技的一(yi)款NPU,它是一(yi)個集成在(zai)SoC芯(xin)片里(li)面的IP,用(yong)于執(zhi)行神經網(wang)絡(luo)的加速任務。

如果您的(de)(de)產品里(li)面有簡(jian)單的(de)(de)語言(yan)控制(zhi)類、圖像識別類的(de)(de)任務,這款NPU能(neng)幫你(ni)大幅節省整個芯片(pian)集成的(de)(de)時間(jian),從(cong)而讓你(ni)的(de)(de)產品可以比競爭對手更早推出市場。

性能(neng)上(shang),我(wo)們現在可(ke)(ke)以交付28nm和22nm的(de)NPU,整個靜態功(gong)耗(hao)可(ke)(ke)以做到1mw以內,工作功(gong)耗(hao)可(ke)(ke)以做到幾毫瓦以內,并且它的(de)面積僅有(you)幾個平方(fang)毫米(mi)。它可(ke)(ke)以滿足端側小型化、智能(neng)化設備開發商對一款NPU芯片的(de)所有(you)想(xiang)象。

功能上,這款NPU可以支(zhi)持目(mu)前(qian)市面上所有經(jing)典神(shen)經(jing)網絡(luo)的加速(su),比(bi)如圖(tu)像識別、物體(ti)監控、智能超市、運動分(fen)析(xi)、健康數據分(fen)析(xi)、圖(tu)像分(fen)割等。

我們還(huan)可(ke)以(yi)允許用戶(hu)對這款(kuan)NPU二次開發(fa)。我們所(suo)有(you)的(de)(de)編(bian)程接口都是(shi)以(yi)算(suan)子為節點,現階段(duan)支持12大類、超過100種的(de)(de)基礎神經網絡(luo)算(suan)子結構(gou),極大豐富(fu)了用戶(hu)二次開發(fa)的(de)(de)工具箱。這些算(suan)法結構(gou)里,不僅有(you)存(cun)算(suan)技術擅長的(de)(de)線(xian)性運算(suan),還(huan)覆蓋了非線(xian)性運算(suan)。

其(qi)次,基(ji)于這(zhe)款自研的N300,蘋芯科技推出(chu)了SoC芯片(pian),名為“S300”,主打多模態和環境感知的功能。

S300內的(de)神經網絡加速部(bu)分采用(yong)了28nm的(de)N300。這款(kuan)(kuan)芯(xin)(xin)片可以對接(jie)攝像頭、麥克風、陀螺儀,從而實現用(yong)一款(kuan)(kuan)芯(xin)(xin)片覆(fu)蓋更寬泛的(de)應(ying)用(yong)領域。

S300的核心(xin)能(neng)效(xiao)比超過20TOPS/w,可以實(shi)現(xian)離線交(jiao)互,不依賴于(yu)wifi、5G,也(ye)能(neng)語音識別、圖像識別等。像無人機、智(zhi)能(neng)家居、智(zhi)能(neng)玩具(ju)、智(zhi)能(neng)座艙,都將是這款芯(xin)片的應(ying)用(yong)場景(jing)。

最后(hou),我們的目標市場比(bi)較清晰,主要是(shi)可穿戴市場和(he)AIoT市場。

我們發現,目標市場未來的產品有一些共性。一方面是輕量化、便攜(xie)化的趨勢,要考慮到無法插電源工作的情況。另一方面,都有從非AI類轉向AI類的產品升級需求。其中,技術層面會存在矛盾,即系統內部算力不斷上升,但供電量不斷下降,這亟需高能效比的技術來支(zhi)撐AI類產品(pin)。

基于對市場體量的預測,到2025年,可穿戴類產品已經有超1000億元的市場規模。這類產品將趨于小型化、輕量化、便攜化,因此內置的芯片會特別小,一(yi)般(ban)在(zai)10平方毫米左(zuo)右。除此(ci)之外(wai),端側(ce)的本(ben)地算法(fa)會(hui)不斷(duan)升級,本(ben)地電池也會(hui)不斷(duan)變小(xiao)。

面向AIoT行業,我們看到全球到2030年有超過10萬億級別的需求。目前(qian),AIoT場景內的產品,特點是碎片化,這需(xu)要較強的軟件(jian)層面(mian)來支持其泛(fan)化能力。

四、大模型時代要升級用戶體驗,存算技術才是核心驅動力

回(hui)到(dao)今(jin)天的主題,存(cun)(cun)算技術(shu)已經(jing)在神經(jing)網(wang)絡里(li)實現(xian)較(jiao)為理想的應用落地(di)了,那么(me)在接下來的大模型時代里(li),存(cun)(cun)算技術(shu)又可以做什(shen)么(me)?

我們要去理解大模型行業正在發生著什么。由于大模型的出現,AI的泛化能力逐步增強,大模型的生態格局也被重新塑造。但是不管最后怎么樣變化,大模型行業核心的驅動(dong)力(li),都來(lai)源于用戶(hu)體驗的提(ti)升。

舉個例子,過(guo)去(qu)大(da)家獲取、檢索信息(xi)以搜索引擎為(wei)主,現(xian)在方式更加靈活(huo)、更加實時,還(huan)能(neng)通過(guo)對話的(de)形式獲取信息(xi),甚至更加智(zhi)能(neng)化、多模態化,這也催(cui)生(sheng)了不同的(de)應用形態。

此外,從智(zhi)能決(jue)策、個性(xing)化、交互、集成調(diao)度(du)、執(zhi)行準確這5個方面,用戶都對新的交互方式(shi)提出了不同的要求。

同(tong)時(shi),用戶有多大的(de)付費意愿、想(xiang)支付多少費用,來換取(qu)基于大模(mo)型的(de)用戶體驗。這(zhe)給底層AI芯片(pian)到產品的(de)構(gou)建,都(dou)提出了不同(tong)的(de)要求。

分析上(shang)述各類需(xu)求后,我們發現大(da)模型行業(ye)里所有公司,都在試圖切入這個(ge)生(sheng)態(tai)。我們經(jing)常(chang)在行業(ye)里面聽到一句話(hua),“AI可以(yi)把現在所有的軟(ruan)件都重(zhong)(zhong)寫一遍,也把所有的硬件都重(zhong)(zhong)新設計一遍”。

這句話可能每個人理解得不一樣,但大方面確實如此。無論是(shi)科技(ji)大廠,還是(shi)創企(qi),都在用顛覆式的創新適(shi)應(ying)大模型行業。

科技大廠通過AI聊天(tian)機器人來完成AI升級。

一些公司則更關注生產力場景(jing),用AI創作內容、提升工作效率。而像一些垂類(lei)場景,部(bu)分公(gong)司選擇通過AI+解決(jue)方案的方式,切入中間(jian)模型層(ceng)。

大模型公司會提供更好的模型使用工具,優化開發者生態,來構建底(di)層MaaS這樣一個云端的應用新業態。

專注于端側的公司也在不斷切入端側的(de)應(ying)用。蘋(pin)芯(xin)科技(ji)也是其中(zhong)一家。我們把(ba)模型不斷(duan)做小,參數量從700億到(dao)70億,甚至到(dao)10億,最終把(ba)模型嵌(qian)入到(dao)家居(ju)類、機(ji)器人類、智能(neng)對(dui)話類的(de)應用(yong)中(zhong)。

蘋芯(xin)(xin)科技對于(yu)自己(ji)的(de)(de)(de)定位也非常清(qing)晰(xi),我們(men)(men)只(zhi)把(ba)自己(ji)看(kan)作(zuo)是一個算力基礎設施的(de)(de)(de)提供者。我們(men)(men)關注(zhu)云側和端側的(de)(de)(de)算力構建,同時也關注(zhu)AI推(tui)理類的(de)(de)(de)芯(xin)(xin)片。背后的(de)(de)(de)主要(yao)原因是,推(tui)理類運算更加符合存算一體(ti)技術的(de)(de)(de)性能特(te)點。

我們的客戶價值主張就是低(di)成(cheng)本(ben),而低(di)成(cheng)本(ben)有(you)兩條路徑,一個是降低(di)芯片(pian)的制造(zao)成(cheng)本(ben),另一個是降低(di)芯片(pian)的使用成(cheng)本(ben)。

制造成本方面,我們不依賴7nm、4nm等高級制程,但仍然可以實現高能效比,這是(shi)解決當(dang)前(qian)算力焦慮和能效焦慮行之有(you)效的路徑(jing)。

使用成本方面(mian),客戶愿意支(zhi)付多(duo)大(da)成本,去(qu)為電(dian)量付費,去(qu)用延長AI硬(ying)件(jian)待機時長,這都是(shi)我們需要(yao)關注的內容。

基(ji)于大模型能力,我們當前有(you)兩個(ge)拓(tuo)展方向(xiang)。

第一個方(fang)向,我(wo)們仍(reng)然相(xiang)信Scaling Law,模型(xing)越(yue)大(da),能力(li)越(yue)強。這(zhe)個宗旨(zhi)的追隨者主要(yao)開發云端產(chan)品,包括訓練和推理,這(zhe)也是目前主流加速器還是GPU形(xing)態的原(yuan)因之(zhi)一。

在Scaling Law路(lu)線上大家更關(guan)注存儲(chu)容量、通信帶寬、互聯能(neng)力和構建成本。云端服務器產品、加(jia)速網卡等(deng),在產品設計層面的定義基本圍繞這四(si)個維(wei)度。

第二個方向,與第一個方向從模型角度來看是相反的。大家選擇把(ba)模型越做越小(xiao),在(zai)知識圍欄領域內,把(ba)模型內置到(dao)嵌(qian)入式硬件中(zhong)。

在(zai)(zai)路線二當(dang)中,最重要(yao)的(de)是(shi)(shi)產品(pin)定(ding)義的(de)能力。大家的(de)訴(su)求更多(duo)是(shi)(shi)數據(ju)安(an)全、通(tong)信(xin)延遲等,更關(guan)心的(de)是(shi)(shi)芯(xin)片面積、功耗。產品(pin)形態上,大家則將更多(duo)重心放在(zai)(zai)AI手機、AI PC,以及AIoT領域從(cong)神經網絡到大模(mo)型能力的(de)升級(ji)。

五、大模型芯片架構,可以從四大方向著手優化

針對大模型的芯片架構,從宏觀上看,我們有(you)4個優化方向。

以Transformer算法結構為例。第(di)一個是存(cun)儲架構的優化。

大(da)家已形成一個共識,即模型的(de)升(sheng)級會給(gei)存(cun)(cun)儲架(jia)構帶來非常大(da)的(de)壓力,其中包括(kuo)存(cun)(cun)儲模型的(de)權重、參(can)數、中間(jian)數據轉移(yi)等。

我(wo)們提出了(le)一(yi)個(ge)(ge)內存(cun)估算的(de)(de)公式(shi)。如果(guo)單獨跑一(yi)個(ge)(ge)70億模型的(de)(de)訓(xun)練任(ren)(ren)務,大概需要(yao)7張(zhang)24GB的(de)(de)4090芯片才能完成一(yi)個(ge)(ge)任(ren)(ren)務。保守來說,一(yi)個(ge)(ge)推理任(ren)(ren)務的(de)(de)規模大概是上(shang)述訓(xun)練任(ren)(ren)務的(de)(de)1/3到(dao)1/4左(zuo)右。那(nei)么,當(dang)模型參(can)數量增加到(dao)幾百億、幾千億以上(shang),存(cun)儲架(jia)構(gou)的(de)(de)壓力非常大。

第二(er)個是數(shu)據交換(huan)方式的優化(hua)。

存(cun)儲架(jia)構的(de)壓力會波及數據交(jiao)換環節。單個(ge)GPU的(de)存(cun)儲空間有(you)限(xian),芯片整(zheng)體性能的(de)表現也會受限(xian)。

現在主(zhu)流(liu)的(de)解決方(fang)(fang)案,包(bao)括HBM方(fang)(fang)案、GDDR方(fang)(fang)案等。GDDR側重(zhong)于通(tong)過提(ti)升工作頻率(lv)來增加(jia)帶寬(kuan),HBM側重(zhong)于通(tong)過提(ti)升運行(xing)度來增加(jia)帶寬(kuan)。前者(zhe)性(xing)價比(bi)更高(gao),后者(zhe)則在帶寬(kuan)計算(suan)能力上有絕(jue)對優勢,不(bu)過HBM的(de)成本也(ye)較為昂貴。

第三個是成本的優化。

如果我們把(ba)H系列(lie),或者市面上(shang)比較主流(liu)的芯片拆開(kai)來分析成本架構,會發現第(di)一影響(xiang)要素是工藝制程的選擇。

第二影響要(yao)素(su)是IP的價(jia)格,是否使用了非常(chang)昂(ang)貴的IP,像(xiang)HBM的IP、高(gao)級封(feng)裝IP、互聯(lian)IP等。我們是不是可(ke)以在犧牲通用性(xing)的前提下(xia),進(jin)一步降低(di)成本?

第四個是通用性和專用性的平衡。

這永(yong)遠是一個矛(mao)盾的(de)(de)主題,現(xian)在(zai)絕(jue)大多數都去談論像CUDA生態兼容這方(fang)面。某種意義上,在(zai)設(she)計模型的(de)(de)時候(hou),CUDA能夠(gou)提供的(de)(de)精度和算(suan)子是開(kai)發的(de)(de)基礎,并(bing)且對(dui)底層性能的(de)(de)調優時,也要有一定的(de)(de)容錯(cuo)性。

對于專用的芯片,我們關注到(dao)美國那邊新(xin)提出的一(yi)個概念,用軟件(jian)定義硬件(jian),從(cong)而能夠(gou)減輕或者甩掉數據搬運的包(bao)袱(fu)。這也是一(yi)種很主流的芯片設計趨勢。

六、存算技術滲透計算機體系“金字塔”的各個環節

從(cong)微觀上(shang)看,存算(suan)技術可以做些什么?

存(cun)(cun)算(suan)技術目(mu)前是一(yi)個比較寬(kuan)泛的(de)(de)概念,有數據存(cun)(cun)儲的(de)(de)地方都可(ke)以加入(ru)存(cun)(cun)算(suan),搭建存(cun)(cun)算(suan)一(yi)體的(de)(de)結構。

在整個計算機體系(xi)當中,存(cun)儲器是一個金(jin)字(zi)塔結構,金(jin)字(zi)塔的各個層級出現(xian)了(le)一些非常有趣的創新做法。

以(yi)最近中科(ke)院計算(suan)(suan)所(suo)一(yi)個非常(chang)有意思(si)的項目為例,他們打造了(le)一(yi)個所(suo)謂(wei)的SMART SSD,這是最外層的存(cun)(cun)算(suan)(suan),在硬盤里(li)面做存(cun)(cun)算(suan)(suan)。硬(ying)盤(pan)(pan)其實是一個TB級(ji)別的(de)存儲空間,在硬(ying)盤(pan)(pan)上存儲的(de)數據更多(duo)是非結構化(hua)的(de)數據。在硬(ying)盤(pan)(pan)主(zhu)控芯(xin)片上集成一些(xie)NPU顆粒,存儲控制(zhi)顆粒,這對(dui)數據早期的(de)清洗以及結構化(hua)提供了很大(da)的(de)幫助。

再(zai)往金字塔下層走,就來到了(le)內存(cun)條。

最(zui)近三星(xing)和(he)UIUC有一個(ge)基于CXL層面的優化,是(shi)充分利用(yong)LPDDR5X打造了一個(ge)智慧(hui)內存條。

具(ju)體來說,這個智(zhi)慧內(nei)存條(tiao)基于DFX結構,修改并(bing)加(jia)入了智(zhi)能化(hua)能力(li)。原本它只具(ju)備GEMV加(jia)速的能力(li),但是(shi)(shi)現在加(jia)入了支持通用型矩陣的計(ji)算能力(li),如(ru)果沒記錯是(shi)(shi)64×32,浮點(dian)FP16,從而提升效(xiao)率。

相比(bi)于傳統(tong)的GDDR、DDR5內存技術,它容(rong)量(liang)(liang)上擴(kuo)大(da)了(le)16倍,在吞吐量(liang)(liang)、能效(xiao)比(bi)上也獲得了(le)明顯(xian)的優化。

再(zai)往下走一(yi)層,就來到我們熟悉的(de)(de)HBM。目前主流(liu)的(de)(de)HBM2、HBM2e已經達到非常強大的(de)(de)效果,擁有(you)大幾百(bai)GB的(de)(de)帶(dai)寬能力,但成本非常高。

最底層,通過GEMM優化(hua)SM實現帶寬加(jia)(jia)速后,數據傳輸速率(lv)可以(yi)達到幾十TB每秒(miao)。同(tong)時(shi),還可以(yi)把算子級的能力(li),像矩(ju)陣的加(jia)(jia)成(cheng)、Embedding集成(cheng)放到硬(ying)件(jian)里(li)面去做。

結語:存算技術率先在端側商業化,未來或將上“云”

縱覽時間軸,存算一(yi)體技術(shu)已(yi)經(jing)走過了(le)四個(ge)階段(duan)。從最早(zao)期的院(yuan)校研究(jiu),到現在商業化落地,后續(xu)將集成更大、更強的計算能力(li)。

其中,最重要的一個進階(jie)維度(du)就是(shi)商(shang)業價值(zhi)的進階(jie)。存算一體技術從最開始的實驗室研究價值,到現在能夠真正為那些遇到存儲墻問題的企業解決實際問題。該技術(shu)最先在端側落(luo)地,例如嵌(qian)入智能硬件(jian)、延長(chang)續航(hang)時間、增強本地(di)智能化(hua)能力(li),以及初步萌生(sheng)多(duo)模態能力(li)等。

存算(suan)一體技術(shu)在商業價值上(shang)的進階,與(yu)其他維度上(shang)的進階密不可分。其中包括芯片存儲器的成熟(shu),算(suan)力(li)從零點(dian)幾(ji)TB到(dao)幾(ji)TB,再到(dao)幾(ji)十(shi)TB的升級,底(di)層電路結構(gou)的優化,軟硬件(jian)協同(tong),甚(shen)至還(huan)催生(sheng)了軟件(jian)、編(bian)譯器、工具鏈的成熟(shu)。

未來,存算相關的路線或者說要解決的問題,首先便是異構能力的增強,既包括存儲介質異構,也包括架構上的異構設計。 “通用性、計算性能、成本”這三者本身就是矛盾的鐵三角,存算也許能帶來解決問題的新思路。
其次,存(cun)(cun)(cun)算為不依賴于高級工藝來(lai)提(ti)升算力(li)和(he)計(ji)算效率,提(ti)供了新的思路。3D堆疊(die)以及存(cun)(cun)(cun)內計(ji)算都可以更好地拉進存(cun)(cun)(cun)儲(chu)器與處理器的距離,減少數(shu)據通信的頻次和(he)數(shu)量。存(cun)(cun)(cun)儲(chu)和(he)通信帶寬已是大模型的瓶頸(jing)。

軟件逐(zhu)步成熟后,基于存算一體技(ji)術的(de)端(duan)側芯片今年已(yi)經(jing)開始規模化生(sheng)產(chan)和(he)應用了。未來在(zai)云側,除了可以為小模型加速之外,解決通信帶寬瓶頸也許可以成(cheng)為(wei)存算一體技術(shu)的下一個殺手級應(ying)用,我們期(qi)待未(wei)來兩到三年內能(neng)夠(gou)達(da)成這一目標。