芯東西(公眾號:aichip001)
編輯 |?GACS 2024

2024全球(qiu)AI芯(xin)片(pian)(pian)峰會(GACS 2024)于9月6日~7日在北(bei)京舉(ju)(ju)行(xing)(xing),大會由智(zhi)一科技旗下芯(xin)片(pian)(pian)行(xing)(xing)業媒(mei)體芯(xin)東西和硬科技知識分享社區智(zhi)猩(xing)(xing)猩(xing)(xing)發起(qi)舉(ju)(ju)辦。在主會場AI芯(xin)片(pian)(pian)架構創新專場上,億鑄(zhu)科技創始人、董事長兼(jian)CEO熊大鵬以《AI芯(xin)片(pian)(pian)架構創新開(kai)啟大算力(li)第(di)二增長曲線》為題(ti)發表(biao)演講。

熊大鵬認為,AI芯片架構創新將(jiang)(jiang)開啟大算力第二增長曲線(xian)。如(ru)今摩(mo)爾定律面臨挑戰,以計算單元為中心的(de)已到達天花板(ban),將(jiang)(jiang)來AI芯片一定是(shi)以存儲單元為中心。

他談到如(ru)今算(suan)(suan)力提升面(mian)臨瓶頸(jing),首要破局之(zhi)路就是是解決數據搬運問題,并詳細展開(kai)闡述了存(cun)算(suan)(suan)一(yi)體技術對AI模型算(suan)(suan)力方面(mian)的支持(chi)作用。

在(zai)人工智能(neng)領域,存算(suan)一體技(ji)術正以前(qian)所未有的(de)速度推動(dong)著(zhu)計(ji)算(suan)效(xiao)率與性能(neng)邊界的(de)拓展。該技(ji)術涵蓋了存內計(ji)算(suan)與近存計(ji)算(suan)兩大主(zhu)流路徑,旨在(zai)通過減少數據搬運(yun)、提升計(ji)算(suan)密度與能(neng)效(xiao)比,為(wei)大規模(mo)AI模(mo)型(xing)提供強(qiang)有力(li)(li)的(de)算(suan)力(li)(li)支持。

億鑄科技于(yu)2023年首次提(ti)出存算一(yi)體超異構架(jia)構,并致(zhi)力(li)于(yu)通過基于(yu)新型存儲(chu)介質(zhi),提(ti)供高性價(jia)比,高能效比的AI大(da)算力(li)芯片。

億鑄科技熊大鵬:算力增長面臨挑戰,存算一體技術成破局密鑰丨GACS 2024▲億鑄科技創始人(ren)、董事長(chang)兼CEO熊大鵬

以下為熊大鵬的演講實錄:

一、AI芯片架構迎來第二增長曲線,大模型引領算力需求飆升

今天(tian)我(wo)這邊介(jie)紹一下AI芯片架構第二增(zeng)長曲線。

大模型發展到今天已經從量變發生了質變,量(liang)變指(zhi)的是(shi)大(da)模型(xing)不(bu)斷加大(da)參數(shu)等,能(neng)夠使得模型(xing)的能(neng)力不(bu)斷增強。質變,則(ze)是(shi)說(shuo)當大(da)模型(xing)容量(liang)到了一(yi)定(ding)程度時,人(ren)工(gong)智能(neng)尤(you)其通用智能(neng)在某些(xie)方面超過人(ren)類,甚至(zhi)后續的發(fa)展還(huan)會(hui)(hui)有更(geng)多超過人(ren)類的東西(xi)會(hui)(hui)出現。

同時,隨著基礎模(mo)型越來(lai)越完(wan)善(shan)的情況下,再加(jia)上(shang)大模(mo)型最(zui)后一公里(li)的落地(di),包括(kuo)AI智(zhi)能(neng)體等等,對于AI計算能(neng)力的需(xu)求會(hui)不(bu)斷持(chi)續(xu)快(kuai)速地(di)增長。根(gen)據研究報(bao)告,市(shi)場規模(mo)已(yi)經從2022年(nian)不(bu)到100億增長到今(jin)年(nian)的780億美金。

從英偉達的財報能看得出來,去年其收入差不多700億美金,占了全球90%以上的AI芯片市場。預計到2029年,市場規模會到1510億美金,在這個過程中,我們可以看得到,2026年有可能會出現比較明顯的拐點。

這個拐點是什么?目前,全球更多的算力是花在大模型的訓練上,到2026年,大模型會在各個領域開始落地推動推理(li)算力的進(jin)一步增長。

根據IDC預(yu)計,到2027年用(yong)于推理(li)(li)的AI算力占比可能會達到70%以(yi)(yi)上(shang),未來95%以(yi)(yi)上(shang)都是推理(li)(li)模型一旦(dan)成熟(shu)之后,主要就是落(luo)地應用(yong),落(luo)地應用(yong)主要就是推理。

摩爾定律已經遇到很大的挑戰,2019年OpenAI的研究表明,AI模型的計算量每年增長十倍,遠超摩爾定律一年半到兩年翻一倍。根據今年國信證券的研究報告,大模型的參數量每一年半增加35倍。

二、詳述AI芯片“三堵墻”,硬件架構突破很重要

摩爾定律已經失效,我們一定要尋求新的硬件架構的突破。探索新的架構,成為非常關鍵非常重要的一件事

對于AI芯片來說,一直存在三面墻存儲墻、能耗墻、編譯墻。這些墻根源(yuan)來(lai)源(yuan)于存儲墻,也(ye)就是所(suo)需要參數(shu)的(de)存儲量越來(lai)越大,對參數(shu)的(de)搬運量也(ye)越來(lai)越大。從這里出發,帶來(lai)很多的(de)問(wen)題。

第一,存儲墻會帶來數據的堵塞,需要我們對數據流在動態過程中進行優化,這個也會導致軟件的算子要做非常深度的優化。所(suo)有這(zhe)些都會使得能(neng)耗非常高,不管(guan)是數據搬運導致(zhi)的能(neng)耗,還(huan)是因為(wei)模型非常大(da),對于計算(suan)能(neng)力的需求非常高。

繼而就(jiu)會(hui)帶來能耗墻的問題英(ying)偉達最新的(de)(de)芯片B200,現在已(yi)經推遲推出,其中的(de)(de)原因就是(shi)(shi)封裝散熱的(de)(de)問題。現在一顆芯片號稱(cheng)功耗超過1000多瓦,這是(shi)(shi)一個(ge)很恐(kong)怖(bu)的(de)(de)數字。

第三,就是編譯墻。要對數據流進行深度的優化,這就要求編譯器包括相應的工具能夠做得非常好,能夠提供非常好的優化工具。當然,這個很難做到,至少今天為止,我們做GPGPU公司很多人力物力包括資源都花在對算子、程序各方面的優化。這是為什么英偉達在軟件生態上占據很大的優勢,這也是一個主要的原因之一。

三、盲目堆算力不可取,存算一體技術可為AI模型提供算力支持

問題的根源其實還是來自于阿姆達爾定律。對計(ji)算(suan)架構基本實際有效的算(suan)力(li)取(qu)決(jue)于兩個(ge)因素,一(yi)個(ge)α,一(yi)個(ge)F,α比較(jiao)好(hao)理(li)解,更(geng)好(hao)的工藝,能(neng)夠堆疊更(geng)多的計(ji)算(suan)單元在(zai)上(shang)面(mian)、能(neng)夠有更(geng)高的工作頻率,這個(ge)α值更(geng)高。

英特爾(er)告訴我(wo)們(men),你(ni)買我(wo)更(geng)好的(de)芯(xin)片,我(wo)的(de)芯(xin)片工藝更(geng)好、密(mi)度更(geng)高(gao)、計(ji)算能(neng)力(li)更(geng)強(qiang)。但是(shi)我(wo)們(men)買了它的(de)電腦回去之后發現,其實它真正的(de)計(ji)算能(neng)力(li)并沒(mei)有提(ti)高(gao),或(huo)者(zhe)提(ti)高(gao)不多,為什么?

真正決定計算效率的還有另外一個原因,包括數據的搬運、數據的緩存、數據的整備所花的時間等等,這個時間在整個計算周期里面它占的百分比是F,如果這個值很大的話,你這個α值再高,其實最后它會碰到一個天花板,這個天花板是由F值設定的。

在AI大模型的時代,我們的AI芯片包括英偉達的AI芯片,用于數據搬運,不管能耗也好,還是它占用的整個計算周期百分比也好,都超過80%,甚至90%,就意味著英偉達如果繼續往下走,采取1nm、2nm的工藝,能收獲的性能提升也就是20%左右,基本到天花板。

為什么英偉達現在把更多的精力投放到跟存儲相關的,包括花很多精力去做HBM4.0。盡管這個東西做出來之后,最終賺錢可能是三星、SK海力士,但為了有效提升自己的AI芯片實際效能,這樣一條路必須要走。

將來的AI芯片一定是以存儲為中心,而不是以傳統的計算單元為中心來配存儲器。

這里舉一個(ge)簡單的例子,去(qu)解(jie)答F值怎(zen)(zen)樣估算,怎(zen)(zen)樣影響(xiang)有效算力的。LLaMA2—70B每次完整計算至少有70B或者70G數據的搬(ban)運(yun),并且這個(ge)數據搬(ban)運(yun)如果距離非(fei)(fei)常(chang)遠,所經(jing)過的節點(dian)非(fei)(fei)常(chang)多,搬(ban)運(yun)的時(shi)候(hou)頻率結點(dian)比較多,自然導(dao)致F值非(fei)(fei)常(chang)大,搬(ban)運(yun)70B所花的時(shi)間比較長。

現有的技術帶寬是很大瓶頸。舉一個(ge)例子,英偉(wei)達H100的(de)算(suan)(suan)力大概是2000T,要(yao)把它的(de)算(suan)(suan)力完全用滿,即使(shi)計算(suan)(suan)強度(du)非常(chang)低的(de)情況下,它大概需要(yao)1000T的(de)搬(ban)運量。這意味著即使(shi)現(xian)在用HBM4.0,甚至將來10.0或者(zhe)20.0,我相信帶寬也不夠(gou)。

同樣再(zai)往下走(zou),用現在(zai)HBM3.0的(de)(de)(de)(de)技術的(de)(de)(de)(de)H100,大概(gai)是(shi)(shi)3T的(de)(de)(de)(de)帶(dai)寬,當(dang)然(ran)有(you)另(ling)外一(yi)些種類(lei)可(ke)以到4T、6T,我(wo)們以3T作(zuo)為(wei)例子,它(ta)(ta)的(de)(de)(de)(de)性能天花板(ban)就是(shi)(shi)42token,遠遠低于2000T的(de)(de)(de)(de)算力(li)質量能夠達到的(de)(de)(de)(de)。當(dang)然(ran)它(ta)(ta)可(ke)以加上多用戶批處(chu)理,去把它(ta)(ta)的(de)(de)(de)(de)算力(li)用得(de)更多,但是(shi)(shi)它(ta)(ta)帶(dai)來的(de)(de)(de)(de)問題是(shi)(shi)延時比較長。

芯片本身能夠支持的用戶數量是有限的,不管內部的算子資源,還是并行度等等資源,會給它造成很大的限制。將來的模型會越來越大,我們相信帶寬的瓶頸會更加突出這些問題,F值進一步上升,越上升意味著算力實際利用率越小。

如果只是盲目往上去堆算力,其實意義不大。

四、第一增長曲線已觸頂,解決數據搬運問題成關鍵

以算力單元為中心的時代已經結束了,第二增長曲線一定是以存儲單元為中心。

我們做過分析,第一增長曲線基本已經到了天花板,像今天(tian)英偉達BG200不斷堆(dui)(dui)計算單元(yuan)核,堆(dui)(dui)到(dao)1000多(duo)瓦,很難想象這是什么概念,比重慶火鍋的溫度還(huan)高(gao)很多(duo)。一定要想新(xin)的辦法去解決這個問題。

突破天花板有兩個途徑,從芯片層面,主要就是要解決數據搬運的問題。數(shu)據(ju)(ju)搬運的(de)問題第(di)一點就是,縮短(duan)數(shu)據(ju)(ju)搬運的(de)距離和時間,如果(guo)沒有(you)距離當然是最好的(de),縮短(duan)距離有(you)很多不同的(de)方(fang)式(shi),包括近(jin)存、3D封裝、2.5D封裝等(deng)等(deng)。

另外一類,存內計算,計算和存儲在同一個單元。除了芯片(pian)(pian)(pian)本身之外(wai),我們知(zhi)道大模型一(yi)般(ban)來說用一(yi)顆(ke)芯片(pian)(pian)(pian)裝下去完(wan)成整個任務看(kan)起來不(bu)太(tai)現實,即使推理(li)也需(xu)要多顆(ke)芯片(pian)(pian)(pian)來做(zuo),這(zhe)時候做(zuo)一(yi)件事可能是一(yi)個集群。既然如(ru)此,板件和板件的(de)通信(xin)互聯(lian)、芯片(pian)(pian)(pian)和芯片(pian)(pian)(pian)之間或者芯片(pian)(pian)(pian)內部用Chiplet組成一(yi)個完(wan)整的(de)芯片(pian)(pian)(pian)。

我們認為,芯片之間的互聯是解決這個問題的另外一個重要路徑。包(bao)括類(lei)似(si)英偉(wei)達(da)的NVLink、NVSwitch技術也應該是重點的研究方(fang)向之一。

存算一體有很多不同的技術路徑,有存內計算,有近存計算。

對存內計算來說存儲和計(ji)算(suan)融(rong)為一體,有不(bu)同的方式(shi)做到這一點,尤其模擬計(ji)算(suan)。但模擬計(ji)算(suan)有很多問題,主要是精(jing)(jing)度(du)不(bu)可信。那(nei)些號(hao)稱(cheng)8位精(jing)(jing)度(du)、4位精(jing)(jing)度(du)的,實際達不(bu)到。

數(shu)模轉換會吃掉(diao)很(hen)多的(de)面積和功耗,三四年前,大家(jia)開始往數(shu)字化(hua)的(de)存(cun)算一體方向轉,包括億(yi)鑄也(ye)算是在這個領域(yu)走(zou)得比較靠(kao)前。

通過數字化的方式,有優點,也有犧牲存儲容量的代價。理論上來說,存內計算可以讓F值等于0或者接近于0,是最理想的方式。當然它也有它的問題,最大問題就是它的存儲容量,普遍(bian)來說,不(bu)管使用了哪種存儲(chu)介質(zhi),要么存儲(chu)容量不(bu)夠理(li)想,要么計(ji)算速度各(ge)方(fang)面不(bu)是特別理(li)想,希望(wang)有新(xin)(xin)的(de)(de)更好的(de)(de)下一代的(de)(de)新(xin)(xin)興存儲(chu)能夠出來。

后期的演進,到了全數字化存算一體,細節不解釋,主要的原理就是每個存儲器只存放0跟1,如果是8位精度就是8位存儲器,如果是16位的精度就是16位存儲器,性能可能會犧牲,但是精度是可信的并且消滅掉了數模轉換最大的好處還是減少了或者消滅了數據搬運的瓶頸。

說到近(jin)存(cun)計算(suan),可以(yi)想象一個(ge)存(cun)儲器,不(bu)管(guan)其(qi)類型是(shi)SRAM、FRAM還是(shi)DRAM,我們將(jiang)數據存(cun)放到這(zhe)里。然后(hou),另一側有一個(ge)計算(suan)單(dan)元(yuan),其(qi)中包括可重(zhong)構計算(suan)單(dan)元(yuan)。存(cun)儲器和(he)計算(suan)單(dan)元(yuan)可以(yi)通過2.5D/3D封裝(zhuang)技(ji)術封裝(zhuang)到一起,二者之間距離很短,傳輸寬(kuan)帶就變得很寬(kuan)、速度(du)很快。

另外,如果我們想處理像GPGPU相關的復雜計算任務,或者是邏輯計算等,也可以把這兩個功能的芯片封裝到一起,形成一個比較完整的AI計算芯片。這種計算芯片,在很大程度上突破或者緩解了數據搬運的帶寬和瓶頸的問題。

將各(ge)種計(ji)算(suan)單(dan)元通過2.5D/3D封(feng)裝技術(shu)封(feng)裝到一起,不(bu)(bu)同(tong)計(ji)算(suan)單(dan)元可以(yi)用各(ge)種不(bu)(bu)同(tong)的(de)存(cun)儲(chu)介(jie)質,因(yin)為不(bu)(bu)同(tong)的(de)存(cun)儲(chu)介(jie)質可能有(you)不(bu)(bu)同(tong)的(de)優點,也有(you)不(bu)(bu)足(zu),根據不(bu)(bu)同(tong)的(de)應用場景可以(yi)去(qu)做(zuo)適配。這樣做(zuo)的(de)好(hao)處(chu)是,會使傳輸(shu)帶寬遠遠超(chao)過HBM(高帶寬內存(cun))技術(shu),能效比和性價比接近(jin)存(cun)內計(ji)算(suan)。

存近計算與存內計算兩個相比較,各有優缺點。或許把存內計算跟近存計算有進行非常好的結合,其效果更能夠解決目前現實的問題。