
芯東西(公眾號:aichip001)
編輯 | ?GACS
9月14日(ri)~15日(ri),2023全球AI芯片峰(feng)會(GACS 2023)在(zai)深圳南(nan)山圓滿舉行。在(zai)首日(ri)開幕式(shi)上,億鑄科技(ji)創始人、董事長兼(jian)CEO熊大(da)鵬(peng)分(fen)享了題為《存(cun)算一體超(chao)異構AI大(da)算力芯片破(po)局大(da)模型時(shi)代“芯”挑戰》的主(zhu)題演講。
熊大鵬提出,大模型時代下的“芯”挑戰,比起算力如何增長,更大的問題在于數據搬運能力的剪刀差越來越大。數據顯示,計算能力與數據搬運之間的鴻溝,大概以每年50%的速率擴大。大模型出現后,數據訪存在整個計算周期里的占比,達到了95%以上甚至更高。
億鑄科技認為,隨著AI應用進入到2.0時代,要解決AI計算芯片面臨的諸多挑戰,關鍵在于回(hui)歸阿姆達爾定律并成(cheng)功破除“存儲墻(qiang)”。據悉,億鑄科技原型技術驗證(POC)芯片已回片,并成功點亮。該POC是首顆基于ReRAM的面向數據中心、云計算、自動駕駛等場景的存算一體矩陣POC,能效比超過預期表現(xian),進一步驗(yan)證了公司的技術實力(li)和市場潛力(li)。
以下為熊大鵬的演講實錄:
大(da)(da)(da)家(jia)好!我(wo)去(qu)年也參(can)加了AI芯片(pian)峰會,但今年情況不(bu)一樣,因為今年大(da)(da)(da)模型(xing)的(de)火爆給人(ren)工(gong)智(zhi)能芯片(pian)等各方面都帶來了巨大(da)(da)(da)的(de)變化(hua)。下面我(wo)將介紹億鑄科(ke)技存算(suan)一體超異構AI大(da)(da)(da)算(suan)力芯片(pian)怎么去(qu)應對大(da)(da)(da)模型(xing)時代的(de)“芯”挑戰。
一、數據搬運,大模型時代的“芯”挑戰
大(da)模(mo)型的參數(shu)規(gui)模(mo),像GPT-3目前是1750億,未來可能將會(hui)迎來幾倍(bei)(bei)、幾十倍(bei)(bei)、上百倍(bei)(bei)的增長(chang)。這樣的增長(chang)帶來的好處(chu)是,大(da)模(mo)型的容量、智能等(deng)各方面將會(hui)超過人的大(da)腦。
但與此同時,大模型時代也對我們提出了很多挑戰跟需求。第一,算力如何提升。目前來說,人們針對大模型的芯片制造工藝或是其他各方面投入基本都已經到了極限。第二,大模型對計算能耗的需求非常大。AMD CEO蘇姿豐說過,如果沒有新的技術出現,按照目前的計算效率,12年以后,也就是2035年,每一臺Zetta級別的超級計算機所需要的能耗將會相當于半個核電站。
從算力的角度來說,支撐底層算力的摩爾定律現在幾近終結。但是我們的(de)模型(xing)越(yue)(yue)來越(yue)(yue)大(da)(da),算(suan)(suan)法越(yue)(yue)來越(yue)(yue)復雜,對算(suan)(suan)力的(de)要求也越(yue)(yue)來越(yue)(yue)高,這將是一個很大(da)(da)的(de)挑戰。AI芯片,或(huo)者說大(da)(da)算(suan)(suan)力AI芯片,將來的(de)路該(gai)怎么(me)走?
除了算力以外還有一個更大的問題——數據搬運能力的剪刀差越來越大。
基于摩爾定律,算力每年大概以60%-70%的速率提升。但是對于數據搬運,無論是從外部的存儲器搬運到芯片內部,還是芯片內部的數據總線,其物理線速度的提升基本是每年10%以內。這就導致計算能力與數據搬運之間的鴻溝,大概以每年50%的速率擴大。
在過去十年,單位計算力所需要和所能獲取的數據搬運帶寬,差距擴大了3倍。對大(da)模型(xing)來說,其實問題(ti)的根源就在于,怎么把數據不被(bei)堵塞地(di)從(cong)外部搬到內部。
下圖這個模型,我已經在很多地方講過。這里的F值,指的是數據訪存在整個計算周期里的占比。
在過去存算分離的馮·諾伊曼架構下,做AI芯片或是跟AI芯片相關的應用時,F值就已經達到80%-90%。這意味著大量的能耗是卡在數據搬運訪存上的,造成了性能瓶頸。在大模型的時代背景下,F值更是能達到95%。
這意味著如果數據搬運的速度不提升,即使我們將來用更好的工藝去獲取更高的算力,對實際性能提升的百分比其實非常有限,可能只有10%-20%。這也是為什么到今天,更多的公司開始把注意力集中在解決數據搬運的問題上,比方說大量地采用HBM、 3D RAM封裝技術等等。這些解決方案(an)會帶來更好的片(pian)間互連(lian)(lian)、板間互連(lian)(lian),能夠比較有效地(di)去解決數(shu)據搬運(yun)問題,從而非常有效地(di)提(ti)升實際性能。
二、數據搬運的根本解決方案在于存算一體
這些傳統(tong)的(de)解決方案的(de)確有效。我(wo)們(men)看F值就(jiu)知道,如果把(ba)數據搬(ban)運(yun)效率提升(sheng)1倍,不需要用5納(na)米、3納(na)米、1納(na)米工藝,實際計算性能也能提升(sheng)1倍。
但是要真正解決這個問題,我們認為根本的解決方案是存算一體。存算一體相當于在存儲單元的基礎上,把計算的部分加上去,模型的參數搬運環節基本上就免掉了。
比方說1750億參數的(de)GPT-3模型(xing),每一次推理(li)計算的(de)時候都要(yao)(yao)把(ba)350Gbyte的(de)數據搬到芯片上(shang),才能做一次推理(li)、算一次Token。如(ru)果(guo)是訓練,這個數據量(liang)會更大。但如(ru)果(guo)這個數據不需要(yao)(yao)搬運,就意味著數據搬運的(de)瓶頸(jing)根本(ben)不存(cun)在,計算的(de)效率會高很多。
存算(suan)一體的(de)(de)(de)技術現(xian)在也(ye)慢(man)慢(man)被大廠所接受,比如(ru)AMD已經宣布他們將會以存算(suan)一體作為核心,結合異構的(de)(de)(de)方式(shi),實現(xian)既兼(jian)顧(gu)通用(yong)性,又(you)能夠有非常強的(de)(de)(de)計算(suan)能力的(de)(de)(de)芯(xin)片(pian)。
還例(li)如特斯拉,最近(jin)(jin)宣布其基于近(jin)(jin)存儲(chu)計算(suan)的(de)超級計算(suan)機Dojo1已經(jing)準(zhun)備好(hao)了,業界對此評價非常高。摩根(gen)士(shi)丹利說,光(guang)是芯片就有(you)可能給(gei)特斯拉帶來5000億美元市(shi)值的(de)增量。
三(san)星(xing)也宣(xuan)布(bu)將(jiang)(jiang)基于(yu)DRAM做存(cun)(cun)算(suan)(suan)一體,他們(men)認為在不久(jiu)的(de)將(jiang)(jiang)來,存(cun)(cun)儲器在AI服務器中(zhong)的(de)重要性將(jiang)(jiang)超過英偉達GPU的(de)重要性。三(san)星(xing)預計到(dao)2028年發布(bu)以存(cun)(cun)儲器為中(zhong)心的(de)超級計算(suan)(suan)機。言下(xia)之意就是要做基于(yu)存(cun)(cun)算(suan)(suan)一體的(de)超級計算(suan)(suan)機。
億鑄科技近期成功點亮大模型時代存算一體AI大算力原型技術驗證芯片(POC)。該POC芯片基于成熟工藝制程,在100W以內,單卡算力可以突破P級,也就是1000T。另外,該POC芯片的能效比已經遠超英偉達5納米工藝制程的H100系列4T/W左右的能效比。
面對ChatGPT等大模型帶來的AI算力挑戰,億鑄科技在年初提出“存算一體超異構”,以存算一體(CIM)AI加速計算單元為核心,以統一ISA指令集和架構將不同的計(ji)算(suan)單(dan)元(yuan)進行(xing)異構集成和系統優(you)化,既能實現更大的AI算(suan)力以(yi)及(ji)更高的能效比,還可(ke)以(yi)提(ti)供(gong)更好的可(ke)編程性和更為(wei)通用的應用生(sheng)態(tai)。
通過前面講到的CMOS工藝、新型存儲器、存算一體的架構、Chiplet、先進封裝,我(wo)們能(neng)夠將芯片有效算(suan)力做到更(geng)大,參(can)數能(neng)放(fang)置更(geng)多(duo),支持更(geng)大規(gui)模的(de)(de)(de)模型,能(neng)效比(bi)更(geng)高,軟件的(de)(de)(de)兼(jian)容性(xing)(xing)和可編程性(xing)(xing)更(geng)好。另外很關鍵(jian)的(de)(de)(de)一點,就(jiu)是芯片的(de)(de)(de)發展空(kong)間非常大。目前該(gai)POC芯片采用了傳統(tong)工藝(yi)制程,未來,不管是容量(liang)還是性(xing)(xing)能(neng),比(bi)較保守地說,至(zhi)少擁有幾倍或者十倍以上的(de)(de)(de)成長空(kong)間,這是可以預期(qi)的(de)(de)(de)。
三、AI應用進入2.0時代,存算一體成為AI大模型算力發展“靈丹妙藥”
在強AI的大模型時代,一定范圍內,大模型會替代傳統的小模型。由于大模型突出的泛化性,將會低成本地催生新的AI應用場景,并且在各個垂直領域能夠快速地落地和推廣。另外,我們認為大模型將來有可能會以IAAS(Intelligence As A Service,智能即服務)的產品形式賦能各個行業。
此外,極高的(de)AI研發投入帶來的(de)副作(zuo)用,是“通用智能寡頭”的(de)格局。但出于(yu)大模(mo)型(xing)的(de)泛化(hua)性,在具體的(de)垂直行業、垂直領域反而有(you)利(li)于(yu)通用人工智能落地。將來在各個領域,我(wo)們認為會(hui)出現(xian)“百花齊放”的(de)格局。
總的來說,AI應用已經進入到了新的2.0時代。目前最突出(chu)的(de)問題(ti),就(jiu)是大(da)模(mo)型導致的(de)巨量(liang)數據(ju)搬運問題(ti),這個問題(ti)的(de)根源來自于存(cun)儲墻。
現在性能(neng)(neng)最好的H100芯片(pian),如果用在參數(shu)總(zong)量(liang)為350Gbyte的GPT-3模型上做推(tui)理計(ji)算,數(shu)據(ju)搬運每(mei)秒(miao)只(zhi)能(neng)(neng)搬6次(ci)左右。這就意味著用H100,1秒(miao)大概只(zhi)能(neng)(neng)算6個或10個Token。
但從計(ji)算能(neng)力(li)(li)上來說,這(zhe)樣的(de)數據搬運其實(shi)只占(zhan)用H100計(ji)算能(neng)力(li)(li)中(zhong)很少(shao)的(de)百分比,大部分算力(li)(li)是(shi)空(kong)余的(de)。如果把這(zhe)個存儲墻問題解決,H100的(de)實(shi)際效能(neng)可(ke)能(neng)至少(shao)提(ti)升10倍(bei)以上。
我們認為在大模型時代,AI大算力芯片的競爭核心會逐步轉向破除“存儲墻”。這部(bu)分誰解決得好(hao),誰就會在未(wei)來AI芯片競爭格局里(li)占優(you)勢,Amdahl Law阿姆(mu)達爾定律(lv)早已揭示了(le)這點。
在大模型時代,數據搬運已經占據整個計算周期90%以上。這(zhe)意(yi)味著算力(li)本身對(dui)于(yu)實際(ji)算力(li)來說,重(zhong)要性反而不是那么高(gao),更重(zhong)要的(de)是解決數據的(de)搬運。
由此出發,我們認為存算一體超異構的AI芯片架構,天然地適合AI的并行計算。換句話說,存算一體是為AI大模型而生的計算架構,它的核心就是解決存儲墻,從(cong)而(er)解決能耗跟實(shi)際算(suan)力瓶頸的問題(ti)。今天就(jiu)介紹這些,謝謝大家(jia)!
以上是熊大鵬演講內容的完整整理。