智東西(公眾號:zhidxcom)
編輯?| ?GTIC

智東西4月6日報道,在剛剛落幕的GTIC 2023中國AIGC創新峰會上,墨芯人工智能創始人兼CEO王維進行(xing)了主題為《AIGC時代,算力如何“進化”》的演講。

AIGC與(yu)通用人(ren)工智(zhi)能要發展(zhan)(zhan),作為(wei)基(ji)礎設施(shi)的(de)算(suan)(suan)力(li)必須(xu)先行(xing)。隨著大模型(xing)參數(shu)日(ri)益攀升,算(suan)(suan)力(li)需(xu)求(qiu)激增(zeng),算(suan)(suan)力(li)供需(xu)缺口巨大、費用昂貴等(deng)難題(ti),已成(cheng)為(wei)AIGC發展(zhan)(zhan)亟需(xu)解(jie)決的(de)首(shou)要問題(ti)。

王維說:單純靠硬件難以滿足指數級的算力增長需求,必須通過軟硬融合。在這個方向上,稀疏計算是公認的最有潛力發展和落地的方向。相比稠密計算,稀疏計算可以達到1-2個數量(liang)級(ji)的性(xing)能(neng)提升(sheng)。

通過在176B開源大模型BLOOM上的實測,墨芯S30計算卡在僅采用中低倍稀疏率的情況下,就可以達到25tokens/每秒的生成速度,并以4S30超過8A100的生(sheng)成速(su)度(du),大幅(fu)加(jia)速(su)推理速(su)度(du)。

同(tong)時(shi),墨芯預計在5月中旬開放大模型(xing)的開發套件,可以在1700億(yi)參數模型(xing)中實現(xian)每秒(miao)40-50tokens的推理效果,去助力各個AIGC的應用(yong)場景發展。

他認為:大模型的快速發展,給AI芯片初創公司帶來了向巨頭玩家發起挑戰的機會,擁有了全新的展示舞臺,用顛覆式創新帶來數量級性能突破。

以下為王維的演講實錄:

大(da)家上午好(hao)!我(wo)今天講的(de)是算(suan)力和模型的(de)發展,以及(ji)算(suan)力進化的(de)問題。

講算(suan)力的(de)話,我們就要先了解一(yi)下今天(tian)的(de)算(suan)力是(shi)從哪里來(lai)的(de)?過去算(suan)力是(shi)處(chu)在什(shen)么情況和(he)狀態下?未來(lai),我們的(de)算(suan)力走向(xiang)何方去支持生成式(shi)AI巨大爆炸式(shi)的(de)應用?

我(wo)們希望能量化地(di)看待(dai)從供(gong)給側(ce)和需求側(ce)之間(jian)有(you)多大(da)的GAP,然后再看現在我(wo)們手上(shang)有(you)什(shen)么樣的手段、什(shen)么樣的技術、什(shen)么樣的可以(yi)融(rong)合創新的方(fang)向去尋找新的算力。

一、人類數字文明建立在半導體集成電路之上

算力從哪里來?人類(lei)過去(qu)接近一個(ge)世紀的(de)數字(zi)文明都是(shi)建立在硅基半導體制(zhi)造的(de)芯片之上。

我簡單帶(dai)大家回顧(gu)一(yi)下算(suan)力(li)發展歷(li)史過程。歷(li)史上最重要(yao)的一(yi)個(ge)人是肖克利博士,他(ta)是麻省(sheng)理工固體物(wu)理學(xue)博士,加入了貝(bei)爾(er)實驗(yan)室(shi)。1947年,他(ta)在貝(bei)爾(er)實驗(yan)室(shi)發明了人類第一(yi)個(ge)晶(jing)體管。1955年他(ta)回到(dao)家鄉Santa Clara(圣克拉(la)拉(la))。這也有(you)很多(duo)巧合因(yin)素,為什么Santa Clara變成(cheng)了現在的硅谷(gu)?為什么偉大的科學(xue)家或者商(shang)業家會從那(nei)個(ge)地方開始啟蒙?

肖克利博士(shi)在圣(sheng)克拉拉建立了(le)第一家(jia)半導(dao)體(ti)公司。源于他(ta)在學術界的威(wei)望,這(zhe)家(jia)公司吸引(yin)了(le)一大批能人志士(shi)加入。但(dan)因為(wei)他(ta)是(shi)科學家(jia),所以在管理層面(mian)上出現了(le)一些問題。

1957年,硅(gui)谷出現了“硅(gui)谷八叛徒”,這個稱(cheng)號是肖克(ke)利博士對他們(men)的(de)(de)稱(cheng)號。原(yuan)因(yin)在于這八個人(ren)由(you)于不滿肖克(ke)利的(de)(de)管理方式而從這家公司“出逃”,創(chuang)建了著(zhu)名的(de)(de)仙(xian)童(tong)半導體。

我認為仙(xian)童(tong)半導(dao)體是集(ji)(ji)成(cheng)電(dian)(dian)路(lu)(lu)發(fa)展史上(shang)開拓性或具有宗師級意義的企業,1961年仙(xian)童(tong)半導(dao)體推出(chu)第一塊集(ji)(ji)成(cheng)電(dian)(dian)路(lu)(lu),把晶體管集(ji)(ji)成(cheng)在硅基(ji)的集(ji)(ji)成(cheng)電(dian)(dian)路(lu)(lu)上(shang),就是集(ji)(ji)成(cheng)二極(ji)管、三極(ji)管、電(dian)(dian)阻(zu)、電(dian)(dian)容,才(cai)有了集(ji)(ji)成(cheng)電(dian)(dian)路(lu)(lu)的發(fa)展。

50年代到60年代間,整個半導體行業發展非常迅速,那么為什么又出來英特爾這些公司?原因在于,當時仙童半導體公司的投資人菲爾(er)柴爾(er)德家(jia)族占有(you)了其絕大(da)部分(fen)股份,把公(gong)司(si)產品(pin)的利潤和(he)所有(you)的資金挪到東岸其它產業方面(mian)。而在(zai)半導(dao)體(ti)產業里很有(you)理想的工(gong)程師、科學家(jia)們對此(ci)十分(fen)不滿意,1968年八叛徒中(zhong)的戈(ge)登·摩爾(er)和(he)羅伯特·諾伊斯離開了仙童半導(dao)體(ti),成(cheng)立了今(jin)天大(da)家(jia)熟知的英特爾(er)。

還有一(yi)點大家可能不太(tai)熟悉的(de)是,1969年杰里·桑德斯從仙童(tong)半導體(ti)出走,成立了今天的(de)AMD公司,ADM的(de)發展歷(li)史也很傳奇。

后面大家(jia)都知道了,我(wo)們的計算(suan)(suan)、算(suan)(suan)力都是(shi)遵(zun)循著摩爾定律在(zai)CPU的基(ji)礎上發展。

當時,摩(mo)爾提出(chu)摩(mo)爾定律的(de)(de)背景是,1965年,摩(mo)爾給《電子學》期刊做35周(zhou)年觀察家(jia)評論報告(gao)時,他發現過去這(zhe)幾年集(ji)成電路的(de)(de)發展基(ji)本(ben)每兩年出(chu)一(yi)(yi)代新產(chan)(chan)品(pin)(pin),并且每代新產(chan)(chan)品(pin)(pin)晶體(ti)管(guan)的(de)(de)數量翻了一(yi)(yi)番(fan),他就在(zai)這(zhe)個圖上畫(hua)出(chu)了著名的(de)(de)摩(mo)爾定律,就是今天所知的(de)(de)每18-24個月,晶體(ti)管(guan)的(de)(de)數量翻一(yi)(yi)番(fan),或(huo)者從(cong)經濟學的(de)(de)角度(du)說,每過兩年,每1美元可以買到的(de)(de)算力翻一(yi)(yi)番(fan),成本(ben)降低一(yi)(yi)倍。

從1971年第一塊4位(wei)CPU英特爾4004,1972年8位(wei)CPU 8008,再到今天熟知的大半(ban)個世紀的發展,都遵循著(zhu)摩爾定律。

墨芯人工智能王維:稀疏計算成大模型落地最優解,墨芯引領AI 2.0算力進化丨GTIC 2023

和我們的(de)生活和應用場景(jing)相(xiang)關的(de)這幾十年,在(zai)最早的(de)Wintel聯(lian)盟(meng)時代,英(ying)特爾提供芯片,Windows做操作系統。當(dang)時有一句(ju)話說,英(ying)特爾每兩(liang)年提供算力double一下,比爾蓋茨把它給用掉。再后來到(dao)移動互聯(lian)網時代,邊緣端手機(ji)側和云端的(de)云計算等算力都在(zai)不斷(duan)演進。

我(wo)創立(li)墨芯之前,曾有(you)幸(xing)參與英特爾(er)2012年(nian)22nm第五(wu)代酷睿處(chu)理器,一直到2019年(nian)做(zuo)到英特爾(er)第十代10nm CPU。英特爾(er)每(mei)一代CPU里(li)面我(wo)很(hen)驕傲地設計(ji)了這些(xie)芯片里(li)面的核心高(gao)速鏈路架構設計(ji)和電路設計(ji)。

對(dui)于我(wo)個人來說很有成(cheng)就感,每(mei)每(mei)想(xiang)到全(quan)球每(mei)個角落(luo)、每(mei)個用戶敲(qiao)一(yi)(yi)個鍵盤(pan)、動(dong)一(yi)(yi)下鼠標,每(mei)一(yi)(yi)個字節0和1都通(tong)過我(wo)做過的(de)電路實現,這是我(wo)人生事(shi)業(ye)一(yi)(yi)個非常大的(de)成(cheng)就。

二、AI 1.0向2.0進化,硬件層面找不到滿足算力解法

剛(gang)剛(gang)回顧了一下算力(li)發展(zhan)的歷程,我們仍(reng)然還是沿(yan)著(zhu)摩(mo)爾定律發展(zhan),在物(wu)理(li)層面上我們擺脫不了摩(mo)爾定律。從需求側(ce)我們看一下發生了什么(me)樣(yang)的根本性變化。

這張圖大家(jia)非(fei)常(chang)熟悉,這就(jiu)是(shi)(shi)過去(qu)十年AI的發展歷程。我(wo)相(xiang)信(xin)AlexNet是(shi)(shi)第一個深(shen)度學習非(fei)常(chang)有代(dai)表性的且開拓(tuo)了深(shen)度學習的紀元(yuan),今天以(yi)GPT-3.5生成式AI作為(wei)一個爆點,可(ke)以(yi)看到AI從(cong)1.0轉向2.0,之(zhi)所以(yi)會(hui)引起(qi)社會(hui)這么大的關注(zhu)和影(ying)響力(li),更多的是(shi)(shi)因為(wei),從(cong)1.0到2.0,小模(mo)型或者(zhe)之(zhi)前的模(mo)型從(cong)分(fen)析式變為(wei)今天的生成式。

生成式給(gei)大(da)(da)家打開了應(ying)用(yong)的(de)想象(xiang)空(kong)間和(he)大(da)(da)門(men),商業(ye)化不再被擔心,唯(wei)一(yi)擔心的(de)是我如(ru)何(he)能夠趕(gan)上這個(ge)潮(chao)流,以(yi)及多快能夠趕(gan)上的(de)問(wen)題,這也(ye)是為什么今(jin)天(tian)會成為一(yi)個(ge)爆(bao)炸性的(de)時刻。

從算法角度來看,我們把1.0時代(dai)(dai)(dai)歸納為小模型時代(dai)(dai)(dai),2.0時代(dai)(dai)(dai)就是(shi)以Transformer為基(ji)礎的(de)大模型時代(dai)(dai)(dai)。正(zheng)是(shi)因為1.0到2.0的(de)變(bian)革,才(cai)導(dao)致對算力提出(chu)了根本性的(de)挑(tiao)戰和變(bian)革。

小模(mo)型(xing)時代,有AlexNet、ResNet、CNN模(mo)型(xing)、RNN模(mo)型(xing),這(zhe)些(xie)小模(mo)型(xing)的特(te)點是,在(zai)每個細分場景(jing)會用(yong)場景(jing)數據去(qu)訓練小模(mo)型(xing),并且研發和(he)部(bu)署的周期很短(duan),是以周和(he)月為單位去(qu)部(bu)署,對算(suan)力的要求更多是通(tong)用(yong)性和(he)易用(yong)性,在(zai)這(zhe)個基礎上其實對成本、功耗(hao)的要求在(zai)大部(bu)分應用(yong)場景(jing)下(xia)不是痛(tong)點,是癢點而已。

原因在于,英偉達(da)GPU平(ping)(ping)臺可以做(zuo)矢(shi)量(liang)和張量(liang)并行計(ji)算,它(ta)很早做(zuo)了(le)CUDA工具包,對科學計(ji)算到底層并行架構在軟件鏈(lian)路(lu)的(de)積(ji)累,使得(de)這一平(ping)(ping)臺很好用且通用。所以在小(xiao)模型(xing)時代,大家會更多(duo)選用GPGPU。

但(dan)是回(hui)到大模(mo)型(xing)時代,對(dui)算力(li)(li)的(de)需求完全不一樣。模(mo)型(xing)結(jie)構不再(zai)多樣化,我們通過Transformer做大模(mo)型(xing)預(yu)訓練,所有的(de)模(mo)型(xing)結(jie)構統一化,對(dui)算力(li)(li)的(de)需求更多在(zai)于(yu)擴展性。從GPT-1到GPT-3、GPT-4,Transformer模(mo)型(xing)需要“暴力(li)(li)出奇(qi)跡”。

ChatGPT應該(gai)是在(zai)訓練方(fang)面找(zhao)到了更聰明的方(fang)法,使得(de)它(ta)在(zai)生(sheng)成(cheng)式(shi)上產生(sheng)突破。但從(cong)模(mo)型角度(du)來說,仍然是暴(bao)力出(chu)奇跡。其實所(suo)(suo)有的深(shen)度(du)學習都是特征提取(qu)器,當你學的東西(xi)越多,你就需要更大的空(kong)間(jian)矩陣(zhen)、張量空(kong)間(jian)承載信(xin)息,所(suo)(suo)以它(ta)的模(mo)型是暴(bao)力增長。

預(yu)訓(xun)練(lian)正是(shi)因為需(xu)要它先把所有(you)東(dong)西學(xue)一遍,再到細分(fen)場(chang)(chang)景(jing)上(shang)精調,因此算(suan)力(li)需(xu)求不僅僅看(kan)中通(tong)用性、易(yi)用性,更(geng)(geng)(geng)看(kan)重(zhong)的(de)是(shi)算(suan)力(li)能(neng)不能(neng)跟上(shang)模(mo)型(xing)的(de)增長速度、跟上(shang)算(suan)力(li)需(xu)求速度,使得我可以更(geng)(geng)(geng)大(da)規模(mo)拓展模(mo)型(xing),用更(geng)(geng)(geng)先進、更(geng)(geng)(geng)聰明的(de)方法訓(xun)練(lian)出更(geng)(geng)(geng)厲(li)害的(de)預(yu)訓(xun)練(lian)模(mo)型(xing)或者場(chang)(chang)景(jing)應用等。

總(zong)的計算算力增(zeng)長和在應(ying)用(yong)層(ceng)面上(shang)的推理速度(du)就變成了絕對的痛點(dian)。而又因為(wei)生(sheng)成式(shi)AI基本上(shang)都是(shi)(shi)在線應(ying)用(yong),所(suo)以系統的反應(ying)速度(du)一(yi)(yi)定是(shi)(shi)痛點(dian)。訓(xun)練層(ceng)面上(shang),需要很多GPU,訓(xun)練很長時間,那么高算力也一(yi)(yi)定是(shi)(shi)痛點(dian)。

這種情況下,通用性(xing)問題就可以被容忍。因為底(di)層(ceng)都是(shi)Transformer架構(gou)的注意力(li)機制,在模(mo)型(xing)的算子層(ceng)面慢慢固化,這個就是(shi)我們算力(li)的需求在發生變化。

那(nei)么,提供算力的人怎么去滿足它?我們可以看到Transformer模型參數每(mei)(mei)兩(liang)(liang)年增長(chang)275倍,對算力的需求是(shi)每(mei)(mei)3.5個月翻(fan)一(yi)番。而(er)摩爾定律是(shi)每(mei)(mei)兩(liang)(liang)年翻(fan)一(yi)番,參數是(shi)275倍和2倍的增長(chang)速(su)度,這中(zhong)間是(shi)兩(liang)(liang)個數量級的GAP。

墨芯人工智能王維:稀疏計算成大模型落地最優解,墨芯引領AI 2.0算力進化丨GTIC 2023

所以,僅從硬件層面上,我們找不到(dao)完(wan)美的答(da)案。

現在(zai)(zai)解(jie)決這個痛(tong)點的(de)手段包括做存(cun)內計(ji)(ji)算(suan)、光子(zi)計(ji)(ji)算(suan)、量子(zi)計(ji)(ji)算(suan)等。存(cun)內計(ji)(ji)算(suan)的(de)局限性在(zai)(zai)于它(ta)很(hen)難做浮點高(gao)精(jing)度計(ji)(ji)算(suan),不支持先進(jin)制(zhi)程,使(shi)得其應用距離解(jie)決目(mu)前的(de)問題還有(you)(you)很(hen)大(da)(da)差距。光子(zi)、量子(zi)計(ji)(ji)算(suan)的(de)生態(tai)體系和現有(you)(you)的(de)軟硬件生態(tai)也(ye)有(you)(you)很(hen)大(da)(da)距離。我承認,它(ta)們在(zai)(zai)實驗室里(li)有(you)(you)很(hen)大(da)(da)發展前景(jing),但未來(lai)五到十年(nian)內仍需要依靠硅基半導體。

三、在算法里找“聰明辦法”,稀疏計算最具潛力

軟(ruan)(ruan)硬(ying)(ying)融合就是在算(suan)法(fa)方面尋找更聰(cong)明(ming)算(suan)力的一(yi)大方法(fa),軟(ruan)(ruan)硬(ying)(ying)融合的稀(xi)疏(shu)計算(suan)就是整個業(ye)界(jie)、學(xue)術(shu)界(jie)公認的最有發展潛力,并(bing)且可以落地的方向。

借用模型的增長(chang)曲線(xian),圖中橘黃(huang)色(se)的線(xian)是整個產業界、學術界發(fa)表的稀疏計算研究論文(wen)數(shu)量。

墨芯人工智能王維:稀疏計算成大模型落地最優解,墨芯引領AI 2.0算力進化丨GTIC 2023

大(da)(da)家(jia)可以(yi)發現在(zai)小模(mo)(mo)型時代(dai)GPU很好用(yong),并(bing)行化(hua)加速、成本、速度都可以(yi)被企業接受。因此,這一時期(qi)對于稀(xi)疏(shu)(shu)計算(suan)(suan)(suan)的研究更(geng)多(duo)是在(zai)算(suan)(suan)(suan)法層,而(er)突然到了大(da)(da)模(mo)(mo)型指數級增(zeng)長(chang)時代(dai),大(da)(da)家(jia)發現,大(da)(da)規(gui)模(mo)(mo)矩陣張量運算(suan)(suan)(suan)中(zhong)有很多(duo)稀(xi)疏(shu)(shu)特(te)性,不能再暴力把(ba)零元素(su)(su)、噪音(yin)元素(su)(su)都進行計算(suan)(suan)(suan),我們需要做更(geng)聰明(ming)地(di)計算(suan)(suan)(suan),只計算(suan)(suan)(suan)真正(zheng)有用(yong)的計算(suan)(suan)(suan),這也(ye)正(zheng)是稀(xi)疏(shu)(shu)計算(suan)(suan)(suan)的本質。

最近在學術(shu)界以(yi)及產業界的(de)(de)(de)(de)頭(tou)部(bu)公司,比如最近混合專(zhuan)家模型MoE架構就(jiu)是用了(le)稀疏計算思路(lu),不(bu)需要每次(ci)都(dou)激活所有(you)的(de)(de)(de)(de)專(zhuan)家子模型,只會在通過某些通道(dao)的(de)(de)(de)(de)時候激活有(you)必(bi)要的(de)(de)(de)(de)專(zhuan)家子模塊(kuai),這(zhe)樣的(de)(de)(de)(de)話(hua),在有(you)限的(de)(de)(de)(de)算力(li)情(qing)況下模型還可以(yi)繼續拓展。這(zhe)是稀疏計算的(de)(de)(de)(de)核(he)心思路(lu)之一(yi)。

最近谷歌(ge)和(he)(he)OpenAI同時發布了一篇論文,該(gai)論文比較了稠密計算(suan)和(he)(he)稀疏計算(suan)的性能和(he)(he)加速,稠密計算(suan)的模型計算(suan)速度能在CPU上(shang)跑到3.61秒。

如(ru)果以(yi)(yi)稠密(mi)計(ji)算作為基準的(de)(de)(de)話,把所有(you)的(de)(de)(de)Transformer大模型每一層,如(ru)FF、QKV和loss全部都用(yong)等效(xiao)稀疏計(ji)算的(de)(de)(de)話,稀疏計(ji)算可(ke)以(yi)(yi)提升(sheng)37倍。也(ye)就是說,真正(zheng)有(you)效(xiao)的(de)(de)(de)計(ji)算通過稀疏計(ji)算可(ke)以(yi)(yi)達到(dao)一到(dao)兩(liang)個數量級的(de)(de)(de)性(xing)能(neng)提升(sheng),這也(ye)向(xiang)我(wo)們展示(shi)了稀疏性(xing)確實存在于模型里面,關鍵的(de)(de)(de)問(wen)題(ti)是你能(neng)不能(neng)找到(dao)它,要用(yong)什么(me)樣的(de)(de)(de)方法(fa)實現它。

2018年(nian),我在(zai)硅谷創立(li)墨芯(xin),2019年(nian)回到(dao)深圳的時候,最開始(shi)我們就看(kan)到(dao)了稀(xi)(xi)疏(shu)性,并且看(kan)到(dao)了它一(yi)個數量級、兩個數量級上的性能增長空間(jian),我們這三四年(nian)來也一(yi)直篤(du)定堅(jian)持做稀(xi)(xi)疏(shu)計(ji)算平臺(tai)。

墨芯人工智能王維:稀疏計算成大模型落地最優解,墨芯引領AI 2.0算力進化丨GTIC 2023

微創新技術(shu)(shu)是大公司(si)做(zuo)的事情,以非常高成本的Chiplet為例,它(ta)是在(zai)硬件層面解決倍數問題(ti),而(er)不是解決數量級(ji)問題(ti)的技術(shu)(shu)。創業公司(si)要做(zuo)的是要看到數量級(ji)增長(chang)的技術(shu)(shu)空(kong)(kong)間,只要你(ni)篤定地去做(zuo),即(ji)使前面難一點,但只有(you)這樣(yang),未來的空(kong)(kong)間才能突破、才沒有(you)上限。

四、以人腦為靈感,稀疏計算已成產學界重點研究方向

對于墨芯來(lai)說,作為業界稀疏(shu)計算(suan)的(de)引領者(zhe),我們(men)做了什么(me)事情?所(suo)謂的(de)稀疏(shu)計算(suan)到底是什么(me)意(yi)思?我們(men)的(de)AI芯片和英(ying)偉達的(de)GPGPU有什么(me)區別?

英偉達基(ji)于(yu)V100的Tensor Core GPU是4×4矩陣(zhen)并行加速單(dan)元,通(tong)過幾(ji)萬個(ge)(ge)、十幾(ji)萬個(ge)(ge)并行單(dan)元去加速矩陣(zhen)運算、張量運算等。

之(zhi)后,英偉達(da)也(ye)同樣(yang)知道模型(xing)有稀(xi)疏性,稀(xi)疏是(shi)(shi)未來。到(dao)了(le)A100的時候(hou),英偉達(da)在原有架構基礎之(zhi)上,在模型(xing)矩(ju)陣(zhen)層做了(le)4拖(tuo)2,也(ye)就是(shi)(shi)說4個(ge)里面有2個(ge)加速,理論上就可以(yi)加速一倍。

對于GPGPU公司(si),稀疏(shu)計算(suan)是它們的“意外收獲”,可以在原(yuan)有性能(neng)上提升一倍,但墨(mo)芯(xin)要做的事是超過它10倍甚至100倍。

墨芯采用的(de)(de)Sparse Tensor Core是(shi)64×64的(de)(de)矩(ju)陣(zhen)(zhen)空(kong)間(jian),2個(ge)Tensor矩(ju)陣(zhen)(zhen)空(kong)間(jian)里均支持高達(da)32倍的(de)(de)稀疏率。2個(ge)矩(ju)陣(zhen)(zhen)空(kong)間(jian)分別代表計算模型層(ceng)(ceng)的(de)(de)矩(ju)陣(zhen)(zhen)空(kong)間(jian)和激(ji)活層(ceng)(ceng)、神經元層(ceng)(ceng)的(de)(de)矩(ju)陣(zhen)(zhen)空(kong)間(jian)。

在模(mo)型層(ceng),并不是(shi)所有(you)的(de)(de)(de)(de)(de)矩(ju)陣(zhen)里(li)(li)都是(shi)有(you)用的(de)(de)(de)(de)(de)元素,當我們(men)把這(zhe)么多有(you)用的(de)(de)(de)(de)(de)信息(xi)提取(qu)出來放到一個(ge)巨(ju)大(da)的(de)(de)(de)(de)(de)矩(ju)陣(zhen)空間(jian)(jian)里(li)(li),它的(de)(de)(de)(de)(de)表現形式(shi)就是(shi)濾波器,濾波器之間(jian)(jian)的(de)(de)(de)(de)(de)距(ju)離就是(shi)表示特(te)征(zheng)之間(jian)(jian)的(de)(de)(de)(de)(de)特(te)性。所以這(zhe)個(ge)巨(ju)大(da)的(de)(de)(de)(de)(de)矩(ju)陣(zhen)空間(jian)(jian)是(shi)稀(xi)(xi)疏的(de)(de)(de)(de)(de),隨著模(mo)型越大(da)、學(xue)的(de)(de)(de)(de)(de)東西(xi)越多、特(te)征(zheng)區別越細粒度時(shi),模(mo)型按指數級(ji)(ji)增長(chang),稀(xi)(xi)疏率也會按指數級(ji)(ji)或者更高的(de)(de)(de)(de)(de)速度增長(chang),這(zhe)就是(shi)模(mo)型稀(xi)(xi)疏。

激活(huo)(huo)稀疏,我(wo)們的(de)大(da)腦(nao)學習、理解都是(shi)激活(huo)(huo)稀疏,人有(you)百億級神經原,大(da)腦(nao)的(de)功耗只有(you)幾十瓦左右,當我(wo)們處理不同(tong)的(de)事情、思考不同(tong)問題時,對眼睛、耳(er)朵反應激活(huo)(huo)的(de)神經原層面不一樣(yang),只有(you)局(ju)部激活(huo)(huo)。包括混合專(zhuan)家模(mo)(mo)式(shi)也是(shi)一樣(yang)的(de),對于不同(tong)模(mo)(mo)態(tai)、不同(tong)專(zhuan)家系統只需要激活(huo)(huo)部分模(mo)(mo)塊。這就是(shi)墨芯底層的(de)張量和(he)支持大(da)規模(mo)(mo)稀疏的(de)矩陣和(he)矩陣并行加速。

五、12nm VS 4nm,墨芯S30性能是英偉達H100 1.2倍

那(nei)么,稀疏計算在效果上到底怎(zen)么樣?

我們(men)研發了三年,2022年初(chu)墨(mo)芯第一顆(ke)高稀疏率的稀疏計算芯片Antoum流片成(cheng)功(gong)回片,而且在(zai)幾(ji)秒鐘之(zhi)內就點亮(liang),不到24小時跑通了ResNet、BERT。

基(ji)于Antoum芯(xin)片,我們(men)制作出了三款AI加(jia)速(su)卡(ka)(ka)S4、S10、S30。因為墨芯(xin)的客戶(hu)是云計算(suan)客戶(hu),不是直接用芯(xin)片,而是需(xu)要用GPU這樣的AI加(jia)速(su)卡(ka)(ka)。

墨芯人工智能王維:稀疏計算成大模型落地最優解,墨芯引領AI 2.0算力進化丨GTIC 2023

國際(ji)上最(zui)權威、影響(xiang)力最(zui)大(da)的(de)AI基(ji)準測試性(xing)能(neng)平臺MLPerf,是由(you)圖靈獎得主大(da)衛·帕特森聯合谷歌、斯坦福、哈佛大(da)學頂尖學術機(ji)構,還有(you)英偉(wei)達、英特爾、微軟(ruan)云、谷歌云等發起成立,這一平臺每年有(you)兩次性(xing)能(neng)的(de)評(ping)比(bi)和提交。

去年8月,墨(mo)芯(xin)帶著第(di)一(yi)款S30在MLPerf 2.1推理性(xing)能(neng)上(shang)與其(qi)他產品上(shang)臺競技,結果是(shi)(shi)基于12nm的S30單卡算力超越英偉(wei)達4nm的H100,ResNet性(xing)能(neng)是(shi)(shi)它的1.2倍。12nm VS 4nm,在工(gong)藝上(shang)墨(mo)芯(xin)落后英偉(wei)達三代,中間還有10nm、7nm,除(chu)此以外(wai),H100采用SXM模式,是(shi)(shi)700瓦(wa)(wa)大芯(xin)片,不是(shi)(shi)PCIe板(ban)卡。墨(mo)芯(xin)的S30不到300瓦(wa)(wa)。也就是(shi)(shi)說墨(mo)芯(xin)的工(gong)藝落后英偉(wei)達三代,功耗接近(jin)其(qi)1/3,但(dan)性(xing)能(neng)可以做到1.2倍。

墨芯人工智能王維:稀疏計算成大模型落地最優解,墨芯引領AI 2.0算力進化丨GTIC 2023

如果(guo)大(da)家說你只是做(zuo)一個CNN模(mo)型(xing),Transformer怎么樣?墨(mo)芯的BERT-Large做(zuo)到(dao)單芯片(pian)超3800 SPS,僅次于英偉達H100,H100大(da)概為(wei)7000、8000 SPS左右。

不(bu)過,墨芯(xin)(xin)仍(reng)然超(chao)過了(le)現在(zai)(zai)經常斷供、缺(que)貨的(de)(de)A100。墨芯(xin)(xin)在(zai)(zai)BERT的(de)(de)性(xing)(xing)能上(shang)是(shi)A100的(de)(de)2倍。在(zai)(zai)BERT上(shang)輸(shu)給H100的(de)(de)原(yuan)因是(shi),H100加(jia)入了(le)新的(de)(de)數(shu)據類(lei)型FP8,但墨芯(xin)(xin)的(de)(de)第一(yi)代芯(xin)(xin)片只支(zhi)持(chi)(chi)FP16。如果我們的(de)(de)下(xia)一(yi)代芯(xin)(xin)片支(zhi)持(chi)(chi)FP8,那(nei)我們的(de)(de)性(xing)(xing)能也(ye)會翻倍,這樣性(xing)(xing)能就和H100差不(bu)多,這些都是(shi)我們看得見(jian)的(de)(de)可(ke)以實現的(de)(de)優化,只不(bu)過是(shi)什么時候可(ke)以實現的(de)(de)時間問題。

六、“稀疏計算方向是對的!”,推理效果超A100

正是(shi)由于(yu)MLPerf的打榜,給行業揭示了一件事情,軟硬件設計(ji)的稀疏(shu)計(ji)算潛力有多(duo)大,三(san)代半導體工藝的差距,性能差距會達到八倍,三(san)個數量級,同時功耗(hao)會是(shi)它的1/3,簡單乘一下那就是(shi)24倍。

如(ru)果我也做4nm、做700瓦的功耗,那(nei)這(zhe)個性能就會(hui)再往上提20倍(bei)。

我們默(mo)默(mo)無聞做(zuo)這一件事做(zuo)了(le)三四年,就是想告訴(su)大(da)家,這個是對的(de)方向。大(da)模型時(shi)代到來,就是我們開(kai)始發揮的(de)時(shi)候。

之前(qian),你的(de)(de)客戶可能會(hui)問,通用性怎(zen)么(me)樣(yang)?算(suan)子支(zhi)持度(du)怎(zen)么(me)樣(yang)?易用性怎(zen)么(me)樣(yang)?當(dang)然,我(wo)們任何一家AI芯(xin)(xin)片公司在(zai)(zai)生態上(shang)都無法和英偉達匹敵,但是今天我(wo)們走上(shang)了(le)快車道。大(da)模型的(de)(de)發展和算(suan)法的(de)(de)發展速(su)度(du),給了(le)今天的(de)(de)AI芯(xin)(xin)片公司一個全新的(de)(de)舞臺和展示機會(hui),使得它們可以(yi)在(zai)(zai)一個更高(gao)的(de)(de)維度(du)上(shang)和過去(qu)的(de)(de)霸主進(jin)行(xing)競爭和挑戰(zhan)。

在大模型領域的(de)(de)實(shi)踐和突破中,我們拿不到(dao)ChatGPT的(de)(de)模型參數,因此我們選用了學術界最知名的(de)(de)BLOOM開源庫,176B的(de)(de)開源大模型。

墨芯人工智能王維:稀疏計算成大模型落地最優解,墨芯引領AI 2.0算力進化丨GTIC 2023

在這樣一個開源模型下,墨芯目前做(zuo)到的推(tui)理效(xiao)果是在中低稀疏倍率下,同樣是176B大模型,用4卡的S30對標英偉達8卡的A100。

生成(cheng)式AI對于時延的要求非常(chang)高,因(yin)為它需要一個(ge)一個(ge)token去算(suan),因(yin)此(ci)對速(su)度的要求是未(wei)來大模型上線(xian)的第一個(ge)痛點,也是最明顯的痛點。

墨(mo)芯(xin)測試時1700億(yi)的(de)參數(shu)模(mo)型,A100每秒可以(yi)產生20左右個(ge)(ge)token。因(yin)為墨(mo)芯(xin)做(zuo)了模(mo)型壓縮(suo),因(yin)此墨(mo)芯(xin)在實驗室使用4卡(ka),不(bu)(bu)需要(yao)用8卡(ka),其可以(yi)做(zuo)到稍微(wei)比A100好一點的(de)性能,也就是每秒鐘25個(ge)(ge)token。不(bu)(bu)過(guo),我們的(de)目(mu)標(biao)是在1700模(mo)型中做(zuo)到每秒50個(ge)(ge)token。大家(jia)作為開發(fa)者的(de)話,可以(yi)知道這個(ge)(ge)性能和速度已經到了極致。

七、5月中旬開放開發套件,堅持“科技向善”

大家很關心的(de)一件事(shi)情就(jiu)是(shi)什么時(shi)候可(ke)以試(shi)?我們預計在5月中旬去(qu)釋(shi)放大模型(xing)的(de)開發(fa)套(tao)件,在1700億參數模型(xing)中做到40-50token/秒(miao),去(qu)助力各個AIGC的(de)應(ying)用場景發(fa)展。

我(wo)們作(zuo)(zuo)為(wei)一(yi)個科技工作(zuo)(zuo)者,看到生成式AI和(he)(he)AGI到來的突(tu)然(ran)性和(he)(he)其(qi)未(wei)來的進化速度(du),不禁讓我(wo)們既(ji)興(xing)奮又驚恐(kong)。

我拿人(ren)的大(da)腦和(he)(he)ChatGPT做(zuo)一個(ge)類比(bi),ChatGPT是(shi)1750億(yi)參(can)數,對(dui)(dui)應人(ren)的大(da)腦是(shi)千億(yi)級的神經原,神經原之間(jian)的連接關(guan)系Synapse是(shi)100萬(wan)億(yi)。如果對(dui)(dui)應深度學習模型,我們需要拿連接關(guan)系和(he)(he)它(ta)的模型參(can)數做(zuo)比(bi)較,1700億(yi)到100萬(wan)億(yi),中(zhong)間(jian)相差三個(ge)數量級,也就是(shi)至少差1000倍。

人(ren)腦(nao)的(de)計算速(su)度大概是硅芯片(pian)計算速(su)度的(de)1/1000,差三個數(shu)量級,人(ren)腦(nao)耗電大概在20瓦左(zuo)右,數(shu)據(ju)中心千(qian)瓦級。我們(men)會遐想,看到AI在知(zhi)識(shi)領(ling)域的(de)進化(hua)速(su)度,人(ren)類能夠超越或者不被(bei)機器取代的(de)領(ling)域已經非常少了。

前兩天(tian)我(wo)看到一(yi)(yi)(yi)個(ge)非常有(you)意思(si)的(de)漫畫,以前我(wo)招一(yi)(yi)(yi)個(ge)人給他配(pei)一(yi)(yi)(yi)臺電腦,今(jin)天(tian)我(wo)招一(yi)(yi)(yi)臺AI電腦給它配(pei)一(yi)(yi)(yi)個(ge)人,這(zhe)個(ge)就是我(wo)們(men)對于未來的(de)擔(dan)憂。

考(kao)慮到算法進化速度,當然(ran)前提是你有多少算力,因(yin)此我們是參與其中的。

如(ru)果今天的(de)(de)(de)AI模型從1700億進(jin)化(hua)到100萬億,和大腦相當(dang)的(de)(de)(de)時(shi)候(hou),它的(de)(de)(de)計(ji)算(suan)速(su)度是我的(de)(de)(de)1000倍,同時(shi)也是稀疏計(ji)算(suan)的(de)(de)(de)時(shi)候(hou),并且當(dang)我們(men)的(de)(de)(de)訓練方(fang)法越來越聰明,我們(men)在知識領域能干的(de)(de)(de)事(shi)還會剩下多少?最恐怖的(de)(de)(de)是,如(ru)果我們(men)新的(de)(de)(de)訓練方(fang)法使得它有了自我的(de)(de)(de)進(jin)化(hua)意識,這(zhe)會讓我們(men)非(fei)常擔憂。

作為AI前沿浪(lang)潮的參與者(zhe),我們都在關心一(yi)件事情(qing),不僅僅是技術,更是AI發展的倫(lun)理、法治和道德層面。

所以,我(wo)在公司成立的(de)時候就想好了(le)這件事情,墨芯的(de)使命(ming)和(he)價值觀(guan)一定是(shi)科技向(xiang)善、照顧弱小、利(li)他(ta)利(li)社會。

你可以想象(xiang),如果未來我(wo)們(men)(men)(men)(men)(men)的社(she)會掌握在一(yi)小(xiao)群極(ji)致聰明(ming)的人(ren)手上,我(wo)們(men)(men)(men)(men)(men)的生(sheng)活被(bei)他們(men)(men)(men)(men)(men)照顧,甚至我(wo)們(men)(men)(men)(men)(men)的下一(yi)代的教育(yu),這也是(shi)我(wo)非常擔心的問(wen)題(ti),以后孩子們(men)(men)(men)(men)(men)要學哪些東西?尤(you)其應試教育(yu)比較多的方面,以后人(ren)要往哪方面發(fa)展?

最后,回到(dao)這個基礎之上,微軟(ruan)說要做負責(ze)任的AI,保證安全性(xing)、可(ke)控性(xing),這也是OpenAI不(bu)(bu)開源大模型的原因之一。谷歌的口號是“我們不(bu)(bu)作(zuo)惡”。

墨(mo)芯的(de)口號是“科技向善”,我(wo)們(men)去賦能(neng)和支持(chi)AI的(de)發(fa)展(zhan),但(dan)是一(yi)定(ding)要(yao)做善事,把(ba)技術應用于(yu)善待人類、照顧人類。有一(yi)段時間我(wo)們(men)自嘲地說,AI芯片就是類似于(yu)這場AI戰爭的(de)“軍(jun)火(huo)商(shang)”,“軍(jun)火(huo)商(shang)”大部分是貶義,這也(ye)迫使我(wo)們(men)去確(que)立我(wo)們(men)的(de)使命和價值觀,也(ye)就是只能(neng)把(ba)“軍(jun)火(huo)”用在做善事上。

墨芯是一家稀(xi)疏(shu)計算公司,我們(men)開(kai)拓和引(yin)領稀(xi)疏(shu)計算,謝謝大(da)家!

以上是王維演講內容的完整整理。