芯東西(公眾號:aichip001)
編輯 | ?GACS

9月(yue)14日(ri)~15日(ri),2023全(quan)球(qiu)AI芯片峰會(hui)(GACS 2023)在深圳南(nan)山圓滿舉行。在首日(ri)開幕式上,原粒半導體聯合創始人(ren)原鋼(gang)分享了題(ti)為《AI Chiplet:加速(su)大(da)模型在邊緣端(duan)多場景落地的(de)新(xin)思路》的(de)主題(ti)演講。

由于(yu)大(da)(da)模(mo)型(xing)蒸餾技術得(de)到了充分發展,超大(da)(da)模(mo)型(xing)可以生成一系列適合(he)邊(bian)端的(de)小模(mo)型(xing),取得(de)接近于(yu)大(da)(da)模(mo)型(xing)的(de)效果。而說(shuo)到大(da)(da)模(mo)型(xing)邊(bian)緣端部(bu)署(shu),一定離(li)不開芯片的(de)支(zhi)持。原鋼談道,面對大(da)(da)模(mo)型(xing),當下的(de)邊(bian)緣端芯片面臨挑(tiao)戰(zhan),涉及模(mo)型(xing)演(yan)進、存儲容(rong)量(liang)、帶(dai)寬、互連(lian)、功耗、方案成本、多變(bian)需求(qiu)、研(yan)發成本、研(yan)發周期等多個方面。

對(dui)此,原(yuan)(yuan)粒半導體(ti)的思路是用AI Chiplet的方法應對(dui),把SoC算(suan)(suan)力(li)(li)跟NPU(神經網(wang)絡處(chu)理(li)器)的AI算(suan)(suan)力(li)(li)解(jie)綁(bang),再靈活組合(he)出邊緣端芯片,以適配(pei)邊緣端大模型的推理(li)要求。目前,原(yuan)(yuan)粒半導體(ti)已研發出多(duo)模態算(suan)(suan)力(li)(li)核(he)心CalCore技(ji)術(shu)(shu),支持企業(ye)將大模型部署在端側;以及(ji)自適應算(suan)(suan)力(li)(li)融合(he)CalFusion技(ji)術(shu)(shu),自動分配(pei)芯粒以捆綁(bang)不同的算(suan)(suan)力(li)(li)。

以下為原鋼的演講實錄

大(da)家下午好(hao),我(wo)叫原鋼,來自原粒半導體(ti)。今天(tian)很感謝主(zhu)辦方邀請我(wo)能來參加(jia)活(huo)動(dong),我(wo)們主(zhu)要是(shi)想(xiang)分享一下大(da)模型在邊緣(yuan)端側的一些想(xiang)法。

我這次(ci)主要報告大(da)概(gai)分(fen)(fen)成三(san)個部(bu)分(fen)(fen):一(yi)是邊緣端(duan)大(da)模(mo)(mo)型(xing)芯片機遇和挑戰,二是如何用(yong)Chiplet推動邊緣端(duan)大(da)模(mo)(mo)型(xing)部(bu)署,最后(hou)是原粒半導體在AI Chiplet方(fang)面所做努力或者想法。

一、大模型奔向邊緣端,AI芯片面臨九大挑戰

第一部(bu)分,邊緣大(da)(da)(da)模(mo)(mo)型(xing)(xing)AI芯(xin)片(pian)機遇和(he)挑戰(zhan)。就在(zai)幾(ji)個月之前,基本(ben)上大(da)(da)(da)家談到大(da)(da)(da)模(mo)(mo)型(xing)(xing)還是大(da)(da)(da)語言模(mo)(mo)型(xing)(xing),無(wu)論(lun)是ChatGPT,還是百度文心(xin)一言,以及阿(a)里、騰訊、科大(da)(da)(da)迅飛的(大(da)(da)(da)模(mo)(mo)型(xing)(xing)),大(da)(da)(da)家都(dou)是在(zai)云(yun)端做大(da)(da)(da)模(mo)(mo)型(xing)(xing)的推理(li)(li)。在(zai)云(yun)端推理(li)(li),并不(bu)適合每一個場(chang)景,有很多場(chang)景需要在(zai)邊端推理(li)(li)。

這里總結了(le)四個(ge)典型問題:

第(di)一(yi)(yi),在云(yun)端推理,當你(ni)用戶(hu)(hu)的(de)(de)數目激增的(de)(de)時候,基本上云(yun)端服(fu)務器的(de)(de)成(cheng)本,無論是部(bu)署(shu)成(cheng)本還是最后的(de)(de)運(yun)營成(cheng)本,總成(cheng)本都會得(de)到(dao)(dao)很(hen)大的(de)(de)提升(sheng)。根據CNBC報道(dao),微軟在Bing里已經集成(cheng)了ChatGPT的(de)(de)引擎,如果想滿足所有(you)Bing客戶(hu)(hu)的(de)(de)請求(qiu),想得(de)到(dao)(dao)一(yi)(yi)個(ge)很(hen)好的(de)(de)響應(ying),大概要部(bu)署(shu)16萬塊A100,投資40億美元,并不是每一(yi)(yi)個(ge)創業(ye)公司(si)都有(you)能力(li)、有(you)足夠的(de)(de)成(cheng)本覆(fu)蓋這部(bu)分的(de)(de)投入。

第二,大模型(xing)(xing)對網絡(luo)要求非常強。有(you)很多場景不(bu)可(ke)能(neng)時(shi)時(shi)刻(ke)刻(ke)有(you)聯網,典型(xing)(xing)就是(shi)(shi)車,因為車在(zai)(zai)城(cheng)市(shi)里開問題(ti)不(bu)大,一旦開到(dao)(dao)郊(jiao)區,開到(dao)(dao)無(wu)人區或者越野,大概率(lv)網絡(luo)會(hui)時(shi)有(you)時(shi)無(wu),甚至(zhi)山(shan)里很可(ke)能(neng)沒有(you)網絡(luo)了。無(wu)論是(shi)(shi)座艙(cang)還(huan)是(shi)(shi)自動駕駛,如果是(shi)(shi)高度(du)依賴云端推理,我想在(zai)(zai)車領域是(shi)(shi)很不(bu)適(shi)合的。

第三(san),云端無論是因為(wei)算力(li)的(de)(de)(de)漲落還是因為(wei)網絡延(yan)遲,總會造成控制網絡的(de)(de)(de)延(yan)遲。比如谷歌演示(shi)的(de)(de)(de)通(tong)過大模型(xing)演示(shi)機械手(shou),如果依賴云端的(de)(de)(de)推理,很可(ke)能(neng)在機械手(shou)操作過程中出現(xian)卡頓,甚至(zhi)出現(xian)更多的(de)(de)(de)錯誤,這對于機械手(shou)來說是絕(jue)對不能(neng)接受(shou)的(de)(de)(de)。

第四,云(yun)端安全問題。有(you)很(hen)多場(chang)景是(shi)非常(chang)明顯的(de)(de)(de),像(xiang)醫院會有(you)很(hen)多病(bing)歷,對(dui)于(yu)(yu)他們(men)來說都是(shi)非常(chang)高的(de)(de)(de)精密數據,他們(men)大概不(bu)會把它(ta)傳到云(yun)端去(qu)做推(tui)理。大模(mo)型很(hen)大的(de)(de)(de)應用是(shi)對(dui)于(yu)(yu)已有(you)文檔(dang)的(de)(de)(de)推(tui)理或者歸納,產生一些(xie)新的(de)(de)(de)報告,比如讓(rang)它(ta)閱讀以(yi)(yi)往的(de)(de)(de)文件、產生綜述或者分析以(yi)(yi)往病(bing)歷、推(tui)理病(bing)的(de)(de)(de)診斷。這(zhe)個情況下(xia)如果把之前積攢的(de)(de)(de)模(mo)型全部放到云(yun)端,這(zhe)對(dui)很(hen)多特殊(shu)場(chang)合肯定(ding)是(shi)不(bu)能接受(shou)的(de)(de)(de)。

最近兩三個(ge)(ge)月來,可以看(kan)到整(zheng)個(ge)(ge)大模型(xing)(xing)在加速地奔向邊緣(yuan)端。因為目前大模型(xing)(xing)蒸餾技(ji)術得到了(le)充(chong)分的發展,使用原來預訓練(lian)超大模型(xing)(xing),通過對應的辦法,生成一系(xi)列適合邊端的小模型(xing)(xing),就能取得接(jie)近于大模型(xing)(xing)的效果。

右邊(bian)列(lie)了比較典(dian)型的例子,類似于Meta已經推出7B、13B、70B,最早是(shi)3B。這(zhe)種模(mo)型,如果進行量化(hua),比如量化(hua)成(cheng)INT4之后,它很適合在(zai)邊(bian)緣端設(she)備上部(bu)署的。

我(wo)們(men)(men)也(ye)看到(dao)(dao)最近兩個月(yue),無論是(shi)高通(tong)還是(shi)蘋果,都已(yi)經嘗試在(zai)他們(men)(men)的(de)手機上部署大模型。左(zuo)邊結(jie)構是(shi)我(wo)自己(ji)iPhone的(de)截圖,它跑的(de)是(shi)7B模型,達到(dao)(dao)了相對比(bi)較好的(de)結(jie)果。當然可能跟云端ChatGPT沒法比(bi),但(dan)是(shi)我(wo)感覺如果對一些(xie)垂直領域(yu)的(de)應用來說,可能不需要回(hui)答一些(xie)哲學問題(ti),只(zhi)是(shi)讓(rang)它回(hui)答簡(jian)單的(de)問題(ti),還是(shi)高度可用的(de)。

原粒半導體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

既然(ran)說到大模型要(yao)到邊緣(yuan)端,一(yi)定會(hui)有芯(xin)(xin)(xin)片。本身在邊緣(yuan)端大模型芯(xin)(xin)(xin)片,現(xian)在多數是SoC。如果你為邊緣(yuan)端推(tui)理部署一(yi)些芯(xin)(xin)(xin)片,我們大概總結了一(yi)些困境或者(zhe)一(yi)些需要(yao)考慮的問(wen)題:

第一,模型演進。整個大模(mo)型(xing)的(de)(de)演進復(fu)(fu)雜度遠超(chao)原來CNN算法復(fu)(fu)雜度,而且算法不(bu)(bu)(bu)斷迭代。包(bao)括Transformer本身(shen),很可能(neng)(neng)不(bu)(bu)(bu)久將來對基礎(chu)的(de)(de)結構也會替換掉。這樣就要求當(dang)我們(men)做芯(xin)(xin)片設(she)計(ji),比如(ru)AI IP的(de)(de)時候,就不(bu)(bu)(bu)能(neng)(neng)說(shuo)針對某一(yi)個模(mo)型(xing)做優化(hua),很可能(neng)(neng)當(dang)你芯(xin)(xin)片出來之后就已經過時了,不(bu)(bu)(bu)能(neng)(neng)支持最新的(de)(de)算法。

第二,存儲容量。大(da)模型的(de)(de)容(rong)量(liang)遠遠超過(guo)之前傳統CNN的(de)(de)模型。最小的(de)(de)大(da)模型,就算是3B,如果不量(liang)化(hua),大(da)概也有3GB容(rong)量(liang),已經(jing)超過(guo)很多經(jing)典SoC能支撐(cheng)的(de)(de)容(rong)量(liang)。

第三,帶寬。如(ru)果拿大模型做語音推理(li),基本上每吐(tu)出(chu)一(yi)(yi)個(ge)(ge)(ge)字/詞(ci)就要把整個(ge)(ge)(ge)模型完(wan)整地Round一(yi)(yi)遍。如(ru)果達(da)到一(yi)(yi)秒鐘(zhong)吐(tu)出(chu)10個(ge)(ge)(ge)詞(ci),如(ru)果用一(yi)(yi)個(ge)(ge)(ge)3GB模型,整個(ge)(ge)(ge)SoC帶寬至少要30GB,才能夠支持這么(me)一(yi)(yi)個(ge)(ge)(ge)推理(li)。

第四,互聯。如果跑很大(da)的(de)(de)模型,很可能(neng)一個(ge)芯(xin)片不(bu)能(neng)完成。就(jiu)像剛才嘉賓講的(de)(de),他們是(shi)用(yong)芯(xin)粒的(de)(de)方式,可能(neng)會用(yong)多個(ge)芯(xin)粒或(huo)者多個(ge)芯(xin)片完成一個(ge)大(da)模型的(de)(de)推(tui)理。對于大(da)模型怎么拆(chai)分(fen),拆(chai)完之后你(ni)認(ren)為(wei)怎么分(fen)配、算力(li)怎么部署(shu),會有很復(fu)雜的(de)(de)考量。

原粒半導體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

第五,功耗。邊緣(yuan)端(duan)最(zui)看重(zhong)功(gong)(gong)(gong)耗(hao)(hao)。因(yin)為在云端(duan),功(gong)(gong)(gong)耗(hao)(hao)就是(shi)(shi)成本問(wen)題,無非(fei)是(shi)(shi)對(dui)各種散熱方法,可以(yi)承受(shou)。英偉達最(zui)新的H100或更高(gao)的卡,可能已(yi)經(jing)到700W功(gong)(gong)(gong)耗(hao)(hao),這對(dui)數據中心(xin)來說不是(shi)(shi)什么大問(wen)題,但是(shi)(shi)作為邊緣(yuan)端(duan),基(ji)本功(gong)(gong)(gong)耗(hao)(hao)超過10W就加(jia)風扇(shan)了。加(jia)風扇(shan),一(yi)是(shi)(shi)有噪音,二是(shi)(shi)風扇(shan)可靠(kao)性會有問(wen)題,所以(yi)邊緣(yuan)端(duan),功(gong)(gong)(gong)耗(hao)(hao)是(shi)(shi)非(fei)常(chang)重(zhong)要(yao)的因(yin)素。

第六,整個方案的成本。比如你要搭(da)配不同的(de)算力,成(cheng)本(ben)是決(jue)定(ding)大(da)模型在邊緣端能(neng)不能(neng)真正大(da)批量鋪開一個非常關鍵的(de)因素。因為很(hen)多(duo)應用,大(da)模型本(ben)身是做一個賦能(neng),如果(guo)成(cheng)本(ben)太高,去做市場推廣(guang)也是很(hen)不利的(de)。

第七,多變需求。大(da)模(mo)(mo)(mo)型的尺(chi)寸可能既(ji)有不(bu)(bu)(bu)到3B,又有超過10B甚至100B,很(hen)可能你需(xu)要在不(bu)(bu)(bu)同(tong)場(chang)景部署不(bu)(bu)(bu)同(tong)的尺(chi)寸大(da)模(mo)(mo)(mo)型。這(zhe)樣就要求你,很(hen)難用統一的標準(zhun)或(huo)者幾個標準(zhun)的規格SoC去覆蓋這(zhe)一系(xi)列模(mo)(mo)(mo)型,因(yin)為(wei)這(zhe)樣對于(yu)成本不(bu)(bu)(bu)是特別劃(hua)算。最好(hao)的是給(gei)每(mei)一個算法或(huo)者每(mei)一個模(mo)(mo)(mo)型尺(chi)寸專門(men)去配一個SoC,這(zhe)對于(yu)研發來說成本是不(bu)(bu)(bu)能接(jie)受的。

最后兩項:一個是研發成本,一個是研發周期。現(xian)在一個(ge)SoC,如果12納(na)米,基本(ben)上(shang)在1000萬到(dao)2000萬美元之間,連IP到(dao)后(hou)(hou)端(duan)可能才能拿下來,周(zhou)期基本(ben)18個(ge)月,連前端(duan)驗證+后(hou)(hou)端(duan)+整個(ge)軟件開發(fa)。如果你(ni)想開發(fa)太多規格的SoC,無(wu)論是(shi)周(zhou)期還是(shi)成本(ben),都是(shi)很難承受的代價。

二、AI Chiplet :邊緣端大模型部署新選擇

下(xia)面講講我們如何去破解(jie)剛才提到的問題(ti),我們的思(si)路是用(yong)AI Chiplet的方法進行應對。

首(shou)先拿(na)桌(zhuo)面(mian)游(you)戲(xi)(xi)的(de)(de)PC舉例,因(yin)為我(wo)是(shi)(shi)很多(duo)年電(dian)腦游(you)戲(xi)(xi)的(de)(de)玩(wan)家。我(wo)們(men)在(zai)(zai)學校去(qu)配一臺(tai)游(you)戲(xi)(xi)電(dian)腦,CPU沒(mei)什么太多(duo)可選的(de)(de)。現在(zai)(zai)我(wo)們(men)就用(yong)一顆i5 13500或者i7 13700,就能滿足(zu)絕(jue)大(da)部分的(de)(de)要求,主(zhu)(zhu)要成(cheng)本或錢就花在(zai)(zai)顯卡上。玩(wan)一些(xie)網游(you)顯卡需要兩千(qian)(qian),主(zhu)(zhu)流游(you)戲(xi)(xi)可能要三千(qian)(qian)到四千(qian)(qian),骨灰(hui)級游(you)戲(xi)(xi)可能要一萬多(duo),就是(shi)(shi)英(ying)偉達的(de)(de)4090。依此類推(tui),基本上CPU跟主(zhu)(zhu)板(ban)變化(hua)是(shi)(shi)非(fei)常小(xiao)的(de)(de)。主(zhu)(zhu)要對(dui)游(you)戲(xi)(xi)來說,CPU都不(bu)是(shi)(shi)瓶頸,真(zhen)正瓶頸在(zai)(zai)顯卡。

原粒半導體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

我(wo)們(men)拓(tuo)展(zhan)到邊緣端(duan)(duan)是一樣的,現在(zai)很(hen)多邊緣端(duan)(duan)應用,SoC或者是Arm,它的能(neng)力都足夠(gou)覆蓋大模型處理需求(qiu),真正差別在(zai)于NPU本身。我(wo)們(men)可以參照PC端(duan)(duan)情況,我(wo)們(men)把SoC和NPU也進行解綁。像(xiang)這邊,也是對應左邊三個顯卡,也是列出三種NPU Die的組合(he)。

比(bi)如(ru)我們拿(na)一(yi)個(ge)SoC配(pei)合(he)輕量級NPU,它就(jiu)可以(yi)處(chu)理(li)一(yi)些比(bi)較輕量級的(de)AI任(ren)務(wu)。拿(na)SoC配(pei)一(yi)顆中量級的(de)NPU Die,就(jiu)可以(yi)處(chu)理(li)稍微復雜(za)的(de)工作。把同樣一(yi)個(ge)SoC去配(pei)兩顆NPU Die的(de)組(zu)合(he),就(jiu)可以(yi)處(chu)理(li)非常重(zhong)的(de)任(ren)務(wu)。這是把算力跟NPU解綁的(de)過程,可以(yi)很(hen)靈活各種方(fang)案適配(pei)邊(bian)緣端大模型推理(li)的(de)要求(qiu)。

我(wo)們是(shi)用NPU、用芯(xin)粒來(lai)解決問題(ti)(ti),怎么(me)做(zuo)呢?說(shuo)起來(lai)簡單,其實有很(hen)多問題(ti)(ti)要考慮,尤其是(shi)成(cheng)(cheng)本。由成(cheng)(cheng)本,又引入了互連、存儲、擴展(zhan)三個方面。

首先看互連,因為現(xian)在NPU基(ji)本是基(ji)于(yu)MR總(zong)線或者基(ji)于(yu)其他的(de)總(zong)線,它是很(hen)寬的(de)一個(ge)并(bing)行(xing)接(jie)(jie)口(kou)。如果簡單把它移到(dao)(dao)片外,等于(yu)你要應對(dui)幾千(qian)條很(hen)高速(su)的(de)連接(jie)(jie)才能跟(gen)CPU進行(xing)連接(jie)(jie)。對(dui)于(yu)封裝(zhuang)甚至最高級(ji)的(de)封裝(zhuang)是不(bu)能接(jie)(jie)受的(de),所(suo)以必須(xu)把接(jie)(jie)口(kou)進行(xing)轉(zhuan)換(huan)。但是轉(zhuan)換(huan)就有(you)很(hen)多不(bu)同(tong)的(de)選(xuan)項(xiang)(xiang),包括USB也有(you)很(hen)多不(bu)同(tong)的(de)選(xuan)項(xiang)(xiang)。不(bu)同(tong)的(de)選(xuan)項(xiang)(xiang),決定它有(you)不(bu)同(tong)的(de)成本,包括方案(an),2D封裝(zhuang)還是2.5D封裝(zhuang)?一個(ge)基(ji)板,到(dao)(dao)底是5美(mei)金還是20美(mei)金?這個(ge)會差(cha)得非常大(da)。

當(dang)我們芯粒跟SoC互(hu)連,目(mu)前(qian)的(de)(de)(de)情況主要(yao)(yao)是(shi),市面(mian)上的(de)(de)(de)SoC或者已經做好(hao)的(de)(de)(de)SoC的(de)(de)(de)設計都不(bu)會有專用(yong)的(de)(de)(de)die-to-die結(jie)構(gou),還是(shi)用(yong)通用(yong)的(de)(de)(de)PCIe或者USB接口。如果把(ba)NPU從CPU中剝離,如果用(yong)專用(yong)結(jie)構(gou),整個(ge)設計要(yao)(yao)重來。如果已經有現成的(de)(de)(de)一顆SoC,不(bu)想重來怎么(me)辦呢?就可(ke)以用(yong)USB或者PCIe接口,跟主芯片進行互(hu)連,這樣可(ke)以很(hen)快地得到一個(ge)全新的(de)(de)(de)設計。

然后存儲,這主(zhu)要是(shi)(shi)(shi)說AI Chiplet到(dao)底是(shi)(shi)(shi)自帶(dai)DRAM還是(shi)(shi)(shi)主(zhu)SoC的DRAM?因(yin)為現在多數主(zhu)流SoC本身(shen)DRAM的位(wei)寬不是(shi)(shi)(shi)很寬,最大的也是(shi)(shi)(shi)將將應對大概7B大模型的支持。我(wo)們如(ru)果去(qu)選(xuan)擇用共享來做DRAM,它的好處是(shi)(shi)(shi)成(cheng)本,整(zheng)個(ge)方(fang)案可(ke)能只用同一個(ge)DRAM,但是(shi)(shi)(shi)它會(hui)搶(qiang)主(zhu)SoC帶(dai)寬。尤其同時顯示,顯示要不斷刷屏(ping)。如(ru)果用大模型推理(li),再去(qu)搶(qiang)主(zhu)SoC帶(dai)寬,會(hui)對原來功能形成(cheng)沖(chong)擊。這塊要平(ping)衡(heng)一下,到(dao)底RAM是(shi)(shi)(shi)放在主(zhu)芯片(pian),通過總線共享,還是(shi)(shi)(shi)每個(ge)AI芯粒要自帶(dai)一個(ge)DRAM?

然(ran)后是(shi)(shi)擴展,擴展主(zhu)要指(zhi)的(de)(de)是(shi)(shi)到底是(shi)(shi)從頭(tou)為了(le)把(ba)AI芯粒拆分出(chu)來(lai),重(zhong)新(xin)設計一顆?還是(shi)(shi)盡量借由現(xian)有(you)的(de)(de)SoC設計,只去(qu)迭代(dai)推(tui)出(chu)一個方案(an)(an)?如果是(shi)(shi)AI Chiplet,面臨多芯粒互聯的(de)(de)問題,因為芯粒最(zui)大的(de)(de)好(hao)處是(shi)(shi)堆疊不同(tong)數目的(de)(de)Die、不同(tong)種類的(de)(de)Die,來(lai)實現(xian)迅(xun)速(su)的(de)(de)新(xin)方案(an)(an),所以互聯也是(shi)(shi)它難以避(bi)免的(de)(de)話題。

三、原粒AI Chiplet,助力SoC廠商拓展大模型邊緣端應用

下面(mian)簡單給大家(jia)匯報(bao)一下我(wo)們(men)原粒半導體在AI方面(mian)的進展(zhan),還(huan)有我(wo)們(men)一些想法。

首先給大家介(jie)紹一(yi)下,我們公(gong)(gong)司成立也不太久,我們所有核(he)心(xin)成員都是來自(zi)于(yu)國(guo)內(nei)、國(guo)外頂級的芯(xin)片公(gong)(gong)司。整個團隊在AI方(fang)面的經驗有很多年的時間,一(yi)直專注于(yu)AI芯(xin)粒本(ben)(ben)身。我們公(gong)(gong)司的目標是專注于(yu)AI芯(xin)粒本(ben)(ben)身,配合其他成熟或者現有的廠商,提供做(zuo)大模型(xing)算力的支持(chi)。

我(wo)(wo)(wo)們(men)主要(yao)(yao)提供下面(mian)四類(lei)(lei)產品:第(di)一(yi),標準AI Chiplet產品,翻譯過(guo)來就是(shi)(shi)(shi)(shi)買Die。第(di)二(er),我(wo)(wo)(wo)們(men)會把AI Chiplet做封(feng)(feng)裝,提供給客(ke)(ke)戶(hu)(hu)。因(yin)為有(you)(you)些客(ke)(ke)戶(hu)(hu)是(shi)(shi)(shi)(shi)沒有(you)(you)封(feng)(feng)裝設備能力(li),可(ke)(ke)能它(ta)有(you)(you)一(yi)個(ge)芯(xin)片但是(shi)(shi)(shi)(shi)不希望進行(xing)(xing)合封(feng)(feng),因(yin)為種種原(yuan)因(yin)可(ke)(ke)能不太適合合封(feng)(feng),我(wo)(wo)(wo)們(men)可(ke)(ke)以(yi)把我(wo)(wo)(wo)們(men)的(de)(de)Die封(feng)(feng)成芯(xin)片,在PC板上跟它(ta)進行(xing)(xing)連接(jie)。第(di)三,我(wo)(wo)(wo)們(men)會做一(yi)些定(ding)制(zhi)化AI Chiplet封(feng)(feng)裝,主要(yao)(yao)是(shi)(shi)(shi)(shi)兩方面(mian),一(yi)是(shi)(shi)(shi)(shi)AI Chiplet規格,比如客(ke)(ke)戶(hu)(hu)需(xu)要(yao)(yao)多少算力(li)、需(xu)要(yao)(yao)什么樣的(de)(de)接(jie)口,我(wo)(wo)(wo)們(men)可(ke)(ke)以(yi)定(ding)制(zhi);二(er)是(shi)(shi)(shi)(shi)可(ke)(ke)以(yi)通過(guo)客(ke)(ke)戶(hu)(hu)所需(xu)要(yao)(yao)的(de)(de)算力(li),去搭配不同數目的(de)(de)AI Die,給客(ke)(ke)戶(hu)(hu)提供類(lei)(lei)似的(de)(de)選擇。最后,AI應用開(kai)(kai)發軟(ruan)件(jian)棧,畢(bi)竟(jing)也是(shi)(shi)(shi)(shi)我(wo)(wo)(wo)們(men)一(yi)個(ge)異(yi)構的(de)(de)AI處(chu)理器,肯定(ding)是(shi)(shi)(shi)(shi)需(xu)要(yao)(yao)有(you)(you)一(yi)些配套的(de)(de)軟(ruan)件(jian)開(kai)(kai)發棧完成客(ke)(ke)戶(hu)(hu)的(de)(de)設計。

這(zhe)邊主要介紹我們公司兩個核(he)心技(ji)術,一(yi)個是重(zhong)中之重(zhong),多模(mo)(mo)態算(suan)力(li)核(he)心。無論是對于(yu)(yu)傳統CNN算(suan)法,還是對于(yu)(yu)目前大模(mo)(mo)型、未(wei)來多模(mo)(mo)態算(suan)法,都能(neng)提供很好的(de)支(zhi)持。它(ta)為了支(zhi)持未(wei)來的(de)這(zhe)些算(suan)法,盡量提高兼容(rong)性(xing),做了從INT4、INT8、FP8等(deng)全精度的(de)支(zhi)持,便(bian)于(yu)(yu)客戶把它(ta)在顯卡(ka)上所(suo)訓(xun)練好的(de)模(mo)(mo)型直(zhi)接部署到我們芯(xin)片中。

原粒半導體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

第二個是(shi)跟AI Chiplet結(jie)合很緊的(de)(de)(de)(de)(de)自(zi)(zi)(zi)適應(ying)算力融合技(ji)術,這也是(shi)跟芯粒概念息息相關、緊密捆綁的(de)(de)(de)(de)(de),必(bi)須(xu)得做一個不同(tong)拓(tuo)撲(pu)結(jie)構的(de)(de)(de)(de)(de)支(zhi)持。我(wo)(wo)可(ke)能(neng)會根據不同(tong)算法要求或者不同(tong)應(ying)用場景,去(qu)捆綁不同(tong)的(de)(de)(de)(de)(de)算力。同(tong)時,不同(tong)芯粒之間可(ke)能(neng)也會用不同(tong)的(de)(de)(de)(de)(de)拓(tuo)撲(pu)方式。如果你讓(rang)客戶根據拓(tuo)撲(pu)結(jie)構編程(cheng)、定制,我(wo)(wo)想體驗會非常差。我(wo)(wo)們這邊(bian)所有(you)的(de)(de)(de)(de)(de)軟(ruan)件和硬件是(shi)支(zhi)持拓(tuo)撲(pu)自(zi)(zi)(zi)適應(ying)的(de)(de)(de)(de)(de)連(lian)接,無論芯粒配(pei)了多少(shao)顆,用什(shen)么樣的(de)(de)(de)(de)(de)拓(tuo)撲(pu),會自(zi)(zi)(zi)動把(ba)它(ta)進(jin)行分配(pei),包括協調芯粒之間的(de)(de)(de)(de)(de)連(lian)接。

當我們有4個(ge)芯(xin)粒(li)組(zu)成(cheng)的(de)系統,怎么動態分配(pei)它的(de)連接還有算(suan)力?左邊是(shi)基(ji)于Tranformer大(da)模(mo)(mo)型的(de)一段(duan),比如這個(ge)模(mo)(mo)型非常大(da),無(wu)論它的(de)容量(liang)還是(shi)算(suan)力都不(bu)足以被(bei)一顆算(suan)力所支撐,我們會把它拆成(cheng)兩(liang)段(duan),把它放在兩(liang)個(ge)芯(xin)粒(li),甚至拆成(cheng)更多的(de)段(duan)。當然(ran),這個(ge)工作(zuo)都是(shi)由編譯器、運行(xing)時自(zi)動完成(cheng)的(de)。

原粒半導體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

如果(guo)是(shi)(shi)右邊(bian)的(de)(de)案例,這是(shi)(shi)稍(shao)微比較(jiao)經典的(de)(de)CV視覺任(ren)(ren)務(wu)。當我們一(yi)個芯(xin)粒能(neng)處理超過(guo)一(yi)個模(mo)型的(de)(de)時候,會(hui)把我們輸(shu)出數據最合理地分(fen)(fen)配到不同(tong)的(de)(de)芯(xin)粒之間,實現一(yi)個更高的(de)(de)效果(guo)。我們支(zhi)持通過(guo)分(fen)(fen)景模(mo)型、分(fen)(fen)景任(ren)(ren)務(wu),自動分(fen)(fen)配。無論是(shi)(shi)對于模(mo)型切分(fen)(fen),還是(shi)(shi)對于任(ren)(ren)務(wu)進行切分(fen)(fen),都是(shi)(shi)能(neng)完(wan)成的(de)(de)。

另外強調一(yi)點(dian),目前看到的(de)一(yi)些(xie)新的(de)應用(yong)或(huo)者新的(de)場(chang)景,是(shi)對于本(ben)(ben)地(di)大模型(xing)微調的(de)需求。以后大模型(xing)更多是(shi)垂直(zhi)領(ling)域,無論是(shi)律所還是(shi)醫院,甚至更加小眾的(de),他們大概的(de)模式是(shi)去下載(zai)預訓練大模型(xing),結(jie)合(he)本(ben)(ben)地(di)一(yi)些(xie)數據(ju),然后做微調,去匹(pi)配,在本(ben)(ben)地(di)進行更符合(he)本(ben)(ben)地(di)業務(wu)的(de)推理,這也是(shi)未(wei)來大模型(xing)非常典型(xing)的(de)應用(yong)。

傳統(tong)的(de)方法(fa)怎(zen)么做(zuo)的(de)?我(wo)拿大(da)模型,在云端(duan)或者(zhe)(zhe)在大(da)服務器上,針對本(ben)地的(de)數據(ju)進行微調。因(yin)為芯粒支持(chi)(chi)多(duo)精(jing)度計(ji)算,我(wo)們是(shi)支持(chi)(chi)在邊緣端(duan)針對本(ben)地采集的(de)數據(ju)進行微調。我(wo)們把(ba)大(da)模型微調的(de)位置從服務器或者(zhe)(zhe)從客戶(hu)中心(xin)轉移到邊緣端(duan)設備,這未(wei)來一定會創造很多(duo)新(xin)的(de)應用場景。

基本上每家做(zuo)(zuo)芯(xin)片都(dou)會(hui)(hui)有(you),配(pei)(pei)合AI Chiplet一(yi)(yi)定會(hui)(hui)有(you)一(yi)(yi)套軟件。這跟(gen)別家不一(yi)(yi)樣,對多(duo)(duo)芯(xin)粒(li)之間拓撲的(de)(de)(de)支(zhi)持。無論(lun)你(ni)的(de)(de)(de)算(suan)力(li)(li)是(shi)(shi)多(duo)(duo)少(shao)、你(ni)的(de)(de)(de)配(pei)(pei)置(zhi)(zhi)多(duo)(duo)少(shao),一(yi)(yi)定會(hui)(hui)有(you)一(yi)(yi)個配(pei)(pei)置(zhi)(zhi),如(ru)果(guo)你(ni)要求(qiu)客(ke)戶自己根據(ju)硬件連接做(zuo)(zuo)特殊編(bian)程(cheng),一(yi)(yi)定會(hui)(hui)有(you)非常差(cha)的(de)(de)(de)體驗。我(wo)們從供應鏈、運行時的(de)(de)(de)角度,能夠(gou)根據(ju)你(ni)的(de)(de)(de)配(pei)(pei)置(zhi)(zhi)、算(suan)力(li)(li)、任(ren)務需求(qiu)自動分配(pei)(pei),完全是(shi)(shi)透明的(de)(de)(de),用戶看到的(de)(de)(de)就是(shi)(shi)算(suan)力(li)(li)大了(le)很(hen)多(duo)(duo)。比如(ru)我(wo)們用了(le)4個芯(xin)粒(li),用戶看到就是(shi)(shi)算(suan)力(li)(li)×4統一(yi)(yi)的(de)(de)(de)接口,不會(hui)(hui)按照4個NPU的(de)(de)(de)方法去編(bian)程(cheng)。

原粒半導體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

為了加(jia)快產(chan)(chan)品(pin)落地,也是為了盡(jin)量(liang)重用市場現有SoC廠商的產(chan)(chan)品(pin),我們為一些成熟(shu)SoC產(chan)(chan)品(pin)做優化。主(zhu)要是這幾塊:

第一(yi),我們是會用(yong)標準的接口(kou)搭(da)配現在已經(jing)成熟(shu)的SoC,無論是市(shi)場上買(mai)到的還是未來的發布(bu),大多(duo)數可能具(ju)備PCIe或者USB接口(kou)。

第二(er),芯(xin)粒互連,我(wo)們采用的(de)(de)是多(duo)(duo)模態(tai)(tai)die-to-die接口(kou)。多(duo)(duo)模態(tai)(tai)指的(de)(de)是既支持在(zai)(zai)同一個(ge)封(feng)裝上進行多(duo)(duo)模態(tai)(tai)集成,也支持多(duo)(duo)個(ge)芯(xin)片在(zai)(zai)PCB上進行互連。這樣的(de)(de)好處(chu)是,用戶可以通(tong)過(guo)最(zui)大的(de)(de)靈(ling)活(huo)性滿(man)足要(yao)(yao)求。因為我(wo)們重做(zuo)一個(ge)封(feng)裝至少要(yao)(yao)6個(ge)月時(shi)間(jian),從(cong)設計到打樣、量產(chan)(chan),畢(bi)竟還(huan)要(yao)(yao)去調(diao)測程(cheng)序(xu),還(huan)要(yao)(yao)做(zuo)很(hen)多(duo)(duo)事情(qing)。但是重做(zuo)一個(ge)PCB,最(zui)快一個(ge)月時(shi)間(jian)可以完成一個(ge)生產(chan)(chan)。為了能(neng)夠滿(man)足盡量多(duo)(duo)樣化配置和規格需求,也盡量縮短研發時(shi)間(jian),我(wo)們采用了既支持多(duo)(duo)Die在(zai)(zai)統一封(feng)裝形式(shi),也支持PCB級擴展的(de)(de)模式(shi)。

我(wo)們放了很多異構核心(xin),主要考量我(wo)們想盡(jin)量降低(di)對主芯(xin)片(pian)算力的(de)需求,采(cai)用最低(di)端的(de)CPU也可以(yi)通過配(pei)合AI芯(xin)粒完成大模型的(de)推理。

我們(men)也(ye)會支持一(yi)(yi)些可(ke)選非(fei)易(yi)失(shi)性存儲器(qi)接(jie)口,主要是(shi)考慮當配合一(yi)(yi)些很低端(duan)CPU的(de)時候(hou),可(ke)能不具(ju)備高速的(de)Flash接(jie)口。我們(men)會在(zai)芯粒內部(bu)會支持這么一(yi)(yi)個加載,其實(shi)也(ye)是(shi)變相減輕了對主CPU的(de)需求。我們(men)還是(shi)采用2D封裝,盡量(liang)滿足成本(ben)需求,沒有(you)采用2.5D封裝。

給大家匯報一下我們目(mu)前的產品規劃。

這是(shi)我們第一代產(chan)品(pin)規劃,單芯(xin)粒數(shu)+TOPS INT8等效(xiao)算(suan)力,支持(chi)多芯(xin)粒擴展數(shu)十至(zhi)數(shu)百TOPS INT8等效(xiao)算(suan)力;支持(chi)FP32/FP16/BF16/FP8/INT8/INT4等AI精度;我們是(shi)支持(chi)高效(xiao)訓推一體(ti)架構,支持(chi)通(tong)用算(suan)子(zi)及自定義(yi)算(suan)子(zi)。

原粒半導體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

在(zai)互(hu)連方(fang)(fang)面,我們支持die-to-die方(fang)(fang)式(shi),也支持通過(guo)PCIe和USB等方(fang)(fang)式(shi)互(hu)連。支持不(bu)(bu)同(tong)位寬(kuan)不(bu)(bu)同(tong)數目的(de)位置,滿足不(bu)(bu)同(tong)場景的(de)需(xu)求。這是我們推出的(de)標準(zhun)封裝片產品,包括封了1個Die、2個Die,還有(you)4個Die的(de)。

我(wo)們列了一(yi)些現(xian)在主(zhu)流上能買到的SoC規格,至少是(shi)A53、A55起。我(wo)們認為這些SoC跑(pao)大模型(xing)(xing)足夠強(qiang),它們有(you)足夠數目的視頻接(jie)口(kou),也有(you)足夠規格的硬件接(jie)口(kou),是(shi)跑(pao)編程大模型(xing)(xing)一(yi)個很(hen)完(wan)美的CPU配置。只(zhi)要(yao)去搭配原粒現(xian)有(you)的AI Chiplet,很(hen)快(kuai)可以(yi)實現(xian)邊緣端大模型(xing)(xing)推理方案(an)。

原粒半導體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

最后給大(da)家(jia)講(jiang)一下我們的愿景,我們的愿景是(shi)聚焦高(gao)性價比、多(duo)模(mo)態通(tong)用AI Chiplet研(yan)發(fa)。我們目(mu)標(biao)是(shi)配合現有(you)SoC廠商,一起合作供應(ying)推出大(da)模(mo)型邊緣端方案。我們的遠景是(shi)做(zuo)一個最全面AI算力基礎設施供應(ying)商。我的報告到這里,謝(xie)謝(xie)大(da)家(jia)聆聽。

以上是原鋼演講內容的完整整理。