芯東西(公眾號:aichip001)
編輯 |? GACS

9月14日~15日,2023全球AI芯(xin)片(pian)峰(feng)會(GACS 2023)在(zai)深圳南山圓滿舉(ju)行(xing)。在(zai)次日高(gao)效能AI芯(xin)片(pian)芯(xin)片(pian)專(zhuan)場(chang)上,邁特芯(xin)創(chuang)始人兼首席執行(xing)官黃瀚(han)韜,分(fen)享了主題(ti)為(wei)《面向大(da)模型的(de)高(gao)能效并行(xing)存算大(da)算力芯(xin)片(pian)》的(de)主題(ti)演講。

在算法方面(mian),黃瀚韜認為,通過(guo)用(yong)更低的(de)bit來表示GPT-3的(de)主要數據(ju),可以將大(da)模型參數規(gui)模變小(xiao),從(cong)而實現在較(jiao)低功耗的(de)邊(bian)緣和(he)端側運行(xing)。邁特芯可在ChatGLM2-6B大(da)模型上用(yong)INT4和(he)INT2算力,達到跟ChatGLM2-6B FP16相當的(de)推理水平。

在架構(gou)方(fang)(fang)面,邁特(te)芯從(cong)算(suan)法角度來探索硬(ying)件設計,針對大模型(xing)算(suan)法搭建立方(fang)(fang)單元架構(gou),通(tong)過立方(fang)(fang)脈動陣列實現高(gao)強度并行計算(suan),其解決方(fang)(fang)案(an)能兼顧高(gao)通(tong)量和(he)低功耗。

以下為黃瀚韜的演講實錄:

各(ge)位(wei)領導(dao),各(ge)位(wei)嘉賓,很榮幸站在這里跟大(da)家介(jie)紹我們公司新做的面(mian)向大(da)模型(xing)的高能(neng)效存算算力芯片。我是邁(mai)特芯的創始人兼(jian)CEO。

一、算力需求迅速增長,需要高算力硬件支持

首先(xian)是(shi)從(cong)AI算(suan)(suan)(suan)力(li)(li)超摩爾進程的背景開始思考。基(ji)(ji)于(yu)AI、ChatGPT的大(da)模型(xing)的用戶數(shu)(shu)量增(zeng)(zeng)長(chang)(chang)是(shi)顯著的,算(suan)(suan)(suan)法(fa)是(shi)基(ji)(ji)于(yu)大(da)模型(xing)算(suan)(suan)(suan)法(fa),參數(shu)(shu)是(shi)每兩年增(zeng)(zeng)加(jia)240倍,算(suan)(suan)(suan)力(li)(li)也是(shi)增(zeng)(zeng)加(jia)了750倍。因(yin)為(wei)復雜的計算(suan)(suan)(suan)和參數(shu)(shu)量,導(dao)致(zhi)它算(suan)(suan)(suan)力(li)(li)的需(xu)求是(shi)非(fei)常大(da)的。每兩年750倍算(suan)(suan)(suan)力(li)(li)需(xu)求的增(zeng)(zeng)長(chang)(chang),其實是(shi)遠超原(yuan)本摩爾定律的增(zeng)(zeng)長(chang)(chang),在大(da)算(suan)(suan)(suan)力(li)(li)市場上是(shi)有一個非(fei)常大(da)的算(suan)(suan)(suan)力(li)(li)需(xu)求。

從另一個角度看(kan)到,現(xian)在國內沒有(you)辦(ban)(ban)法(fa)買到英偉達的A100。從全(quan)球(qiu)市場來(lai)看(kan),全(quan)球(qiu)市場云(yun)服務商像CoreWeave,這是英偉達投資的云(yun)服務商,也(ye)是沒有(you)辦(ban)(ban)法(fa)獲(huo)得足夠的GPU提(ti)供云(yun)服務。所以,算力市場還是很值得大家去探索(suo)的。

邁特芯黃瀚韜:自研立方脈動架構,已開發三款X-Edge芯片并實現大模型高效能并行存算丨GACS 2023

另外一個角度,現有的方案(an)(an)比如(ru)基于GPU的方案(an)(an),它是一個高碳(tan)的硬件算力方案(an)(an)。以A100為例,它的功耗達到了400W的水平(ping),這樣(yang)的功耗對(dui)建立一個AI數(shu)據中心(xin)是很有挑戰的。比如(ru)說,我們想建一個千(qian)張GPU卡的數(shu)據中心(xin)面臨一個問題,要給它提(ti)供1兆瓦功率的供電,意味(wei)著(zhu)每天的運營成本是很顯著(zhu)的。

另一(yi)個(ge)例子,以Meta Llama模型來做訓練(lian)為例,訓練(lian)一(yi)個(ge)Llama模型是(shi)需要(yao)2000多張A100的卡(ka),同(tong)時也(ye)要(yao)調(diao)參做訓練(lian)搞(gao)5個(ge)月。在這(zhe)個(ge)過程中已經消耗2600MWh電量(liang),換算成碳,已經花了1000噸(dun)的碳。邁特芯(xin)的初衷(zhong)是(shi)希望做一(yi)個(ge)低(di)功(gong)耗的芯(xin)片,把功(gong)耗降下來,把碳降下來,讓社會更加環保(bao)、低(di)功(gong)耗、可(ke)持續。

從(cong)另一個角度以(yi)現有GPU Google來看。在2016年谷(gu)歌提出TPU,TPU工(gong)作(zuo)主(zhu)要是用來做(zuo)CNN、做(zuo)推(tui)薦系統。隨著2016年、2019、2020年、2022年TPU的V3、V4這幾代迭代,我們看到了基(ji)于Transformer的算子不(bu)只有大模型,Transformer架(jia)構(gou)計(ji)算的比(bi)例是逐(zhu)步(bu)增加的。

到2022年為止,已(yi)經有(you)57%TPU算力都(dou)是用在Transformer的(de)模(mo)(mo)型(xing)(xing)。大模(mo)(mo)型(xing)(xing)應(ying)用Transformer逐漸成(cheng)為數據(ju)中(zhong)心(xin)(xin)的(de)核心(xin)(xin)計(ji)算。如果做(zuo)一(yi)個(ge)專用的(de)模(mo)(mo)型(xing)(xing)AI加速(su)器,在做(zuo)好Transformer的(de)基礎上(shang),再把CNN做(zuo)好,那是一(yi)個(ge)非常值得的(de)放在數據(ju)中(zhong)心(xin)(xin)主(zhu)要的(de)計(ji)算硬件(jian)。

二、大模型參數來源與應對量化技術挑戰的兩大方向

既(ji)然聊(liao)到大模型,我們(men)就(jiu)追根溯源(yuan),從大模型的(de)第一(yi)(yi)步開始,就(jiu)是(shi)這篇(pian)論(lun)文谷歌的(de)Attention?Is All You Need。這篇(pian)論(lun)文提(ti)出來(lai)的(de)時(shi)候還(huan)沒有什(shen)么大模型,主要(yao)是(shi)解決了(le)當時(shi)翻譯(yi)不準的(de)問題,所以它這里提(ti)出了(le)一(yi)(yi)個Encoder架(jia)構和一(yi)(yi)個Decoder架(jia)構。

Encoder架構是(shi)做語義理(li)解,現(xian)在(zai)的(de)Bert模型也是(shi)用Encoder架構做語義理(li)解。Decoder模型是(shi)做文本生成,逐(zhu)(zhu)漸擴展(zhan)到回答各種(zhong)各樣(yang)的(de)問題。在(zai)Decoder方(fang)案上,OpenAI進(jin)(jin)行(xing)(xing)了(le)擴展(zhan),提出了(le)GPT-1、GPT-2、GPT-3,逐(zhu)(zhu)漸到現(xian)在(zai)看(kan)到的(de)GPT-3的(de)1750億參數的(de)規(gui)模。仔細看(kan)GPT-3模型,其實它還是(shi)在(zai)Transformer Decoder框架里進(jin)(jin)行(xing)(xing)擴展(zhan)的(de),無非是(shi)深度更(geng)深一些,模型更(geng)寬一些、更(geng)大一些。

邁特芯黃瀚韜:自研立方脈動架構,已開發三款X-Edge芯片并實現大模型高效能并行存算丨GACS 2023

接(jie)下來看(kan)一(yi)下1750億參數的來源。首先就是(shi)(shi)(shi)Embedding的操作,Embedding操作就是(shi)(shi)(shi)一(yi)個(ge)(ge)(ge)lookup table的過(guo)(guo)程(cheng),找矩陣(zhen)lookup的過(guo)(guo)程(cheng)。這個(ge)(ge)(ge)事情很(hen)簡單,沒(mei)有(you)(you)太多的計算(suan)。Attention的部分(fen)也沒(mei)有(you)(you)什么變化,有(you)(you)4個(ge)(ge)(ge)全連接(jie)的層(ceng),每一(yi)層(ceng)都有(you)(you)12288的維度,它就是(shi)(shi)(shi)一(yi)個(ge)(ge)(ge)很(hen)大維度的矩陣(zhen)層(ceng),它有(you)(you)4個(ge)(ge)(ge)。Feed Forward又是(shi)(shi)(shi)一(yi)個(ge)(ge)(ge)矩陣(zhen)層(ceng),是(shi)(shi)(shi)一(yi)個(ge)(ge)(ge)12288×4×12288的很(hen)大矩陣(zhen)層(ceng),Feed Forward連接(jie)層(ceng)是(shi)(shi)(shi)有(you)(you)2層(ceng)。這個(ge)(ge)(ge)模(mo)塊是(shi)(shi)(shi)重復(fu)了96次,一(yi)疊加就得(de)到(dao)了一(yi)個(ge)(ge)(ge)接(jie)近1750億參數的大模(mo)型。

我(wo)(wo)們(men)看到1750億參數(shu)(shu)大模型主要的(de)(de)(de)數(shu)(shu)據(ju)都(dou)是權重,而且權重已經是獲得的(de)(de)(de),在(zai)我(wo)(wo)們(men)做推理的(de)(de)(de)時(shi)候。如果能把權重用更低(di)的(de)(de)(de)bit來表示,我(wo)(wo)們(men)就能獲得一個比(bi)較(jiao)好(hao)的(de)(de)(de)、比(bi)較(jiao)高效的(de)(de)(de)存儲,實現我(wo)(wo)們(men)大模型在(zai)端側、在(zai)邊緣進(jin)行計(ji)算(suan)的(de)(de)(de)方(fang)案(an)。

說到量化,上面先給大家舉了一(yi)個例子,量化的(de)(de)(de)技術(shu)就是(shi)把本來的(de)(de)(de)浮點(dian)映射到需(xu)要的(de)(de)(de)定(ding)點(dian)的(de)(de)(de)個數。這(zhe)里的(de)(de)(de)定(ding)點(dian)是(shi)4bit,假設它是(shi)0~15,就可以把這(zhe)樣(yang)的(de)(de)(de)浮點(dian)直接映射到0~15的(de)(de)(de)數字范圍內。

邁特芯黃瀚韜:自研立方脈動架構,已開發三款X-Edge芯片并實現大模型高效能并行存算丨GACS 2023

做量(liang)(liang)化(hua)(hua)(hua)(hua)技(ji)(ji)術最大的(de)(de)(de)(de)挑戰,就(jiu)是(shi)(shi)(shi)如何(he)在(zai)保證(zheng)大模(mo)型準確率的(de)(de)(de)(de)前(qian)提(ti)下盡量(liang)(liang)量(liang)(liang)化(hua)(hua)(hua)(hua)。因為這樣的(de)(de)(de)(de)問題提(ti)出了兩(liang)個(ge)方(fang)向(xiang):第一(yi)(yi)個(ge)方(fang)向(xiang),用更(geng)(geng)細顆(ke)粒(li)(li)度的(de)(de)(de)(de)量(liang)(liang)化(hua)(hua)(hua)(hua)技(ji)(ji)術。在(zai)AI部署的(de)(de)(de)(de)過程中看到(dao)在(zai)量(liang)(liang)化(hua)(hua)(hua)(hua)技(ji)(ji)術上,從(cong)每(mei)一(yi)(yi)層per-layer的(de)(de)(de)(de)量(liang)(liang)化(hua)(hua)(hua)(hua)技(ji)(ji)術整個(ge)權重是(shi)(shi)(shi)一(yi)(yi)個(ge)min max,是(shi)(shi)(shi)一(yi)(yi)個(ge)scale parameter量(liang)(liang)化(hua)(hua)(hua)(hua)的(de)(de)(de)(de)參數(shu),變(bian)成是(shi)(shi)(shi)以per-channel矩陣(zhen)每(mei)一(yi)(yi)列是(shi)(shi)(shi)一(yi)(yi)個(ge)量(liang)(liang)化(hua)(hua)(hua)(hua)參數(shu)。直到(dao)現在(zai),變(bian)成的(de)(de)(de)(de)是(shi)(shi)(shi)基(ji)于組的(de)(de)(de)(de)量(liang)(liang)化(hua)(hua)(hua)(hua)參數(shu),顆(ke)粒(li)(li)度更(geng)(geng)小(xiao),因為量(liang)(liang)化(hua)(hua)(hua)(hua)帶來(lai)的(de)(de)(de)(de)誤(wu)差就(jiu)會更(geng)(geng)小(xiao)。

第二個技術方向,看(kan)的(de)是層間(jian)(jian)多(duo)精(jing)(jing)(jing)度(du)(du)(du)量化。可以(yi)看(kan)到右(you)邊(bian)的(de)圖,這(zhe)個圖的(de)表達意思是說在大模(mo)型,一(yi)個96層多(duo)層間(jian)(jian)的(de)模(mo)型結構之間(jian)(jian),不是每(mei)一(yi)個層都是同樣(yang)重要的(de)。在不同的(de)層之間(jian)(jian),還是可以(yi)做(zuo)(zuo)一(yi)些(xie)取舍的(de)。這(zhe)里舉例(li),有些(xie)層可以(yi)用2bit做(zuo)(zuo),有些(xie)層可以(yi)用4bit做(zuo)(zuo),有些(xie)層如果(guo)為了保持(chi)精(jing)(jing)(jing)度(du)(du)(du)的(de)極限一(yi)點也不丟失(shi)是可以(yi)用8bit來(lai)做(zuo)(zuo)的(de)。在不同層間(jian)(jian),做(zuo)(zuo)了一(yi)個精(jing)(jing)(jing)度(du)(du)(du)混合,通過這(zhe)種方式來(lai)保證精(jing)(jing)(jing)度(du)(du)(du)沒有丟失(shi)。

我們公司做了一個實(shi)驗(yan)驗(yan)證,在ChatGLM2-6B清華開(kai)源的大模型上,用88%的INT4和12%的INT12,可以達(da)到跟(gen)ChatGLM2-6B?FP16相當的一個推理水平。這個推理水平也不是(shi)我說得,是(shi)用ChatGPT打分打到的。

三、創新立方脈動架構,以此開發X-Edge三款芯片

聊(liao)過了算法方(fang)向的(de)(de)(de)東西(xi),再回(hui)來看架構(gou)。硬件的(de)(de)(de)設(she)(she)計(ji)是為(wei)算法服務(wu)的(de)(de)(de),所(suo)以(yi)總是要從算法角度(du)來探索怎樣(yang)設(she)(she)計(ji)這樣(yang)的(de)(de)(de)硬件,會為(wei)算法提供(gong)更(geng)準確(que)、更(geng)快速的(de)(de)(de)服務(wu)。在這個角度(du)上(shang),首先借(jie)鑒(jian)了行業的(de)(de)(de)老大GPU。GPU的(de)(de)(de)架構(gou),就是以(yi)標量(liang)單元、矢量(liang)單元、立方(fang)單元三種單元構(gou)成的(de)(de)(de)一(yi)個既(ji)有靈活性又有高吞(tun)吐量(liang)的(de)(de)(de)計(ji)算方(fang)案。

從我們(men)的角(jiao)度來說,針對大(da)模(mo)型、大(da)算力(li),標量(liang)單元(yuan)(yuan)、矢量(liang)單元(yuan)(yuan)可(ke)以不要,專心把立方單元(yuan)(yuan)做好(hao)。立方單元(yuan)(yuan)就是一(yi)個面的矩陣和(he)另一(yi)個面矩陣進行快(kuai)速(su)的乘(cheng)加。

邁特芯黃瀚韜:自研立方脈動架構,已開發三款X-Edge芯片并實現大模型高效能并行存算丨GACS 2023

在立(li)(li)方(fang)(fang)并行計算層面(mian),首先是推出自己立(li)(li)方(fang)(fang)脈(mo)動(dong)架(jia)構(gou)。這個立(li)(li)方(fang)(fang)脈(mo)動(dong)架(jia)構(gou)是以3×3矩(ju)陣層為(wei)例,當3×3如(ru)果排列(lie)(lie)的序列(lie)(lie)夠多(duo)的時候就可以看(kan)到是兩個面(mian)和兩個面(mian)進(jin)行乘法,構(gou)成了(le)一個高能(neng)效的架(jia)構(gou),立(li)(li)方(fang)(fang)脈(mo)動(dong)架(jia)構(gou)。

右邊是我(wo)們自(zi)己設(she)計(ji)的(de)存算單(dan)元,由9個(ge)transistor(晶體管(guan))+1個(ge)capacitor(電(dian)容器)構(gou)成的(de)。我(wo)們的(de)思路是先(xian)實(shi)現一(yi)個(ge)立方脈動(dong)基(ji)于傳(chuan)統數字的(de)架構(gou),再通過一(yi)個(ge)存算的(de)SRAM計(ji)算單(dan)元進行替(ti)代,實(shi)現一(yi)個(ge)既有高通量又有低功耗的(de)解(jie)決方案。

在此基礎上邁(mai)特芯開發了三款芯片(pian)(pian),分別(bie)是X-Edge多精(jing)度(du)芯片(pian)(pian)、多稀(xi)疏(shu)芯片(pian)(pian)、存算芯片(pian)(pian)。今天專注的是在存算芯片(pian)(pian),不過前兩(liang)個(ge)我也會稍微介紹一下。

邁特芯黃瀚韜:自研立方脈動架構,已開發三款X-Edge芯片并實現大模型高效能并行存算丨GACS 2023

多精(jing)度芯片(pian)就是探索在模型之(zhi)間可(ke)以(yi)有(you)(you)不同(tong)的(de)精(jing)度,比如有(you)(you)1bit精(jing)度、2bit精(jing)度、4bit精(jing)度、8bit精(jing)度。不同(tong)的(de)精(jing)度,可(ke)以(yi)探索不同(tong)層間分(fen)配不同(tong)的(de)精(jing)度。在分(fen)配不同(tong)精(jing)度的(de)同(tong)時(shi)通(tong)過(guo)神經網絡(luo)搜(sou)索的(de)算(suan)法、后續的(de)量(liang)化算(suan)法,實現精(jing)度沒有(you)(you)丟失。搭配我(wo)們硬件(jian)的(de)支持(chi),可(ke)以(yi)做到(dao)比較好的(de)接近8TOPS/平方(fang)毫米的(de)面效比,也是可(ke)以(yi)做到(dao)24TOPS/W能效比。

第二個角(jiao)度(du),做(zuo)的(de)(de)(de)事情就是稀疏(shu)。稀疏(shu)的(de)(de)(de)角(jiao)度(du)看到的(de)(de)(de)權重(zhong)就像(xiang)人的(de)(de)(de)大腦一樣,不是每個神(shen)(shen)(shen)經(jing)元(yuan)(yuan)都同等重(zhong)要,有些神(shen)(shen)(shen)經(jing)元(yuan)(yuan)從未被(bei)激活過,所(suo)以對神(shen)(shen)(shen)經(jing)網絡(luo)來說(shuo),有些神(shen)(shen)(shen)經(jing)元(yuan)(yuan)也是可以通過算(suan)(suan)法把它稀疏(shu)掉。在這個角(jiao)度(du)上,充(chong)分利用神(shen)(shen)(shen)經(jing)網絡(luo)連接(jie)的(de)(de)(de)冗余度(du),實現更高(gao)的(de)(de)(de)峰值(zhi)面效(xiao)比。對于存算(suan)(suan)來說(shuo),就是充(chong)分利用計算(suan)(suan)單元(yuan)(yuan)架構創新提高(gao)它的(de)(de)(de)能(neng)效(xiao)。在這個能(neng)效(xiao)上,我們達到了100TOPS/W的(de)(de)(de)效(xiao)果。

這一(yi)頁是(shi)我們(men)整(zheng)(zheng)體(ti)架構。從架構來說(shuo),在實踐層面上沒有過(guo)多的(de)創(chuang)新。我們(men)的(de)核(he)心創(chuang)新點(dian)就(jiu)是(shi)立方(fang)脈動陣列(lie)方(fang)向(xiang),就(jiu)是(shi)中間(jian)這塊有一(yi)個立方(fang)脈動陣列(lie),能快速做好矩陣乘(cheng)法。與(yu)此同時,我們(men)也有做矩陣Transformation的(de)操(cao)作(zuo),比如進行轉制(zhi)、變換、拼接、短(duan)連接的(de)工(gong)作(zuo)。對于(yu)這些(xie)非線(xian)性(xing)的(de)操(cao)作(zuo),像(xiang)LayerNorm、Softmax、Gelu,是(shi)使用FP16精度高一(yi)些(xie)的(de)方(fang)式實現的(de)。其(qi)中靈活(huo)存儲(chu)管理的(de)方(fang)向(xiang)是(shi)通過(guo)片上的(de)儲(chu)存,盡(jin)量提高數值的(de)復(fu)用,降低對帶寬的(de)需求。這是(shi)整(zheng)(zheng)體(ti)的(de)架構設計(ji)。

邁特芯黃瀚韜:自研立方脈動架構,已開發三款X-Edge芯片并實現大模型高效能并行存算丨GACS 2023

這一頁(ye)是(shi)(shi)我們現在存算芯(xin)(xin)片的(de)(de)指標。目前這一版芯(xin)(xin)片能達到15TOPS峰值結果,平均的(de)(de)準確率(lv)是(shi)(shi)69.9%。下面是(shi)(shi)有跟英偉(wei)達A100表格(ge)進(jin)(jin)行對比,它的(de)(de)準確率(lv)是(shi)(shi)70.43%,我們是(shi)(shi)69%,準確率(lv)的(de)(de)差別在大部(bu)分應用場景上是(shi)(shi)可(ke)以(yi)接受的(de)(de),這也是(shi)(shi)可(ke)以(yi)通過進(jin)(jin)行多層間量化技術進(jin)(jin)行彌補,實現精(jing)度是(shi)(shi)沒有丟失的(de)(de)。

其它的(de),我們的(de)峰(feng)值面效可以達到900TOPS/W。在這(zhe)個(ge)神經網絡上(shang)的(de)平(ping)均能效是107.58TOPS/W。我們也進行(xing)了臺積電28納米SRAM的(de)流(liu)片。右(you)上(shang)角(jiao)是我們版圖和芯(xin)片圖。

四、大算力芯片在大模型、3D重建、X+端邊緣平臺三方面應用

聊(liao)到(dao)大(da)(da)模型(xing)(xing),就聊(liao)到(dao)了(le)應用。從應用角度看,我(wo)們(men)認為(wei)做大(da)(da)模型(xing)(xing)的(de)應用,最后(hou)要做到(dao)100~1000TOPS。因(yin)為(wei)我(wo)們(men)還是一個初(chu)創公司,走(zou)在(zai)這個路上(shang)還正在(zai)努力走(zou)下(xia)去。在(zai)這個方向上(shang),現(xian)在(zai)做到(dao)努力支持(chi)的(de)就是支持(chi)清(qing)華ChatGLM2-6B的(de)模型(xing)(xing)。

邁特芯黃瀚韜:自研立方脈動架構,已開發三款X-Edge芯片并實現大模型高效能并行存算丨GACS 2023

這(zhe)(zhe)個模(mo)(mo)(mo)型里面有(you)(you)(you)(you)自己的(de)矢量(liang)數據集支(zhi)持(chi)。矢量(liang)數據集這(zhe)(zhe)點,就是用來支(zhi)持(chi)不同專(zhuan)業(ye)領域的(de)知識可(ke)以保存在移動(dong)端的(de)設備上,通過這(zhe)(zhe)個支(zhi)持(chi)來提供一些專(zhuan)有(you)(you)(you)(you)化能(neng)力的(de)回答。第二(er),通過使用自研的(de)量(liang)化工具(ju)(ju),可(ke)以極大(da)(da)地降低(di)ChatGLM2-6B模(mo)(mo)(mo)型大(da)(da)小,使它可(ke)以在芯片上跑(pao)得起來。還有(you)(you)(you)(you)對(dui)大(da)(da)模(mo)(mo)(mo)型算子的(de)支(zhi)持(chi),大(da)(da)模(mo)(mo)(mo)型這(zhe)(zhe)些主流的(de)算子我們(men)也有(you)(you)(you)(you)支(zhi)持(chi),也有(you)(you)(you)(you)對(dui)像動(dong)態量(liang)化或者不定長緯度的(de)支(zhi)持(chi)。下面是我們(men)一個簡單的(de)量(liang)化工具(ju)(ju)。

另一個角度來(lai)說,我們正在主打(da)50~100TOPS的方向(xiang)。作(zuo)為一個存(cun)算(suan)一體,直接走向(xiang)大算(suan)力(li)(li)、走向(xiang)100~1000TOPS的跨度太大了,應該(gai)先從一個50TOPS中等算(suan)力(li)(li)的規格開始做起(qi),從這(zhe)個算(suan)力(li)(li)做起(qi)主要針對的是兩種情況。

一(yi)種情況(kuang)是(shi)(shi)無人機的(de)情況(kuang),就(jiu)是(shi)(shi)對CNN、基于Transformer ViT模型的(de)支持(chi),這樣的(de)模型可以讓(rang)我們(men)實現3D點(dian)(dian)云(yun)的(de)重建(jian),尤(you)其(qi)是(shi)(shi)在端側3D點(dian)(dian)云(yun)的(de)重建(jian),還有在端側人物識別、人物檢(jian)測(ce)、目標檢(jian)測(ce)等視覺的(de)應用,這些應用的(de)主要亮點(dian)(dian)是(shi)(shi)可以在同等算力(li)情況(kuang)下用的(de)功耗(hao)會更小(xiao)。當芯片驗(yan)證做得更充分一(yi)些,也會向比較(jiao)簡單的(de)小(xiao)車級,就(jiu)是(shi)(shi)功能性小(xiao)車級層面(mian)進行開拓市場,進行降成(cheng)本替代的(de)工作。

邁特芯黃瀚韜:自研立方脈動架構,已開發三款X-Edge芯片并實現大模型高效能并行存算丨GACS 2023

最后是(shi)X+端(duan)(duan)邊緣平(ping)(ping)(ping)臺(tai)的(de)(de)應用。在這個方(fang)向上提(ti)供(gong)更多的(de)(de)算(suan)力(li),希(xi)望能提(ti)供(gong)20~50TOPS算(suan)力(li),主(zhu)要應用在端(duan)(duan)邊緣算(suan)力(li)卡,還(huan)有一些機器(qi)人平(ping)(ping)(ping)臺(tai)、監控攝像(xiang)頭平(ping)(ping)(ping)臺(tai)、地鐵巡檢平(ping)(ping)(ping)臺(tai)等等在端(duan)(duan)邊緣對算(suan)力(li)是(shi)有一定需求(qiu)的(de)(de),但是(shi)現有端(duan)(duan)邊緣的(de)(de)算(suan)力(li)支持,比如1~5T的(de)(de)算(suan)力(li)支持還(huan)不足夠,希(xi)望我們(men)的(de)(de)芯片(pian)是(shi)可以支持的(de)(de),會(hui)主(zhu)打這個方(fang)向的(de)(de)端(duan)(duan)平(ping)(ping)(ping)臺(tai)的(de)(de)應用。

邁特芯黃瀚韜:自研立方脈動架構,已開發三款X-Edge芯片并實現大模型高效能并行存算丨GACS 2023

在X+端(duan)邊(bian)緣平(ping)臺上跟剛(gang)剛(gang)分享的(de)(de)(de)一樣,這是(shi)一個(ge)非常瑣碎的(de)(de)(de)市場,所以要建設好這個(ge)市場,需(xu)要有(you)一個(ge)集中式的(de)(de)(de)工具鏈,才能(neng)做(zuo)(zuo)好這個(ge)服(fu)務(wu)。我們有(you)做(zuo)(zuo)好編譯器上面(mian)的(de)(de)(de)優(you)化,將(jiang)不同層面(mian)的(de)(de)(de)網絡進(jin)行編譯,也(ye)做(zuo)(zuo)好量化模型優(you)化的(de)(de)(de)工具,比(bi)如神經網絡搜索、量化、裁減工具,也(ye)有(you)做(zuo)(zuo)好對這些平(ping)臺的(de)(de)(de)基礎適配,這樣的(de)(de)(de)話可以跟廠家(jia)把端(duan)邊(bian)緣的(de)(de)(de)場景用(yong)好。謝(xie)謝(xie)各(ge)位的(de)(de)(de)聆聽。

以上是黃瀚韜演講內容的完整整理。