作者 | ZeR0
編輯 | 漠影

國(guo)產大(da)模型芯(xin)片,又有了(le)好消息。

作為“中國科(ke)技(ji)第一展”,深(shen)圳(zhen)高(gao)交會(hui)正在(zai)如(ru)火如(ru)荼的(de)舉(ju)辦,4295家企(qi)業展出了琳瑯滿(man)目(mu)的(de)高(gao)精尖(jian)科(ke)技(ji)成果(guo),歷來(lai)在(zai)高(gao)交會(hui)發布重磅產品的(de)AI企(qi)業云天勵飛,一如(ru)既往上了盤“硬菜(cai)”——

國產Chiplet大模型推理芯片DeepEdge10

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世▲云天勵飛(fei)董事長兼CEO陳寧博士發(fa)布Edge10芯片

這是云天(tian)勵飛迄今算力最強(qiang)的旗艦(jian)AI芯片SoC,內(nei)置自研新一代神(shen)經(jing)網絡處理器(qi)NNP400T,通過(guo)D2D高速互聯Chiplet技術、C2CMesh互聯架構實現算力擴(kuo)展,能(neng)夠支持千(qian)億級參數大模型,落地于邊(bian)(bian)緣(yuan)設備和邊(bian)(bian)緣(yuan)服務(wu)器(qi)。

“國產”,當屬這顆芯(xin)片最吸(xi)睛(jing)的(de)標簽。

制程工藝是國產,基板是國產,D2D Chiplet先進封裝架構是國產,RISC-V CPU IP、GPU IP是國產,云天勵飛自研的NNP更是國產

波譎云詭的國際環境中,中國企業采用海外先進芯片技術的可能性不斷受限。今天,在國產供應鏈的襄助下,云天勵飛證明了通過多重創新技術的組合拳,自主可控的AI芯片能夠滿足高算力、大內存的大模型推理需求

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世▲三款不同規格(ge)的Edge10系列芯片(智東西(xi)拍攝)

云天(tian)(tian)勵飛是怎么做到的(de)?為(wei)何在自研芯片路(lu)上堅持至今?未來又有怎樣的(de)戰略規劃?在深(shen)圳高交會期間(jian),智東西與云天(tian)(tian)勵飛副總裁、芯片產品線總經理李愛(ai)軍進(jin)行了深(shen)入交流。

一、大模型創新爆發時代,需要什么樣的邊緣推理芯片?

大模型(xing)正在顛覆生產(chan)力(li),海(hai)量數(shu)據和(he)參數(shu)的(de)(de)運算(suan)需(xu)求、日(ri)趨豐(feng)富的(de)(de)應用場(chang)景帶來(lai)了全新的(de)(de)計(ji)算(suan)泛式(shi)和(he)計(ji)算(suan)要求,給(gei)AI芯片提出新的(de)(de)挑戰。

一方面(mian),多模態大(da)模型(xing)成(cheng)為大(da)勢所趨,帶動推理算力需(xu)求激(ji)增(zeng);另一方面(mian),OpenAI、微軟等接連(lian)開放(fang)自定義GPT能力,掀起新一股生成(cheng)式AI應用模型(xing)創(chuang)新熱潮(chao),更(geng)加分散(san)泛化的多元場景,需(xu)要大(da)量邊緣推理算力的支(zhi)撐(cheng)。

據云天勵飛副總裁、芯片產品線總經理李愛軍回憶,在推進芯片落地的過程中,云天勵飛深刻體會到邊緣計算場景存在算力碎片化、算法長尾化、產品非標化、規模碎片化的痛點。

追求單一場景極致PPA(性能、功耗、面積)的傳統芯片方式,已經難以適應邊緣計算場景下AI落地的需求。大模型的出現,為行業提供了算法層面的解決之道,因而日漸成為大勢所趨。

那么讓大模(mo)型在邊緣計算場景實際落地,需(xu)要(yao)怎(zen)樣的AI推理芯片(pian)?

一些方向已經是業界共識:既要有更高算力,又要增加更多的內存容量、更大的內存帶寬,這樣才能存得下、搬得快足夠多的數據。同時,邊緣計算對低功耗、低成本的要求更為苛刻

除了支持大模型等AI計算任務,AI邊緣推理芯片還承擔了“落地應用最后一公里”的職責,需要具備較強的通用算力

針對這些需求,云天勵飛自主研發并推出了面向邊緣計算全場景、基于國產工藝的大模型推理芯片平臺——DeepEdge10

二、全面兼容大模型新型計算范式,主控級SoC支持通用算法

李愛軍告訴(su)智東西,DeepEdge10芯片的(de)研發始于2020年。得益(yi)于其(qi)算(suan)法部門(men)在前沿AI算(suan)法方面(mian)的(de)敏(min)銳認(ren)知,云(yun)天勵(li)飛(fei)芯片團隊預見(jian)到未來視覺算(suan)法會基(ji)于Transformer和注意力機制,因此對大(da)模(mo)型計算(suan)方式進行了深度(du)解構,著重考慮到如何通(tong)過靈活的(de)架構設計來實(shi)現高效支持。

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世

Edge10有4大技術加持:1)主控級SoC;2)新一代神經網絡處理器,高效支持Transformer;3)D2D Chiplet架構,實現算力靈活擴展;4)C2CMesh互聯擴展,支持千億級參數大模型。

其主控級SoC集成了(le)CPU、GPU、NPU、多(duo)媒體(ti)、顯示、外設、安(an)全等(deng)功能,支(zhi)持傳統的(de)CNN、DNN、SLAM等(deng)算(suan)法,可滿(man)足絕大(da)部分場景的(de)控制(zhi)需要。CPU、GPU均為(wei)國產IP。RISC-V CPU采用(yong)2+8核,主頻最(zui)高達(da)1.8Ghz;多(duo)媒體(ti)能力最(zui)大(da)支(zhi)持8K30視頻編解碼、2億像(xiang)素(su)JPEG編解碼;具備國際(ji)主流的(de)硬件(jian)級安(an)全性。

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世

與支持大模型運行最為相關的,當屬其自研的新一代神經網絡處理器NNP400T

NNP400T采用三維并行的矩陣計算架構,矩陣計算與(yu)矢量計算聯合優化,大(da)幅提升Softmax、Layernorm等算子的執行性能。

結合國(guo)產(chan)工藝的特點,NNP400T通過稀(xi)疏(shu)化(hua)、參數(shu)/數(shu)據(ju)壓縮、低比(bi)特量(liang)化(hua)等(deng)措(cuo)施,有效實(shi)現大(da)模(mo)型帶(dai)寬(kuan)的極致優(you)化(hua)。它還支持(chi)混合數(shu)據(ju)精度計算,包(bao)括(kuo)INT8、INT16、FP16。

通過這(zhe)些設計,芯片在(zai)支撐大(da)模(mo)型推理(li)時(shi)的能效比,可以被(bei)控制在(zai)合理(li)的水平。

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世

而在D2D、C2C Mesh高速互聯架構的加持下,NPU算力能夠無極擴展,同時統一內存最高可達512GB、統一內存帶寬最高可達1920GB/s,能(neng)夠滿足大到千億(yi)級參數大模型在邊緣端部署的需(xu)求。

三、國產14nm Chiplet大模型推理芯片:國內首創,四大創新亮點

總體(ti)來看,面向邊(bian)緣場景的大模型部署需求,DeepEdge10芯片平臺(tai)具有4大創(chuang)新亮點(dian):

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世

1、支持大模型新型計算范式

新一代神經網絡處理器兼容Transformer,支持低精(jing)度(du)混合(he)計(ji)算、分布式并行計(ji)算。云天勵(li)飛現已向國內頭(tou)部的AIoT芯片(pian)設計(ji)廠商、智慧汽車芯片(pian)設計(ji)廠商、服務機器人(ren)廠商、國家重點實驗(yan)室(shi)等提(ti)供神經網絡處理器的IP授權。

2、D2D Chiplet+C2C Mesh互聯架構

據李愛軍(jun)分享(xiang),在(zai)啟動Edge10研發時,云天(tian)勵飛芯片團隊就在(zai)思考,如(ru)何在(zai)國(guo)產(chan)制程(cheng)工藝與國(guo)際先(xian)進水平存(cun)在(zai)代差的(de)(de)情況下,通過其(qi)他技術手段(duan)追齊性能?像搭積(ji)木一樣將不(bu)同(tong)制程(cheng)、不(bu)同(tong)IP模(mo)塊組合到一起的(de)(de)Chiplet先(xian)進封(feng)裝思路(lu),成為一條有希(xi)望的(de)(de)路(lu)徑。

在無法采用國際先進制程的(de)客觀限制下,云天勵飛(fei)與(yu)合(he)作伙伴(ban)一起從三(san)年前展開聯合(he)技術攻關,在D2D Chiplet技術上定(ding)制了一系列的(de)IP,雖(sui)然成本(ben)、功(gong)耗會高一些,但實現(xian)了基于國產14nm工藝在單(dan)臺設(she)備跑大(da)模型(xing)的(de)能力。

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世▲云天勵(li)飛副總裁、芯(xin)片產品線(xian)總經理李愛軍講解(jie)D2D Chiplet架(jia)構(gou)

D2D Chiplet通過(guo)在多Die間(jian)架(jia)起“高速公(gong)路”,在不(bu)犧牲時延(yan)的情況下能做到算(suan)力靈活(huo)擴(kuo)展,可(ke)實現一(yi)次設計(ji)流片、多次封裝,生產不(bu)同計(ji)算(suan)規格的芯片。C2C Mesh互聯技術可(ke)實現各個計(ji)算(suan)節(jie)點之(zhi)間(jian)的最短傳輸(shu)延(yan)遲,保證大(da)模型推(tui)理達到最短時延(yan),支持不(bu)同規格的大(da)模型靈活(huo)部署(shu)。

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世

“在(zai)片(pian)(pian)內高速互聯(lian)速度上,我(wo)們已(yi)經做到(dao)了14nm上的(de)最好水平了。”李愛(ai)軍說,“我(wo)們將立足國產工藝打造自主可(ke)控的(de)AI芯(xin)片(pian)(pian),這條路很艱難,我(wo)們會堅持不懈的(de)走下(xia)去。”

3、支持大模型部署的異構多核軟件棧

為(wei)了(le)適應D2D/C2C架構(gou)(gou),云天勵(li)飛構(gou)(gou)建了(le)一套(tao)支持大(da)模(mo)(mo)型部(bu)署的(de)異(yi)構(gou)(gou)多(duo)核軟件棧,包括設計(ji)了(le)一套(tao)高(gao)效異(yi)構(gou)(gou)多(duo)核Syslink通信庫,實(shi)現(xian)高(gao)效的(de)D2D/C2C數(shu)據搬運管理(li)、Mesh互聯(lian)下的(de)統一內存調度管理(li)和(he)模(mo)(mo)型分布式(shi)并行管理(li),因此能實(shi)現(xian)集(ji)群的(de)大(da)模(mo)(mo)型部(bu)署。

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世

4、符合大模型演進趨勢的統一工具鏈

云天勵飛打造(zao)了一(yi)套符合大(da)模型(xing)演進趨勢(shi)的一(yi)站式(shi)統一(yi)工具(ju)鏈,通(tong)過(guo)分布(bu)式(shi)并行策(ce)略(lve)、基(ji)于硬件的流水(shui)線排布(bu)、先進的量(liang)化策(ce)略(lve)、多機并行的編譯機制,來(lai)支(zhi)持(chi)千(qian)億級大(da)模型(xing)快速部署。

DeepEdge10已(yi)支持(chi)超過100個主(zhu)流(liu)開源模型,數量還在(zai)持(chi)續更新,同時支持(chi)云天(tian)勵飛客戶(hu)模型的(de)定制部署(shu)。

四、單芯片算力最高48TOPS,加速卡能跑70億參數大模型

通過上述架構創新,云天勵飛Edge10系列芯片有三種規格:Edge10C(8核CPU)、Edge10標準版(10核CPU)、Edge10Max(40核CPU),峰值算力分別為8TOPS、12TOPS、48TOPS,總體性能比上一代芯片高出20倍;統一內(nei)存(cun)最(zui)高32GB,內(nei)存(cun)帶寬最(zui)高120GB/s。

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世

其中,Edge10CEdge10標準版適用于邊緣計算領域;Edge10Max適用于(yu)邊緣CV大模型,單芯片能跑SAM視覺大模型。

相應的出貨形態包括芯片、板卡、盒子、加速卡、推理服務器等,可廣(guang)泛應用于AIoT邊(bian)緣視(shi)頻、移動機(ji)器人等場景(jing)。

Edge10適用于邊緣設備和邊緣服務器,在Edge Device上運行70億參數大語言模型,生成速度可達27Tokens/s;能夠兼容運行130億參數大語言模型

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世

第(di)一代Edge Server基(ji)于DeepEye1000小算力芯片(pian)。基(ji)于Edge10系列(lie)芯片(pian)的IPU X2000、IPU X5000、IPU X6000加速卡(ka),算力從24TOPS到256TOPS。

經C2C Mesh擴展,AI算力能達到1024TOPS,在Edge Server上運行700億參數大語言模型,可實現42Token/s的生成速度;能夠兼容運行千億級參數大語言模型、百億級參數視覺大模型,未來將兼容多模態大模型

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世

五、落地邊緣計算三大應用場景,助攻AI電腦跑AIGC應用

DeepEdge10芯片布局邊緣計算的三大芯片平臺解決方案:感知計算、視頻高密、大模型推理

感知計算場景下,基于Edge10和Edge10Max芯(xin)片,云(yun)天勵飛(fei)打造了能支持多傳感(gan)器(qi)接入的主板(ban)方案,可以滿足機器(qi)人自主導(dao)航(hang)和運(yun)動、無人機自主避(bi)障與(yu)導(dao)航(hang)、汽車智能安全駕駛控制(zhi)、家居系統智能控制(zhi)等應用場景的感(gan)知要求。

視頻高密場景下,芯(xin)片、加速(su)卡結(jie)合(he)云(yun)天勵(li)飛過去幾年(nian)在公共安全領(ling)域及行業(ye)領(ling)域積累的(de)專業(ye)算法和(he)長尾(wei)算法,共同形成了面向嵌入(ru)式(shi)邊緣計算端設備的(de)單芯(xin)片主控方(fang)案和(he)加速(su)卡方(fang)案,這些(xie)方(fang)案可以(yi)滿足智(zhi)能化園區管理(li)、消防應急管理(li)、智(zhi)慧物業(ye)、智(zhi)慧城市治理(li)等(deng)場景的(de)視頻高密需要。

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世

像IPU X6000單卡可支持320路視(shi)頻處(chu)理,算(suan)力有(you)256TOPS。一臺服務器可以(yi)插8張卡,相當于實現超過(guo)2500路的視(shi)頻高密方案。

大模型推理方面,在Edge Device上,Edge10可作為當前信創PC的算力協處理器方案,把大模型的能力應用到傳統信創PC上,讓信創PC能跑AIGC辦公應用,包括文案生成、代碼生成、智能決策、增強設計等

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世

在Edge Server上,基于IPU X6000的算力(li)加速卡(ka)(ka)方案,可實現1~8卡(ka)(ka)靈活擴展(zhan)的服務器部署,滿足行(xing)業大模型和(he)場景大模型集中(zhong)化的推進。

據(ju)李愛(ai)軍透露,云天勵飛會(hui)優先選擇在(zai)一些邊緣計算場景的頭(tou)部行業玩家進行深度合(he)作,提供Edge10系列芯片(pian)和產品(pin),再逐步對外開放。

六、披露八年自研芯片路線圖,以三年為周期進行迭代

云天勵飛自2014年成立至今,一直堅(jian)持自主研發芯(xin)(xin)片,沉淀(dian)“算(suan)法芯(xin)(xin)片化”的核心能力,其核心芯(xin)(xin)片團隊(dui)設(she)計經驗平均超過14年。

“算法芯片化”并(bing)不(bu)是簡單的(de)“算(suan)法+芯(xin)片(pian)”,而是云天勵飛基于(yu)對場(chang)景的(de)理解,以及對算(suan)法關鍵計算(suan)任(ren)務在(zai)應用(yong)場(chang)景中的(de)量(liang)化分析,將芯(xin)片(pian)設(she)計者的(de)理念、思想與算(suan)法相(xiang)融合的(de)AI芯(xin)片(pian)設(she)計流(liu)程,能夠讓(rang)AI芯(xin)片(pian)在(zai)實際應用(yong)中發揮(hui)更優的(de)效(xiao)果。

在“算法芯片化”核心能力的支持下,云天勵飛已完成3代指令集架構、4代神經網絡處理器架構的研發,且已陸續商用

據云天勵(li)飛(fei)董事長兼CEO陳(chen)寧博士分享,從(cong)第一代芯片(pian)起,云天勵(li)飛(fei)的自(zi)研芯片(pian)就一直定位(wei)在邊緣計算,與其系統產品(pin)相(xiang)(xiang)輔相(xiang)(xiang)成,落地到智(zhi)慧城(cheng)市、智(zhi)能(neng)(neng)交通、智(zhi)能(neng)(neng)制造、智(zhi)慧教育、智(zhi)能(neng)(neng)配送(song)、邊緣計算模型等場景中。

其第(di)一(yi)代(dai)芯片DeepEye1000在(zai)2020年(nian)(nian)初實(shi)現商(shang)用,過去(qu)四(si)年(nian)(nian)多應用在(zai)人臉門(men)禁和AI相機(ji)、工業AI相機(ji)和安(an)全PC、商(shang)業機(ji)器人等邊緣(yuan)計算設備中。最新推出的DeepEdge10邊緣(yuan)推理芯片,采用云天勵飛的第(di)二(er)代(dai)異構(gou)多核架構(gou)、第(di)一(yi)代(dai)Chiplet架構(gou),相較上一(yi)代(dai)性能整(zheng)體提升(sheng)。

國內首創!高交會上,國產14nm Chiplet大模型推理芯片問世

“我們基本上是以三年為一個周期,相信2025年我們將會推出DeepEdge20,推動我們的性能以20倍以上的速度進行提升。”陳寧說。

按(an)其“劇透”,下(xia)一代(dai)(dai)DeepEdge20芯片(pian)將采用第(di)三代(dai)(dai)異構多核(he)架構、第(di)二(er)代(dai)(dai)Chiplet架構,內置(zhi)多核(he)RISC-V、第(di)四代(dai)(dai)自研NPU。

七、擁有近30家算法芯片化合作伙伴,已開放超過100種算法

一(yi)路走來,云天勵飛(fei)神經(jing)網(wang)絡處(chu)理器的核(he)心技術(shu)和芯片的能(neng)力逐步獲得(de)行業內(nei)合作伙伴的認可(ke)。

其自研芯片曾先后獲(huo)得工(gong)信部、發(fa)改委、科技部三大部委人工(gong)智能專(zhuan)項(xiang)(xiang),并獲(huo)得吳文俊(jun)人工(gong)智能專(zhuan)項(xiang)(xiang)獎芯片項(xiang)(xiang)目一等獎,已(yi)被(bei)國內頂(ding)尖芯片設計公司采(cai)用(yong),芯片進入了大規模應(ying)用(yong)中(zhong)。

李愛軍認為,國際AI芯片巨頭最堅不可摧的壁壘是生態,走兼容路線只是短期內的權宜之計,從長遠來看,國內芯片企業必須實打實地持續投入軟件研發和生態構筑

云天勵飛現有近30家算法芯片化合作伙伴,并將合作伙伴需求植入下一代芯片中;還打造了開放的算法應用生態,所有使用云天芯片產品的合作伙伴,均可在線下載更新其超過100種算法。

在(zai)2020年的高交會上,云(yun)天勵飛首次(ci)公布自進化城市智(zhi)能(neng)體戰略。

而驅動自進化城市智能體發展的核心邏輯,是打造“應用生產數據、數據訓練算法、算法定義芯片、芯片規模化賦能應用”的數據飛輪。

對(dui)于(yu)云天勵飛自身來說(shuo),芯(xin)片是決(jue)定(ding)AI應用(yong)廣(guang)度與深(shen)度的(de)關鍵載體(ti)(ti),也是自進化城市智(zhi)能體(ti)(ti)建(jian)設的(de)重(zhong)要算力(li)(li)支撐。今天發布的(de)大(da)(da)模(mo)型推理(li)芯(xin)片,是其(qi)自進化城市智(zhi)能體(ti)(ti)底層核心算力(li)(li)平臺補(bu)齊大(da)(da)模(mo)型能力(li)(li)的(de)重(zhong)要成果展示。

陳寧(ning)談道(dao),未來,云天勵飛將(jiang)繼(ji)續加大(da)自主研發(fa)力度,立足自主可控,以自研“芯”,為自進化(hua)城市智能(neng)體發(fa)展提供強大(da)引擎。

結語:大模型正向邊緣端滲透,AI推理芯片研發需結合本土落地需求

生成式AI和大模(mo)型(xing)的(de)應用(yong)落地正逐步(bu)從云端(duan)向邊緣和終(zhong)端(duan)進行(xing)(xing)滲透,最(zui)新一(yi)代的(de)智(zhi)能手機、個人電(dian)腦(PC)等邊緣端(duan)側設(she)備已經(jing)具備在本(ben)地部署運行(xing)(xing)百億級參(can)數(shu)大模(mo)型(xing)的(de)能力。

在陳寧看來(lai),訓練、生產(chan)大(da)模型不是(shi)目的,千行百業的落地和應用才是(shi)最終(zhong)目的,所謂(wei)邊緣(yuan),不管是(shi)機器(qi)人、無(wu)人駕駛汽車、新型智能傳(chuan)感,還是(shi)未來(lai)的智慧硬件和腦(nao)機接口芯片,需要的都是(shi)大(da)模型推理芯片。

今天,大模型(xing)推(tui)理芯(xin)片(pian)還(huan)是百家爭鳴的(de)景象,尤(you)其(qi)在中國,我們要考慮如何基于國產工藝進行技術(shu)攻關和生態(tai)建(jian)設,打造出契合本土落地需(xu)求的(de)AI芯(xin)片(pian)。

展望未(wei)來(lai),陳寧預(yu)言,未(wei)來(lai)三年(nian)(nian),可能會(hui)(hui)有80%以(yi)上的(de)企業(ye)將運行在(zai)大(da)模(mo)型之上;未(wei)來(lai)五年(nian)(nian),機器人(ren)和(he)數字人(ren)的(de)數量將超過人(ren)類(lei)的(de)數量;未(wei)來(lai)七年(nian)(nian),也就(jiu)是到2030年(nian)(nian),大(da)模(mo)型的(de)智慧程度將超過人(ren)腦(nao),GPT10.0的(de)版本將會(hui)(hui)具備(bei)1萬億的(de)參數體(ti)量,相當于(yu)是人(ren)腦(nao)末梢(shao)神經連接的(de)數量。

“我們正在踏入第四(si)次(ci)工業革命的開端,未(wei)來已來。”他也透露了云天勵飛將(jiang)會在今年年底發布大模型,說敬請期待。