
芯東西(公眾號:aichip001)
作者 | ?GACS
芯(xin)東西9月6日(ri)報道,一(yi)年一(yi)度(du)的全球AI芯(xin)片峰會(GACS 2024)今(jin)日(ri)在北(bei)京火爆開幕。現場(chang)座(zuo)無虛席,云直播全網(wang)觀看(kan)人數達到120萬(wan)人次。
大會由智一(yi)科技旗下芯東西聯(lian)合智猩猩發(fa)起主辦,以「智算紀元 共筑(zhu)芯路」為主題(ti),邀請50+位嘉賓來(lai)自AI芯片、Chiplet、RISC-V、智算集群、AI Infra等(deng)領域的(de)嘉賓與會作干貨分享。
正值國產(chan)GPGPU獨角獸壁仞(ren)科技成立五周年,會上(shang),壁仞(ren)科技宣布(bu)取(qu)得(de)多芯混訓(xun)核(he)心技術突破,打造出(chu)異構GPU協同(tong)(tong)訓(xun)練(lian)方案HGCT,業界首次能夠(gou)支持3種及以上(shang)異構GPU訓(xun)練(lian)同(tong)(tong)一(yi)個(ge)大模型。
▲壁仞科技(ji)推出國產異構GPU協(xie)同(tong)訓練方(fang)案HGCT
智一科技聯合創始人、CEO龔倫常作為(wei)主辦方(fang)發表(biao)致(zhi)辭(ci),今(jin)年(nian)(nian)是(shi)全球(qiu)AI芯(xin)片峰(feng)會舉辦的(de)第七年(nian)(nian),峰(feng)會已成為(wei)國(guo)內在該領域里最(zui)有影響力的(de)行(xing)業會議,是(shi)了解國(guo)內外AI芯(xin)片發展動態的(de)重要窗(chuang)口。
▲智(zhi)一(yi)科(ke)技聯合(he)創始人、CEO龔(gong)倫常
全球AI芯片(pian)(pian)峰(feng)會(hui)(hui)為(wei)期(qi)兩日,主會(hui)(hui)場包(bao)括開幕(mu)式(shi)和(he)三大專場(AI芯片(pian)(pian)架構、數據中心AI芯片(pian)(pian)、邊緣端AI芯片(pian)(pian)),分會(hui)(hui)場包(bao)括Chiplet技(ji)術(shu)論壇(tan)、智算集(ji)群技(ji)術(shu)論壇(tan)和(he)RISC-V創新論壇(tan)。
在開幕式(shi)上,清華(hua)大(da)學教授、集成(cheng)電路學院(yuan)副院(yuan)長尹首一以《高算力(li)芯片(pian)(pian)發(fa)展(zhan)路徑(jing)探(tan)討:從計算架構到集成(cheng)架構》為(wei)題(ti)進行主(zhu)題(ti)報告,系統性復盤了高算力(li)芯片(pian)(pian)存在的(de)技(ji)術挑戰,并全(quan)面分析五條創(chuang)新技(ji)術路徑(jing):數據流芯片(pian)(pian)、存算一體芯片(pian)(pian)、可重(zhong)構芯片(pian)(pian)、三(san)維集成(cheng)芯片(pian)(pian)、晶圓級芯片(pian)(pian)。
今日有21位來自頂尖高(gao)校及科(ke)研院所、AI芯(xin)(xin)(xin)片(pian)(pian)企業的專家、創(chuang)(chuang)業者及高(gao)管進行分(fen)享(xiang)。其中(zhong),高(gao)端(duan)對話環節邀請(qing)了三(san)家AI芯(xin)(xin)(xin)片(pian)(pian)創(chuang)(chuang)企代表(biao)激情交(jiao)辯(bian),分(fen)別是國產大算(suan)力芯(xin)(xin)(xin)片(pian)(pian)獨角(jiao)獸壁仞科(ke)技、端(duan)側(ce)與(yu)邊緣側(ce)AI芯(xin)(xin)(xin)片(pian)(pian)獨角(jiao)獸愛(ai)芯(xin)(xin)(xin)元智,還有一家僅(jin)創(chuang)(chuang)立半年的年輕(qing)AI芯(xin)(xin)(xin)片(pian)(pian)創(chuang)(chuang)企凌川科(ke)技。他們集中(zhong)探討了AI芯(xin)(xin)(xin)片(pian)(pian)產業現(xian)狀、最新實踐與(yu)進階方向。
一、破解大模型算力供需挑戰,架構創新突圍性能瓶頸
清華大學教(jiao)授、集成電路學院副(fu)院長(chang)尹首一解讀了大模型時(shi)代算力供需間的(de)困難:芯片工(gong)藝(yi)面(mian)臨Scaling-down極限(xian),致使工(gong)藝(yi)紅利(li)帶來的(de)算力提升(sheng)難以(yi)為(wei)繼;系統面(mian)臨Scaling-out瓶頸(jing),通信帶寬不足(zu)導(dao)致系統性能損失。
破解(jie)這兩大難題的(de)機會(hui)在(zai)于(yu)算(suan)(suan)(suan)力(li)芯片(pian)計算(suan)(suan)(suan)架(jia)構(gou)和集成架(jia)構(gou)的(de)聯合創(chuang)(chuang)新:計算(suan)(suan)(suan)架(jia)構(gou)創(chuang)(chuang)新使每個晶體管(guan)都被充(chong)分利(li)用(yong)、發(fa)揮更強算(suan)(suan)(suan)力(li);集成架(jia)構(gou)創(chuang)(chuang)新使芯片(pian)規模(mo)能夠突破極(ji)限。
當(dang)前高算力(li)芯(xin)片發(fa)展有(you)五條(tiao)新(xin)技(ji)術路徑(jing):數據流芯(xin)片、可(ke)重構芯(xin)片、存算一體(ti)芯(xin)片、三維集成芯(xin)片、晶圓(yuan)級芯(xin)片。這些路徑(jing)都(dou)不完全依賴于(yu)最先進(jin)的制造工(gong)藝,有(you)助于(yu)為國(guo)內芯(xin)片產業(ye)開辟算力(li)提(ti)升新(xin)空間。
▲清華(hua)大學(xue)教授、集成(cheng)電路學(xue)院副院長尹首一(yi)
AMD在端(duan)到端(duan)的(de)(de)AI基礎設(she)(she)施領域打造了全面(mian)的(de)(de)產品線,覆蓋(gai)從數據中心(xin)服務(wu)器、AI PC到智能嵌(qian)入式(shi)和邊緣(yuan)設(she)(she)備,并提供(gong)領先的(de)(de)AI開源軟件及(ji)開放的(de)(de)生態系統。AMD基于(yu)先進ZEN4架(jia)構設(she)(she)計的(de)(de)CPU處理(li)器平臺、基于(yu)CDNA3架(jia)構面(mian)向AI推(tui)理(li)&訓練(lian)的(de)(de)MI系列(lie)加速器,已被(bei)微軟等巨(ju)頭采用。
據(ju)(ju)AMD人工智能(neng)事(shi)業部高級總監(jian)王宏強分享,AMD還(huan)在推動數(shu)據(ju)(ju)中(zhong)心(xin)高性能(neng)網(wang)絡(luo)基礎設施(UALink,Ultra Ethernet),這對AI網(wang)絡(luo)結構需要支持快(kuai)速切換和極低延遲(chi)、擴展AI數(shu)據(ju)(ju)中(zhong)心(xin)性能(neng)至關(guan)重(zhong)要。
AMD即將發(fa)布下(xia)一代高性能AI PC,其基(ji)于第二(er)代XDNA架構的Ryzen AI NPU,可提(ti)(ti)供(gong)50TOPS算力(li),將能效比(bi)提(ti)(ti)高至通用架構的35倍。在AI PC對隱(yin)私、安全和數據自主(zhu)性的推動下(xia),重要(yao)的AI工作負載開(kai)始部署(shu)在PC上。作為(wei)全球領先的AI基(ji)礎設(she)施(shi)提(ti)(ti)供(gong)商之一,AMD愿意攜手廣大客戶與開(kai)發(fa)者(zhe)共建變革性未來。
自2015年以(yi)來,高通(tong)一直在根(gen)據AI應用(yong)用(yong)例的(de)(de)變化,不斷革新NPU硬件(jian)設計(ji)。以(yi)第三代(dai)驍龍8為代(dai)表,高通(tong)AI引(yin)擎(qing)采用(yong)集(ji)成(cheng)(cheng)CPU、GPU、NPU等多種處(chu)(chu)理(li)器(qi)的(de)(de)異構(gou)計(ji)算架(jia)構(gou)。其中,高通(tong)Hexagon NPU通(tong)過大片上內存、加速器(qi)專用(yong)電源(yuan)、微架(jia)構(gou)升級(ji)等設計(ji)來優化性能和能效(xiao)(xiao)。AI的(de)(de)用(yong)例豐富,算力要求不一,因此(ci)異構(gou)計(ji)算和處(chu)(chu)理(li)器(qi)集(ji)成(cheng)(cheng)的(de)(de)需求會長(chang)期存在,這也將帶來峰值性能、能效(xiao)(xiao)、成(cheng)(cheng)本等方面的(de)(de)一系列(lie)提升。
高(gao)(gao)(gao)通(tong)(tong)的(de)產品(pin)線覆蓋手機、PC、XR、汽車、IoT等(deng)豐富的(de)邊緣(yuan)側(ce)應用(yong)場景(jing),能夠(gou)支持開發者在(zai)不同(tong)產品(pin)形態(tai)中利用(yong)高(gao)(gao)(gao)通(tong)(tong)的(de)AI軟硬件解決(jue)方案進行算法加速(su),為(wei)消費(fei)者帶來豐富的(de)終端側(ce)AI體驗和(he)用(yong)例。最后,高(gao)(gao)(gao)通(tong)(tong)AI產品(pin)技術中國區負責人萬衛星還預告(gao),搭載最新的(de)高(gao)(gao)(gao)通(tong)(tong)Oryon CPU的(de)下一代(dai)驍龍(long)移動平臺,即將在(zai)今年(nian)10月21-23日舉(ju)行的(de)驍龍(long)峰會上(shang)發布(bu)。
▲高通(tong)AI產品技術中國區負責人萬衛星(xing)
蘋芯(xin)科技(ji)聯合創始人(ren)兼CEO楊越拆解了存(cun)算(suan)一體技(ji)術的(de)進階(jie)過程。產業(ye)界(jie)主流芯(xin)片(pian)的(de)出現(xian)和成長(chang)與當下計算(suan)需求的(de)特點緊密相關,2015年(nian)前后(hou),計算(suan)體系結構中的(de)計算(suan)瓶頸從處理器端(duan)向存(cun)儲端(duan)遷移,尤其(qi)是神(shen)經網絡的(de)出現(xian),加(jia)快了AI芯(xin)片(pian)計算(suan)效率(lv)的(de)提升節奏(zou),存(cun)算(suan)技(ji)術因此受(shou)到(dao)關注。
楊越認為(wei),在大模型時代,存(cun)(cun)算一(yi)體技術的(de)機會是能夠在有數據(ju)存(cun)(cun)儲的(de)地方都加入計算。隨著軟件不斷(duan)發展,基于存(cun)(cun)算的(de)端側芯片今年已經逐(zhu)步成熟。未(wei)來,在云端解(jie)決數據(ju)帶寬瓶頸,或將成為(wei)存(cun)(cun)算芯片下一(yi)個殺手級(ji)應用。
▲蘋芯科技(ji)聯合創始(shi)人兼CEO楊(yang)越
北極(ji)雄芯(xin)(xin)(xin)(xin)CTO譚(tan)展宏談道,在(zai)高性(xing)能(neng)計算領域,服(fu)(fu)務器(qi)設計有兩種不(bu)同(tong)的范式:標(biao)準(zhun)服(fu)(fu)務器(qi)形態和(he)定(ding)制服(fu)(fu)務器(qi)架構(gou)。在(zai)標(biao)準(zhun)服(fu)(fu)務器(qi)形態下(xia),北極(ji)雄芯(xin)(xin)(xin)(xin)關注(zhu)于(yu)在(zai)標(biao)準(zhun)約束的面積下(xia),通(tong)過合適的芯(xin)(xin)(xin)(xin)粒拆分與封裝方案,實現(xian)更高的性(xing)價比;在(zai)非標(biao)準(zhun)服(fu)(fu)務器(qi)形態下(xia),提供了(le)晶(jing)圓級集成的機會(hui),關注(zhu)于(yu)芯(xin)(xin)(xin)(xin)片與系統(tong)設計一體(ti)化,對服(fu)(fu)務器(qi)與芯(xin)(xin)(xin)(xin)片進行(xing)協同(tong)設計,旨在(zai)達到“服(fu)(fu)務器(qi)即芯(xin)(xin)(xin)(xin)片”的目(mu)標(biao)。
特別地(di),譚展宏強調(diao)了不同(tong)芯(xin)片的(de)(de)設計(ji)有不同(tong)的(de)(de)帶寬需求,例如在7nm以上工藝下,結合部署通信優(you)化(hua),往往不需要很(hen)高(gao)的(de)(de)互(hu)(hu)連帶寬密度(du),因此先進封(feng)裝并(bing)不是(shi)必需的(de)(de),基(ji)于2D的(de)(de)封(feng)裝即可滿足性(xing)能需求并(bing)實(shi)現高(gao)性(xing)價(jia)比方案。北極(ji)雄芯(xin)基(ji)于《芯(xin)粒互(hu)(hu)聯接口(kou)標準》的(de)(de)PB-Link IP,正式實(shi)現了低封(feng)裝成本的(de)(de)互(hu)(hu)連實(shi)現,目前已開始對(dui)外授(shou)權。
二、高端對話:國產AI芯片造血能力增強,最年輕創企產品已落地快手
智一(yi)科技聯合(he)創始(shi)人(ren)、總(zong)編輯張(zhang)國仁(ren),與(yu)(yu)壁仞科技副(fu)總(zong)裁兼(jian)AI軟件首(shou)席架構師丁云(yun)帆,凌川科技聯合(he)創始(shi)人(ren)、副(fu)總(zong)裁劉理,愛芯元智聯合(he)創始(shi)人(ren)、副(fu)總(zong)裁劉建偉(wei),展(zhan)開了一(yi)場以“國產AI芯片落地(di)的共識(shi)、共創與(yu)(yu)共贏”為主題(ti)的圓桌對(dui)話。
張國仁在圓桌對話開(kai)始時稱,由(you)智東西、芯(xin)東西、智猩(xing)猩(xing)發起舉辦六屆(jie)的(de)(de)AI芯(xin)片峰會,是(shi)國內該領域持續時間最長(chang)的(de)(de)專業(ye)會議(yi),這幾年見證了(le)AI芯(xin)片和(he)大模型的(de)(de)蓬(peng)勃發展(zhan),也見證了(le)一批國內造芯(xin)“新勢力(li)”的(de)(de)崛(jue)起。
▲智一(yi)科技聯(lian)合創(chuang)始人、總編輯張國仁(ren)
丁云帆談道(dao),大(da)算力芯(xin)(xin)片是技術密(mi)集(ji)(ji)、人才密(mi)集(ji)(ji)、資金密(mi)集(ji)(ji)的(de)行(xing)業(ye)。作(zuo)為市場(chang)中已公開融資規模最大(da)的(de)芯(xin)(xin)片獨角獸,壁(bi)仞科技擁有頂級人才,第一(yi)代(dai)產(chan)(chan)品已量產(chan)(chan)落(luo)地,多個國(guo)產(chan)(chan)GPU千(qian)卡集(ji)(ji)群已經(jing)落(luo)地,能(neng)獨立造(zao)血。但國(guo)產(chan)(chan)芯(xin)(xin)片行(xing)業(ye)整體情況仍(reng)然(ran)不易,生態方面和國(guo)外仍(reng)有差距。
很多國產(chan)(chan)AI芯片已經開始落地(di)于(yu)數據中心、智算中心。在丁云(yun)帆看(kan)來,英偉達面向國內的(de)產(chan)(chan)品性價比(bi)并不高,國產(chan)(chan)芯片只(zhi)要(yao)能做(zuo)出(chu)性能、做(zuo)出(chu)性價比(bi),就會有市場。目前(qian)國內芯片產(chan)(chan)業落地(di)消(xiao)息越來越多、造(zao)血能力(li)增強,與英偉達之(zhi)間的(de)差距(ju)會逐(zhu)漸縮小。
▲壁(bi)仞(ren)科技副總裁兼AI軟件首席架構(gou)師丁云帆
劉(liu)建偉認為,低成本(ben)是很重要的(de)部分(fen),企(qi)業最終還是要算賬,企(qi)業對(dui)基礎設(she)施的(de)投資一定(ding)要賺回來(lai)。劉(liu)理相信后期(qi)在具身(shen)智(zhi)能、智(zhi)能視頻等細分(fen)賽道,更多企(qi)業的(de)進入,將帶來(lai)比通用產品(pin)更高的(de)價值,會壓縮(suo)英偉達的(de)營收和利潤(run)。
凌川(chuan)科技是(shi)最年輕的國(guo)內(nei)AI芯片創企之一(yi),今年3月剛成立,已完成一(yi)輪融資,目(mu)前(qian)在售的智(zhi)能視(shi)頻處理(li)(li)芯片已落地快手(shou),占(zhan)快手(shou)視(shi)頻處理(li)(li)領域用量的99%,大算力推理(li)(li)芯片預計(ji)明年初流片。
在劉理(li)看(kan)來(lai),距(ju)離AI芯片(pian)市場窗(chuang)口關閉(bi)還很遠,面對巨頭在資源、資金、生態上的(de)優勢(shi),創(chuang)企需要在垂直、細分領域(yu)發力(li)。凌(ling)川科技將智能視頻處理(li)、AI推理(li)算力(li)結(jie)合,目(mu)標是將其每Token推理(li)成本降到英(ying)偉(wei)達H800的(de)10%。
▲凌(ling)川(chuan)科(ke)技(ji)聯合創始(shi)人(ren)、副總裁劉理
面向端(duan)側(ce)(ce)、邊(bian)緣側(ce)(ce)的愛芯(xin)元智(zhi),市占率均(jun)取得了矚(zhu)目的成績。劉建偉認為這兩個領域(yu)實現(xian)商(shang)業閉環的速度會(hui)更快。他補(bu)充說,做AI芯(xin)片(pian)最終一(yi)定會(hui)賺錢,但實際(ji)盈(ying)利的時間表會(hui)受到AI部署(shu)成本等因素的影響,企業應盡快實現(xian)自(zi)我造血和閉環。未來,愛芯(xin)元智(zhi)將在(zai)端(duan)側(ce)(ce)和邊(bian)緣側(ce)(ce)大模型落地場景進行(xing)探索。
愛(ai)芯(xin)元智在汽(qi)車領域的(de)產(chan)品出貨量十(shi)分(fen)可觀(guan),劉建偉談道,這是因為(wei)智慧城市和汽(qi)車的(de)底層芯(xin)片技術類似,愛(ai)芯(xin)元智在智慧城市上積累了成熟(shu)技術再(zai)進入(ru)智能(neng)駕(jia)駛可以(yi)較快實現量產(chan)。同時,汽(qi)車領域價格(ge)戰將推動產(chan)業分(fen)工是機遇期。
▲愛芯元智聯合(he)創始人、副(fu)總裁劉建偉(wei)
對(dui)(dui)于國產AI芯片(pian)如(ru)何快速(su)找到(dao)(dao)生態位,劉建偉(wei)以(yi)愛芯元智(zhi)(zhi)的(de)深耕場(chang)景(jing)為例(li),智(zhi)(zhi)慧城市基本沒有國外(wai)公司,在智(zhi)(zhi)能駕駛領(ling)域英偉(wei)達開(kai)拓(tuo)0到(dao)(dao)1階(jie)段,1到(dao)(dao)100更(geng)關注成本的(de)階(jie)段就是國內企(qi)業的(de)機會。丁云帆提(ti)到(dao)(dao)四個要素:穩(wen)定可(ke)靠(kao)的(de)供應(ying)保障、性(xing)價(jia)比、針對(dui)(dui)客戶需求提(ti)供高(gao)效支持(chi)服務(wu)、高(gao)效易用。劉理(li)認為應(ying)該在垂直領(ling)域深耕,做出比通用芯片(pian)更(geng)高(gao)效、優化(hua)的(de)解決方案(an)。
展(zhan)(zhan)望未(wei)來(lai),劉(liu)建偉預測未(wei)來(lai)4-5年,端側(ce)和云(yun)側(ce)都將出(chu)現很大的(de)(de)(de)發(fa)展(zhan)(zhan)機遇,產(chan)業(ye)界落地成本降低(di)后,數(shu)據可以(yi)實(shi)現更大的(de)(de)(de)價(jia)值。劉(liu)理認為隨著AI應用(yong)迎來(lai)爆發(fa)期,云(yun)側(ce)將產(chan)生大量推理需(xu)求。丁云(yun)帆談到國內的(de)(de)(de)高(gao)端算力(li)仍然稀缺(que),但產(chan)業(ye)鏈(lian)的(de)(de)(de)協同可以(yi)實(shi)現穩健的(de)(de)(de)發(fa)展(zhan)(zhan)。
三、智算中心建設潮起:壁仞GPU新突破,國產TPU拼落地,Chiplet贏麻了
在下午舉行的(de)數據中(zhong)心(xin)(xin)AI芯片(pian)專(zhuan)場,Habana中(zhong)國(guo)區負責人于明(ming)揚談道,近三年有大約50+政府主導(dao)的(de)智算中(zhong)心(xin)(xin)陸續建(jian)成(cheng)、60+在規劃和建(jian)設中(zhong),智算中(zhong)心(xin)(xin)建(jian)設逐(zhu)(zhu)漸(jian)從一線(xian)城(cheng)市向二三線(xian)城(cheng)市下沉,從政府主導(dao)逐(zhu)(zhu)漸(jian)轉向企業(ye)主導(dao),對成(cheng)本壓縮、投資(zi)回報(bao)周期的(de)要求也逐(zhu)(zhu)漸(jian)提升。
據他(ta)觀察(cha),當前大模型開(kai)發日趨(qu)成(cheng)熟,推(tui)理需(xu)求持(chi)續(xu)增長,頭部(bu)CSP自研(yan)推(tui)理芯(xin)片(pian)的(de)增速將提高(gao),未來推(tui)理側(ce)可(ke)能培育(yu)出多家異構芯(xin)片(pian)企業。
國(guo)外(wai)大模(mo)型訓練需求仍(reng)將旺盛(sheng),國(guo)內(nei)模(mo)型訓練對算力的(de)需求基本飽(bao)和,主要來自微調業務。要支撐未來AI發展,Chiplet、高速(su)大容量內(nei)存、私有(you)/通用高速(su)互聯技術(shu)的(de)融合將起(qi)關(guan)鍵作用。
為了打(da)破大(da)模(mo)型異構算力(li)孤(gu)島難題(ti),壁仞(ren)科技副總(zong)裁兼AI軟件首席(xi)架構師丁(ding)云帆宣布推出壁仞(ren)自(zi)主(zhu)原創的(de)異構GPU協(xie)(xie)同訓(xun)(xun)練(lian)(lian)方案HGCT。這是(shi)業界首次實現支持(chi)3種(zhong)及以上異構GPU協(xie)(xie)同訓(xun)(xun)練(lian)(lian)同一(yi)個大(da)模(mo)型,即支持(chi)用「英(ying)偉達+壁仞(ren)+其他品牌GPU」混訓(xun)(xun),通信效(xiao)率大(da)于98%,端到(dao)端訓(xun)(xun)練(lian)(lian)效(xiao)率達到(dao)90~95%。
壁仞正在聯合(he)客戶、合(he)作伙伴等共同推動異(yi)構GPU協同訓練(lian)生(sheng)態,包括中國電信、中興通訊(xun)、商湯科(ke)技、國網智研院、上海智能算力科(ke)技有限公司、上海人(ren)工智能實驗(yan)室(shi)、中國信通院等。
其(qi)產品已(yi)在多個千卡GPU集(ji)群(qun)開(kai)始商用落地。壁(bi)仞研發了(le)軟硬(ying)一體(ti)、全棧優化、異構(gou)協同、開(kai)源開(kai)放的大模型(xing)整體(ti)解決方案(an)。壁(bi)仞首次實(shi)現大模型(xing)3D并行任(ren)務自動(dong)彈性(xing)擴縮容,保持集(ji)群(qun)利用率近100%;已(yi)實(shi)現千卡集(ji)群(qun)千億參數模型(xing)10分鐘自動(dong)恢復、4天無故障、15天不中斷的效果。
▲壁仞科技副(fu)總裁(cai)兼(jian)AI軟(ruan)件首席架構師丁云帆(fan)
中昊芯英聯合創始(shi)人、CTO鄭(zheng)瀚(han)尋談道,如今的(de)(de)AI大模(mo)型遠超計算(suan)(suan)歷史任一時(shi)刻的(de)(de)計算(suan)(suan)復雜度和(he)算(suan)(suan)力需求量,需要更擅長AI計算(suan)(suan)的(de)(de)專用芯片。相(xiang)較(jiao)(jiao)于(yu)GPU最初主(zhu)要設計用于(yu)實時(shi)渲染和(he)圖像處理,TPU的(de)(de)設計則主(zhu)要用于(yu)機器學(xue)習(xi)、深度學(xue)習(xi)模(mo)型和(he)神經網絡(luo)計算(suan)(suan),針對張量運算(suan)(suan)進行了高度優化,單個(ge)的(de)(de)脈動陣列架構吞(tun)吐(tu)量和(he)處理效率相(xiang)較(jiao)(jiao)GPU有了更大提升(sheng)。
中(zhong)昊(hao)芯(xin)英自研的(de)(de)“剎(cha)那”芯(xin)片是中(zhong)國首枚已量(liang)產的(de)(de)高(gao)性能(neng)(neng)TPU架構AI芯(xin)片,綜合測算(suan)算(suan)力(li)性能(neng)(neng)、成本、能(neng)(neng)耗后,單位算(suan)力(li)成本僅為海外領先GPU的(de)(de)50%。鄭瀚(han)尋認為,大模型發展后期(qi),千卡、萬卡集(ji)(ji)群(qun)的(de)(de)最佳費效(xiao)比將至關重要(yao),剎(cha)那芯(xin)片多達(da)1024片芯(xin)片間的(de)(de)直接(jie)高(gao)速互(hu)聯,在構建大規(gui)模計算(suan)集(ji)(ji)群(qun)時的(de)(de)系統(tong)集(ji)(ji)群(qun)性性能(neng)(neng)可遠超(chao)傳(chuan)統(tong)GPU數倍。
▲中昊芯英聯合(he)創始人(ren)、CTO鄭瀚尋(xun)
據浪潮信息開放(fang)加速計算產品負(fu)責人(ren)Stephen Feng分享(xiang),隨著大模(mo)型參數規模(mo)增加,生成(cheng)(cheng)式AI的(de)發展(zhan)面臨四(si)大挑戰:集群(qun)(qun)擴展(zhan)性不足(zu)、芯片功耗高、集群(qun)(qun)部署難(nan)、系統可靠性低四(si)大挑戰。浪潮信息始終堅持以(yi)應(ying)用(yong)為導向,以(yi)系統為核(he)心,通過開元開放(fang)的(de)系統激發生成(cheng)(cheng)式 AI 創新活力。
在硬件開放方(fang)(fang)面,通過建立OAM(開放加速(su)模塊)規范(fan),加速(su)先進算力的(de)上線部署,支撐(cheng)大(da)(da)模型(xing)(xing)及AI應(ying)(ying)用的(de)迭代加速(su)。在軟件開放方(fang)(fang)面,通過大(da)(da)模型(xing)(xing)開發(fa)平臺(tai)“元腦(nao)企(qi)智”EPAI ,為(wei)企(qi)業打造(zao)全流程(cheng)(cheng)應(ying)(ying)用開發(fa)支撐(cheng)平臺(tai),通過端到端的(de)解決(jue)方(fang)(fang)案,解決(jue)基(ji)礎大(da)(da)模型(xing)(xing)落(luo)地到領(ling)域存在的(de)幻覺(jue)問題,解決(jue)應(ying)(ying)用開發(fa)流程(cheng)(cheng)復(fu)雜、門(men)檻高(gao),多(duo)元多(duo)模適配(pei)難、成本高(gao)等落(luo)地難題,加速(su)企(qi)業大(da)(da)模型(xing)(xing)應(ying)(ying)用創新(xin)與落(luo)地。
▲浪潮信息(xi)開放加速計算產(chan)品(pin)負責人Stephen Feng
清(qing)程極智(zhi)成立于(yu)2023年,聚焦AI Infra賽道,團隊孵化于(yu)清(qing)華大(da)學計算機(ji)系,在智(zhi)能算力(li)優化方(fang)面,已經積累了十幾年的(de)經驗(yan)。
清程極智聯合創始人師天麾分享(xiang)道(dao),國產高性能(neng)算力系(xi)統正面臨著故(gu)障(zhang)恢復難、性能(neng)亞(ya)健康等方面的挑戰,需要10大核(he)心基礎軟件系(xi)統配合,清程極智已在其中(zhong)過半數領域擁有自研產品。
目前,清(qing)程極智已掌(zhang)握(wo)了從底層(ceng)編譯器(qi)到上層(ceng)并行計算(suan)系統的全(quan)棧技術積累(lei),實現大模型(xing)(xing)行業(ye)生態(tai)的全(quan)棧式覆蓋,完成多個在國產芯片的高吞吐量推理優(you)化和(he)主(zhu)流(liu)大模型(xing)(xing)的快速(su)移(yi)植和(he)優(you)化,計算(suan)效果提升明顯。其中,面(mian)向(xiang)超大規(gui)模國產算(suan)力集群(qun)研制的大模型(xing)(xing)訓(xun)(xun)練系統“八卦爐”,可擴(kuo)展到全(quan)機10萬臺服務(wu)器(qi)規(gui)模,用于(yu)訓(xun)(xun)練174萬億參數量的模型(xing)(xing)。
芯(xin)和(he)(he)半導體技術市場總監黃曉波(bo)談道,算力(li)需求過去(qu)20年(nian)增(zeng)長6萬倍(bei),未來(lai)10年(nian)可能達10萬倍(bei),存儲、互聯(lian)帶寬成(cheng)(cheng)為主要發展瓶頸(jing)。Chiplet集成(cheng)(cheng)系統成(cheng)(cheng)為后摩爾時代先進(jin)工(gong)藝(yi)制程限(xian)制和(he)(he)高性能算力(li)提升突破的(de)重要方向,已(yi)經(jing)廣泛(fan)應用(yong)于(yu)AI大算力(li)芯(xin)片(pian)和(he)(he)AI算力(li)集群網絡(luo)交換芯(xin)片(pian)。
對(dui)此(ci),芯和半導體為Chiplet集成(cheng)系(xi)統的設(she)計(ji)開(kai)發提(ti)供了一(yi)站式多物理(li)場仿真(zhen)(zhen)EDA平(ping)臺。該平(ping)臺支持主流工藝(yi)設(she)計(ji)互連結構(gou)參數化建模,求(qiu)解仿真(zhen)(zhen)能力(li)比其他平(ping)臺快10倍,內(nei)存僅占1/20,并內(nei)置HBM/UCIe協議分(fen)析以(yi)提(ti)升仿真(zhen)(zhen)效率,獲國內(nei)外多家(jia)頭部AI算力(li)芯片設(she)計(ji)廠商使用,幫助大算力(li)Chiplet集成(cheng)系(xi)統產品的加速(su)落(luo)地(di)。
在大模型訓練過程中,網(wang)絡(luo)基礎設施(shi)的開銷占(zhan)比(bi)達到30%,凸顯了網(wang)絡(luo)性(xing)能(neng)的重(zhong)要(yao)性(xing)。據奇異(yi)摩爾聯合(he)創(chuang)始人、產品及(ji)解(jie)決方(fang)案副總裁(cai)祝(zhu)俊東分享(xiang),網(wang)絡(luo)已成為智算(suan)性(xing)能(neng)瓶頸,構(gou)建AI網(wang)絡(luo)需要(yao)三網(wang)融合(he),即集群網(wang)間互連(lian)、機柜(ju)內(nei)互連(lian),芯片內(nei)的互聯。
大智算集群(qun)需(xu)要高(gao)(gao)性(xing)(xing)(xing)能(neng)互連(lian),Modernize RDMA與Chiplet成(cheng)為關鍵技術(shu)(shu)。為了優化RDMA,奇異(yi)摩(mo)爾的(de)NDSA網絡(luo)加(jia)速芯粒系列基(ji)(ji)于可編程眾核(he)流式架(jia)構,通過(guo)高(gao)(gao)性(xing)(xing)(xing)能(neng)的(de)數(shu)(shu)據引(yin)擎,實現高(gao)(gao)性(xing)(xing)(xing)能(neng)數(shu)(shu)據流及靈活數(shu)(shu)據加(jia)速。奇異(yi)摩(mo)爾首創的(de)GPU Link Chiplet “NDSA-G2G”,基(ji)(ji)于以(yi)太基(ji)(ji)礎(chu)設施 ,通過(guo)高(gao)(gao)性(xing)(xing)(xing)能(neng)數(shu)(shu)據引(yin)擎和D2D接口技術(shu)(shu),可實現Scale-Up網絡(luo)TB級高(gao)(gao)帶(dai)寬,性(xing)(xing)(xing)能(neng)媲美(mei)全球互連(lian)技術(shu)(shu)的(de)標(biao)桿。
▲奇異摩爾聯合創始人(ren)、產品(pin)及(ji)解決方(fang)案副總(zong)裁祝俊東(dong)
Alphawave是一家針對HPC、AI和高速(su)網(wang)絡應用提供IP、Chiplet和ASIC設(she)計解(jie)決方案的(de)(de)企(qi)業。其亞太(tai)地區高級業務總監郭大瑋分享說,針對數據在傳輸過程中(zhong)面臨(lin)的(de)(de)問題,Alphawave IP產品的(de)(de)誤碼(ma)率比競(jing)品低2個(ge)數量級,還可輔助進行集成和驗(yan)證(zheng),并與Arm生態(tai)深度(du)融合。他們還能為客戶的(de)(de)SoC提供全生命周期的(de)(de)支持。
Chiplet方面(mian),Alphawave幫助客(ke)(ke)戶縮短周期,降(jiang)低成(cheng)本,提升了良率和迭代速度,目(mu)(mu)前已做出(chu)行(xing)業內第(di)一款多協議(yi)IO連接(jie)Chiplet,今(jin)年已經流(liu)片(pian)。定(ding)制芯片(pian)方面(mian),Alphawave主(zhu)要專(zhuan)注于(yu)7nm以下(xia)的(de)工(gong)藝,可根據(ju)客(ke)(ke)戶需求完成(cheng)從規格到流(liu)片(pian)的(de)全(quan)流(liu)程,目(mu)(mu)前已實現超375次成(cheng)功(gong)流(liu)片(pian),DPPM小于(yu)25。
▲Alphawave亞太(tai)地(di)區高級業(ye)務(wu)總監郭大瑋(wei)
結語:下游智能化風起云涌,AI芯片迎歷史機遇
在邁向(xiang)通(tong)用人工智(zhi)能終極議題的道路上,AI算法的形態不斷變化,AI芯(xin)片也與之相隨。當(dang)古老(lao)的沙礫邂逅未(wei)來的機器智(zhi)能,技術與工程(cheng)智(zhi)慧交融碰(peng)撞,一顆顆凝集(ji)了(le)精微(wei)設計的AI芯(xin)片走進計算集(ji)群,步(bu)入千(qian)家萬戶,托(tuo)載(zai)起硅(gui)基生命的進化。
從(cong)智(zhi)算(suan)中心、智(zhi)能駕駛到AI PC、AI手機、新(xin)型AI硬件,下游智(zhi)能化風潮為(wei)錨定不同場景的(de)(de)AI芯片都(dou)帶來了新(xin)一(yi)波歷史機遇。快速發(fa)展(zhan)的(de)(de)生成式AI算(suan)法及應用不斷解(jie)鎖新(xin)的(de)(de)算(suan)力挑戰(zhan)。技術創(chuang)新(xin)和(he)市場需求正雙重推動AI芯片市場規模擴大,并推動AI芯片的(de)(de)競(jing)爭格局趨(qu)于(yu)多(duo)元。
9月7日,2024全球AI芯(xin)片(pian)峰會(hui)將(jiang)繼續密(mi)集(ji)輸送干(gan)貨:主會(hui)場(chang)將(jiang)舉行(xing)AI芯(xin)片(pian)架構創(chuang)新專場(chang)、邊緣/端側AI芯(xin)片(pian)專場(chang),公布「2024中(zhong)(zhong)國智(zhi)算集(ji)群解(jie)決方案企(qi)業(ye)TOP 20」、「2024中(zhong)(zhong)國AI芯(xin)片(pian)新銳企(qi)業(ye)TOP 10」兩大榜(bang)單(dan);分會(hui)場(chang)將(jiang)舉行(xing)智(zhi)算集(ji)群技術論(lun)壇(tan)、中(zhong)(zhong)國RISC-V計算芯(xin)片(pian)創(chuang)新論(lun)壇(tan)。