芯東西(公眾號:aichip001)
作者 | ?全球AI芯片峰會

芯(xin)東西9月17日(ri)報道,今(jin)日(ri),2025全球AI芯(xin)片峰會在(zai)上(shang)海(hai)舉行,來自AI芯(xin)片領(ling)域的42位(wei)產學研專家及創(chuang)業(ye)先(xian)鋒代表,暢談對大模型下半(ban)場中(zhong)國(guo)AI芯(xin)片創(chuang)新、落地、生(sheng)存、破局的最新觀察與(yu)思考(kao)。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

一如既往,大會將國產AI芯片新老勢力(li)、核心生(sheng)態鏈企業、投資機(ji)構(gou)代表(biao)匯聚一堂,集中輸出(chu)技術及產業干貨,全景式解構(gou)AI芯片熱門發(fa)展(zhan)方向。

本屆峰會由智一科技旗下智猩猩與芯東西共同舉辦,以“AI大基建 智芯新世界”為主題,由主論壇+專題論壇+技術研討會+展覽區組成,覆蓋大模型AI芯片架構創新存算一體超節點與智算集群技術等(deng)前沿議題。AWE同時也是(shi)本次峰會(hui)的戰略合作機構。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

值得(de)一(yi)提的(de)是,多家(jia)AI芯片企(qi)業在(zai)會上放(fang)出猛(meng)料(liao)。例如(ru),幾位資深(shen)投資人分享投資AI芯片企(qi)業所(suo)看(kan)重的(de)條件,一(yi)家(jia)超節點創企(qi)成(cheng)立幾個月(yue)就融資六七億,云天勵飛正(zheng)在(zai)研(yan)發新(xin)一(yi)代(dai)NPU Nova500,華為昇騰將在(zai)12月(yue)把CANN全量(liang)開源,曦望Sunrise下一(yi)代(dai)芯片的(de)大模型推理性價比對(dui)標(biao)英偉達Rubin GPU。

在展覽區,超摩科技、奎芯科技、特勵達力科、Alphawave、芯來科技、Achronix、曦望Sunrise、矩量無限、AWE、晶心科技、芯盟科技等11家展商進行展示。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲展覽區一隅

作(zuo)為(wei)主辦方代表,智一科技(ji)聯合(he)創始人、CEO龔倫常(chang)發表致(zhi)辭。從2018年3月(yue)至今,全球AI芯片(pian)峰(feng)會共(gong)邀請了超過(guo)180位產(chan)學研(yan)大咖,分享行業趨(qu)勢(shi)與(yu)洞見(jian),已成為(wei)AI芯片(pian)領域唯一一個持續舉(ju)辦且具(ju)有廣泛(fan)影響力的產(chan)業峰(feng)會,也是了解(jie)國內外(wai)AI芯片(pian)動(dong)態的重要窗(chuang)口(kou)。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲智(zhi)一科(ke)技聯合創始人(ren)、CEO龔倫常

龔倫(lun)常還(huan)預(yu)告了將于今年11月底在(zai)深圳舉(ju)辦的2025中國具身智(zhi)能機器人大(da)會(hui),歡迎大(da)家(jia)參會(hui)交流。

注:本文整理了主論壇與大模型AI芯片專題論壇的精華總結。更多相關報道將在后續發布。

一、IEEE Fellow王中風教授:解讀AI芯片三大前沿方向

應對模型規模“超摩爾”增長、傳統架構“內存墻”、應用場景日趨多元化三大挑戰,中山大學集成電路學院院長、IEEE/AAIA Fellow王中風教授探討了AI芯片設計的三大前沿方向,為行業的發展(zhan)提供了寶貴的見解和指導。

一是模型驅動的高效芯片設計,在模型尺寸增長的趨勢下,讓硬件深度適配AI模型特性,而非讓模型發展受限于硬件資源。

王中風教授(shou)團隊(dui)提出的(de)(de)Transformer硬件加速架構(gou)設計(ji)工作,是首個完整解決Attention計(ji)算(suan)加速挑戰的(de)(de)方(fang)案,獲得了IEEE 2020年(nian)片上(shang)系統年(nian)會(SOCC)最佳論文獎(jiang);N:M稀(xi)疏Transformer推理加速框(kuang)架,可(ke)快速實現任意N:M稀(xi)疏比例的(de)(de)Transformer模型開發和硬件部(bu)署,同(tong)時(shi)能保持精度(du)穩(wen)定(ding);粗粒度(du)-細粒度(du)混合精度(du)量化,搭配專用多核加速器來(lai)處(chu)理差異計(ji)算(suan),能夠實現更(geng)靈活的(de)(de)調(diao)度(du)。

二是應用驅動的AI芯片創新,注重模型的落地與應用,兼顧能效和靈活性的探索。

架(jia)(jia)構(gou)(gou)創(chuang)新(xin)沒有唯一解,只有更合適的(de)(de)解。結合可重構(gou)(gou)硬件架(jia)(jia)構(gou)(gou)(動(dong)態適配不同(tong)算法需求)、領(ling)域(yu)專(zhuan)用(yong)架(jia)(jia)構(gou)(gou)(在(zai)垂直場景(jing)實現超過通用(yong)架(jia)(jia)構(gou)(gou)的(de)(de)能效)、Chiplet等(deng)先進封裝技術(提高(gao)設計(ji)靈(ling)活(huo)性、降低成本(ben)、縮短上市(shi)周(zhou)期),以應用(yong)驅動(dong)為核心的(de)(de)AI芯片(pian)設計(ji),將是未(wei)來值得重點探索的(de)(de)研究方向。

三是基于存算一體的芯片設計,從存算架構根源降低能耗,平衡性能與功耗。

存(cun)算(suan)(suan)一體架構(gou)(gou)是芯片(pian)設計范式(shi)轉移的(de)一個重要方向。數字(zi)存(cun)算(suan)(suan)架構(gou)(gou)的(de)優勢(shi)是高(gao)(gao)精(jing)度(du)(du)(du)、高(gao)(gao)穩(wen)定性(xing)、生態更成熟(shu)(shu),但存(cun)在高(gao)(gao)能(neng)耗、高(gao)(gao)硬件開銷、低存(cun)儲密度(du)(du)(du)等(deng)問題;模擬(ni)存(cun)算(suan)(suan)架構(gou)(gou)具(ju)有低能(neng)耗、高(gao)(gao)存(cun)儲密度(du)(du)(du)、低硬件開銷等(deng)優勢(shi),但精(jing)度(du)(du)(du)較低、對工藝要求(qiu)高(gao)(gao)、生態不成熟(shu)(shu)。王中(zhong)風教授團隊研究的(de)基于(yu)SRAM的(de)數字(zi)存(cun)內(nei)計算(suan)(suan)架構(gou)(gou)大(da)模型加(jia)速器,支持多種數據精(jing)度(du)(du)(du),相比(bi)(bi)于(yu)傳統(tong)馮諾依曼架構(gou)(gou),能(neng)效(xiao)比(bi)(bi)可提升數十倍。

上述三條路徑并非孤立,而是相互支撐,共同推動AI芯片從“通用適配”走向“精準定制”。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲中(zhong)山大學集成(cheng)電(dian)路(lu)學院(yuan)院(yuan)長、IEEE/AAIA Fellow王中(zhong)風教授(shou)

王中風教授總結說,當前AI芯片發展呈現三大關鍵趨勢:一是從通用計算走向領域專用的“專用化”,二是算法與軟硬件共同進化的“協同化”,三是通過新型計算打破性能瓶頸的“一體化”。

以AI計算專用架構SRDA(系統級極簡可重構數據流)為例,通過分布式3D內存控制技術、可重構數據流計算架構、系統級精簡軟硬件融合設計等創新,在大模型智算場景可以大幅提升AI算力利用率與性能,驅使未來基于國產工藝的AI算力芯片也可以實現不亞于國外更先進工藝制程的GPGPU性能

下一代計算范式(shi)的(de)發(fa)展,首先是軟件、算法、硬件的(de)共生,實(shi)(shi)現全環(huan)節(jie)協(xie)同進(jin)化;其次是實(shi)(shi)現無處不在、高(gao)效且可信的(de)智能計算,在云端實(shi)(shi)現支持AGI訓練的(de)巨型超算系統,在邊緣實(shi)(shi)現自主機器人的(de)實(shi)(shi)時(shi)決(jue)策大腦(nao),在端側(ce)實(shi)(shi)現超低功耗的(de)Always-On感知芯(xin)片。

此外,高效支持智能計算,還需要促進新興技術融合,實現光子計算、量子計算、AI芯片的潛在結合。

王中(zhong)風教授呼(hu)吁(yu)開放標準,推(tui)動接口、互(hu)聯、指令集等的開放,降低創新門檻;注(zhu)意產學研深度(du)合作,共同攻克量(liang)智融合、存算一體、新材料(liao)、新工藝、新器件(jian)(jian)等領域的技(ji)術難題;注(zhu)重人才培養,培養兼具算法(fa)、架構、底層(ceng)電路及軟件(jian)(jian)開發等技(ji)能(neng)的交(jiao)叉型人才。

二、高端對話:大模型下半場引爆國產算力,AI芯片IPO潮將更具想象

高端對(dui)話以《?模型下半(ban)場,中國AI芯?的(de)破(po)局與(yu)突圍》為(wei)主題,由智一科技(ji)聯合創始(shi)人、智車芯產媒矩陣總編輯張國仁主持(chi),和利資(zi)本合伙(huo)?王馥宇(yu)、普華資(zi)本管理(li)合伙(huo)?蔣純、BV百度風投董事(shi)總經理(li)劉(liu)?、IO資(zi)本創始(shi)合伙(huo)?趙占(zhan)祥四(si)位(wei)嘉賓進(jin)行分享。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

張(zhang)國(guo)仁談道(dao),大(da)模型的(de)下半場不僅是技術競賽,更(geng)是生(sheng)態競爭,期待中(zhong)國(guo)即將誕生(sheng)“芯片(pian)+場景+算法”的(de)垂直整合者,出現更(geng)多(duo)的(de)單項冠軍。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲智(zhi)一科技(ji)聯合創始人、智(zhi)車芯產媒(mei)矩陣總編輯張國(guo)仁

1、DeepSeek擴大算力池后,投資AI芯片企業看什么?

王馥宇(yu)認(ren)為,DeepSeek的出現意味(wei)著(zhu)中國(guo)出現了(le)(le)“Leading Customer”,好的科技公司會向芯(xin)片公司提出需求(qiu)。蔣(jiang)純進一(yi)步補充道(dao),DeepSeek最大(da)的意義是讓中國(guo)有(you)了(le)(le)一(yi)套自有(you)大(da)模型體系,讓國(guo)產芯(xin)片有(you)了(le)(le)用(yong)武之地。

這些資(zi)深投資(zi)人會傾向于(yu)投資(zi)什么樣的AI芯片團隊?幾位投資(zi)人均看(kan)重(zhong)企業的技術路(lu)線是否收斂。

趙占(zhan)祥尤其關(guan)注技術路線是(shi)否有(you)提升及創新。劉(liu)水提到百度風投不單純以商業(ye)化衡(heng)量項目價(jia)值。蔣純說:“小孩子才(cai)做選擇,成年人我都(dou)(dou)要。”他(ta)表示(shi)成熟技術和創新技術都(dou)(dou)在投資。王(wang)馥(fu)宇將市場(chang)(chang)分為兩(liang)類(lei),一類(lei)是(shi)相對確定的(de)市場(chang)(chang),考驗團隊(dui)的(de)積累和執行力,第(di)二類(lei)是(shi)靠(kao)技術驅動市場(chang)(chang)發展。

展望芯片(pian)企業的未來(lai)機遇,蔣純認為,碳基(ji)文明被(bei)硅基(ji)文明取(qu)代之前,算力的市場機會(hui)看不到(dao)頭(tou),市場前景無窮大,現在的技術體(ti)系并不是終局。

2、一家超節點創企,成立幾個月融資六七億

王馥宇稱,很多大(da)廠(chang)同樣在構(gou)建非全家(jia)桶方式(shi)的網絡架(jia)構(gou),未來百花齊放,企(qi)業(ye)要保持開發、敏感(gan)。

在蔣純看來(lai),對(dui)中國(guo)企(qi)業面臨(lin)的(de)(de)現實情況(kuang)而言,“小米加(jia)步(bu)槍”的(de)(de)scale out路線(xian)和超節點(dian)所代表的(de)(de)scale up路線(xian)至少是同樣重要。

趙(zhao)占祥透露,IO資(zi)本最(zui)近在(zai)看(kan)的一個超節(jie)點創業公司,成立幾(ji)個月就融資(zi)六七億,但在(zai)超節(jie)點機(ji)遇背后,網絡的可(ke)靠性、故障率要(yao)求(qiu)仍面臨挑戰。

BV百(bai)度風投曾投資不(bu)少具(ju)身(shen)智(zhi)(zhi)能企業(ye)。據劉水分享,具(ju)身(shen)智(zhi)(zhi)能是個新興(xing)賽道,芯(xin)片(pian)(pian)作(zuo)為(wei)核心硬件支撐,目前還(huan)在迭代期,真正能完美匹(pi)配各類復雜物理交(jiao)互(hu)場景(jing)的(de)成熟(shu)芯(xin)片(pian)(pian)產品,行業(ye)內(nei)仍在探(tan)索(suo)。

現(xian)階段,很(hen)多企業選擇(ze)(ze)x86 CPU加(jia)AI芯片(pian)的組合(he)來(lai)搭(da)建基礎(chu)算力平臺,這(zhe)是行(xing)業在技(ji)術演進(jin)過(guo)程中(zhong)非(fei)常自然的過(guo)渡性選擇(ze)(ze),能快速驗證產品邏輯、跑(pao)通初步場景。

而這種 “過渡性(xing)” 也正是(shi)產(chan)業(ye)的機會所在——未來無論(lun)是(shi)更適(shi)配具身特性(xing)的專(zhuan)用芯(xin)片研發(fa),還是(shi)基于現有硬件的算力效率優化,只(zhi)要能解決實際場景中的痛點(dian),就是(shi)產(chan)業(ye)發(fa)展的機會點(dian)。

3、寒武紀一度登頂A股,“寄托了全村人的希望”

幾位(wei)投(tou)資(zi)人雖(sui)然主要看一級市(shi)場(chang),但也聊到對(dui)二級市(shi)場(chang)的(de)觀察。他(ta)們普遍認為,接(jie)下來(lai)要IPO的(de)AI芯片(pian)公(gong)司會比登(deng)陸2019年(nian)科創板的(de)那批國產替代概念芯片(pian)公(gong)司更有(you)想象力。

今年(nian),寒武紀(ji)一度超(chao)越貴州茅臺登頂A股“股王”。在蔣純看來,寒武紀(ji)的(de)暴漲背后可能“寄托了全村(cun)人的(de)希望”。與上一波芯片企業(ye)上市潮相(xiang)比,當時國產替代概念市場有限,但現(xian)在AI市場的(de)需求(qiu)是無限的(de)。

劉水補充說,AI需求正為(wei)計(ji)算基礎(chu)設施建設注入(ru)(ru)強(qiang)勁動(dong)力(li)。當前,不少(shao)國(guo)產芯(xin)片(pian)企業(ye)(ye)積(ji)極(ji)推進IPO進程,這本(ben)(ben)身是行業(ye)(ye)加(jia)速成長的體現(xian)——借(jie)助資(zi)本(ben)(ben)市場的力(li)量,企業(ye)(ye)能更(geng)好地投(tou)入(ru)(ru)研發、擴充產能,為(wei)技(ji)術(shu)突破(po)和規模化交(jiao)付奠定基礎(chu)。

不過,上(shang)市只是(shi)發展的(de)新起點(dian),最終能(neng)否站穩市場(chang),關鍵仍在于技術的(de)成熟度、產能(neng)的(de)穩定供給以(yi)及(ji)客戶的(de)深度認可。

從長遠來看(kan),企業(ye)需要以持續的技術創新(xin)和(he)扎實的商業(ye)化(hua)能(neng)力,真正實現(xian)產(chan)業(ye)價(jia)值與市(shi)場價(jia)值的同(tong)步兌現(xian)。

三、瞄準大模型高效推理,做好生態開源開放

面(mian)向(xiang)持(chi)續(xu)爆(bao)發的大模型(xing)推理需求,如何在芯片架(jia)構、開源開放(fang)、高速互連、超(chao)節點等方向(xiang)探索創新(xin)?

在上午主論壇期(qi)間,來自云(yun)天(tian)勵飛、華為昇(sheng)騰、行云(yun)集成電路、奎(kui)芯科(ke)技、探(tan)微芯聯、新華三(san)的產業嘉賓分別發(fa)表主題演(yan)講,分享了他(ta)們的觀察與思考(kao)。

1、云天勵飛陳寧:國產AI推理芯片迎歷史性機遇

云天(tian)勵飛董事長兼CEO陳寧(ning)談道,在(zai)“政(zheng)策+需求”雙重驅動下,國(guo)產AI推理芯片正迎來絕(jue)佳發展機(ji)遇。根據(ju)灼識咨詢報(bao)告,中國(guo)NPU市場(chang)規(gui)模短期預計新(xin)增(zeng)規(gui)模339.3億元(yuan),長期預計新(xin)增(zeng)規(gui)模1092億元(yuan)。

高(gao)效Token生(sheng)成是衡量推理(li)芯(xin)片性價比的關(guan)鍵指(zhi)標。11年來(lai),云天(tian)勵(li)飛已研(yan)發五(wu)代NPU,打造相關(guan)指(zhi)令集、專用算子、存算一體架構(gou)(gou)、低(di)比特(te)混合量化等芯(xin)片硬件技(ji)術。其“算力積木”架構(gou)(gou)是基于(yu)國產(chan)工藝的D2D Chiplet & C2C Mesh大模(mo)型推理(li)架構(gou)(gou),具有可擴展性強(qiang)、靈活性強(qiang)、實時(shi)性高(gao)等特(te)點。

云天勵飛提(ti)供“深(shen)(shen)穹”、“深(shen)(shen)界”、“深(shen)(shen)擎”三大(da)AI推(tui)理(li)(li)芯(xin)片系列(lie),分別(bie)面(mian)向大(da)模型(xing)推(tui)理(li)(li)算力中心/超節點/一體機(ji)/加(jia)速卡、邊緣(yuan)網關/邊緣(yuan)盒子/家庭主機(ji)、及機(ji)器人/無人機(ji)/無人車等AI推(tui)理(li)(li)等應用。

目(mu)前(qian),云天(tian)勵飛正在研發新一(yi)代(dai)NPU Nova500,并基于Nova500推(tui)出多款性能更強(qiang)的AI推(tui)理芯片。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲云天勵飛董事(shi)長兼(jian)CEO陳寧

2、華為昇騰王曉雷:公布全面開源的三個關鍵節點

華為昇騰處理(li)器產品總經理(li)王曉雷談道,英(ying)偉達的(de)軟(ruan)件開發人員是硬(ying)件的(de)兩倍,我(wo)們作為生態(tai)的(de)后來者,要做好開源開放(fang),跟客戶(hu)與(yu)伙伴一起,把芯(xin)片和解決方案做得(de)更好。

芯片(pian)方案(an)多種多樣,如何(he)把它用好(hao),是一件非常復雜的事情(qing)。

AI計算領域,矩陣(zhen)執(zhi)行過程需(xu)要保證數(shu)據(ju)到位,而整個數(shu)據(ju)搬移(yi)過程是計算優化的核心(xin)。處理(li)器跟底軟(ruan)團隊(dui)需(xu)要與(yu)算法(fa)和業(ye)務專家聯合優化,才能(neng)發(fa)揮出(chu)處理(li)器的高性能(neng)。

王曉(xiao)雷現場公布了昇騰(teng)未來進一步全面開源的關鍵(jian)節(jie)點,包(bao)括(kuo)9月(yue)30日算子庫全部開源、12月(yue)30日CANN全量開源、2026年起解(jie)決方(fang)案配套產(chan)品上市(shi)即開源。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲華為(wei)昇騰處理器產(chan)品總經(jing)理王曉雷

3、?云集成電路季宇:10萬元跑滿血版DeepSeek

?云集成電路創始?&CEO季(ji)宇拋出一個問題:誰困住(zhu)了AI產(chan)業?

他(ta)的(de)(de)答(da)案是大(da)(da)型(xing)機(ji)投資回報率(lv)。超節點(dian)化(hua)、大(da)(da)型(xing)機(ji)化(hua)的(de)(de)成(cheng)本門檻巨大(da)(da),但(dan)隨(sui)著大(da)(da)模型(xing)內存需求接近DDR/LPDDR的(de)(de)甜點(dian),高(gao)質量模型(xing)的(de)(de)硬(ying)件系統平(ping)民化(hua)曙光已現。

其概(gai)念原型產品(pin)大模型一體機“褐蟻”采用(yong)5090級算力(li)+TB級高帶寬DDR5,能以10萬元成本運行DeepSeek R1/V3 671B FP8,對話速度超過20TPS,20K上下文(wen)prefill在18秒以內。

集群概念驗證方案(an)“蟻群”可將超(chao)過(guo)40臺(tai)“褐蟻”機器(qi)組合作為decode節點(dian),prefill節點(dian)采用4根SSD替代(dai)DDR,總成本為300萬(wan)~500萬(wan)元(yuan),以(yi)約1~2臺(tai)8卡超(chao)算(suan)的價格,實(shi)現(xian)20倍于1~2臺(tai)超(chao)算(suan)的并發能力,提(ti)供(gong)接近(jin)DeepSeek公有(you)云的性價比。

行(xing)云(yun)希望通過(guo)其原型(xing)概念產品,呈現DDR/Flash滿足大(da)模型(xing)推(tui)理需求的(de)潛力,并通過(guo)芯片產品,將(jiang)頂配大(da)模型(xing)的(de)硬件成本(ben)降低(di)到萬元甚至千元級(ji)價位(wei),推(tui)動(dong)AI普惠。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲?云集成電路創始?&CEO季宇

4、奎芯科技唐睿:Chiplet將加快國產芯片研發

當(dang)前AI革命與(yu)過往(wang)互聯網產業有明顯差異,利潤高度向(xiang)硬件環節傾斜。奎芯科(ke)技(ji)(ji)聯合創始(shi)?兼(jian)副總裁唐睿(rui)談道,隨著模型尺寸(cun)不斷變大(da)(da),算力需求(qiu)飆升,為了爭奪AGI領域的(de)勝利,科(ke)技(ji)(ji)企業的(de)CAPEX大(da)(da)幅增長且逐漸取代OPEX成為主流趨勢。

AI領域存在(zai)芯片(pian)設(she)計周期遠跟不上算力及(ji)模(mo)型發展需(xu)求的(de)矛盾。在(zai)唐睿看來,基于Chiplet的(de)設(she)計能加快芯片(pian)研發迭(die)代(dai)。

2021年(nian)-2030年(nian)處理器預(yu)計研(yan)發項(xiang)目(mu)數(shu)量年(nian)化(hua)增長約9%,但基于Chiplet的設計年(nian)化(hua)增長率高達44%,預(yu)計2030年(nian)占比超(chao)一半。

對此,奎芯打造了(le)基于UCle標準接口IP的國產化完(wan)整解決方案,研發了(le)兩代(dai)(dai)UCle IP,第一代(dai)(dai)為16GT/s,第二代(dai)(dai)為32GT/s,且(qie)在標準封(feng)裝(zhuang)實現。這些IP具(ju)有(you)高性能、低(di)功耗(hao)、靈(ling)活(huo)性等優勢,能為芯片快速迭(die)代(dai)(dai)提供支持。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲奎芯科技聯合(he)創始?兼副(fu)總(zong)裁唐睿(rui)

5、探微芯聯劉學:國產超節點如何實現異構互聯?

探微芯(xin)聯創始人、清華?學(xue)類(lei)腦計(ji)(ji)算(suan)(suan)研究中心劉學(xue)分享說,類(lei)腦計(ji)(ji)算(suan)(suan)與(yu)AI同源(yuan)異流,天生(sheng)具備超(chao)大(da)規模計(ji)(ji)算(suan)(suan)系統的通信(xin)基因,與(yu)智(zhi)算(suan)(suan)超(chao)節點的發(fa)展趨勢十分吻合。

探微將類腦集群技術遷移至GPU智算平臺,打造面向AI芯片的Scale-up完整互聯方案,實現了覆蓋通信協議、交換芯片/網內計算、軟件棧/集合通信庫、RAS機制與可維護機制、路由算法、超節點平臺、性能建模和異構互聯等關鍵技術。?

不過,劉(liu)學認(ren)為,超節點通信(xin)(xin)不只是技(ji)術堆疊。通信(xin)(xin)協議具有(you)較強(qiang)生(sheng)態屬性,需要廣泛的(de)應用場景和(he)生(sheng)態支持(chi)才能推(tui)廣。

從類腦集群(qun)體系(xi)結構的(de)(de)大量工程(cheng)經驗積(ji)累,到(dao)探(tan)微通(tong)信互聯關鍵(jian)技(ji)術的(de)(de)不斷迭代,探(tan)微方(fang)(fang)案實(shi)現從底層到(dao)高層的(de)(de)計算和通(tong)信的(de)(de)全方(fang)(fang)位打通(tong),能夠為智算超節點(dian)(dian)生態伙伴提供Scale-up通(tong)信協議系(xi)統(tong)級(ji)解決方(fang)(fang)案、異構融合及(ji)智算超節點(dian)(dian)萬卡集群(qun)工程(cheng)方(fang)(fang)案。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲探微芯聯創始人、清華?學類腦計算研(yan)究中心劉學

6、新華三劉善?:超節點是AI系統工程巔峰

新華三(san)集團AI服務器產品線研發部總監劉善?談道,大模(mo)型技術趨勢(shi)給算力基礎設施帶來了(le)算力墻、顯存墻、通信墻等挑戰,打(da)造AI超節點(dian)成為必然趨勢(shi)。

這需要異構計算協同優化、高速(su)互聯網絡、精密(mi)結(jie)構設(she)計等基礎設(she)施的(de)深度集成,對軟硬協同要求(qiu)高,是AI系統工程的(de)巔峰。

新(xin)華(hua)三設計(ji)了兩款超(chao)節點產品(pin):整機(ji)柜(ju)超(chao)節點H3C UniPoD S80000和靈活(huo)部署超(chao)節點H3C UniPoD F80000。

S80000實(shi)現(xian)柜(ju)內卡間(jian)全互聯(lian)通信,互聯(lian)帶寬提(ti)升(sheng)8倍,單(dan)機柜(ju)訓(xun)練性能相(xiang)較于單(dan)節點最高可(ke)提(ti)升(sheng)10倍,單(dan)卡推理效率(lv)提(ti)升(sheng)13倍;F80000基于傳統AI服務器即可(ke)靈(ling)活擴展(zhan)Scale-up網(wang)絡,能夠實(shi)現(xian)MoE大規模訓(xun)練性能提(ti)升(sheng)35%以上。

未來,AI加(jia)速(su)卡(ka)將(jiang)更(geng)加(jia)百花齊放,高帶寬低延遲的卡(ka)間高速(su)互聯網絡也將(jiang)是必(bi)然趨勢。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲新華三集團AI服務器產品線研發部總監劉(liu)善?

四、數據流、低精度、稀疏化、全國產、Chiplet,AI芯片走向多路創新

在下午的(de)大模型AI芯片專題論(lun)壇上(shang)(shang)(shang),上(shang)(shang)(shang)海交通大學計算機學院教(jiao)授、上(shang)(shang)(shang)海期智研究院PI冷靜文分享了數據流(liu)體系架構(gou)如(ru)何成為新(xin)一代的(de)大模型加(jia)速引擎。

隨后,來自曦望Sunrise、愛(ai)芯元智(zhi)、墨芯人工智(zhi)能、江原科(ke)技(ji)、邁特芯、智(zhi)源(yuan)研究院、北極(ji)雄(xiong)芯、Alphawave的產業嘉賓分(fen)別發表主題演(yan)講,分(fen)享創新的技(ji)術路徑與(yu)最新進展。

1、上海交通大學冷靜?教授:數據流能提高大模型推理效率

上(shang)海(hai)交通(tong)大學(xue)計算機學(xue)院教授、上(shang)海(hai)期智研究院PI冷靜文認為,數據(ju)流體系架構(gou)是大模型高效(xiao)執(zhi)行研究的重要(yao)方向(xiang),它通(tong)過數值壓縮與計算流調度的優化,提升(sheng)推(tui)理性能。

低位寬數值類型(xing)可顯著降低存(cun)儲開銷,提(ti)高計算(suan)效率(lv);而向量量化(hua)有望幫助大(da)模型(xing)突破4bit的(de)表示極限。冷靜?教授團隊研發了面向多元(yuan)素(su)量化(hua)的(de)計算(suan)引擎VQ-LLM,通過三級(ji)緩(huan)存(cun)機制(zhi)和(he)以碼本為中心(xin)的(de)計算(suan)流程優化(hua),實現(xian)性(xing)能與(yu)精(jing)度的(de)雙重(zhong)提(ti)升。

新一代GPU架構正在逐漸DSA化,編程難度不斷增加。其團隊(dui)已(yi)經在探索一種“Kernel Free”的編程模型、用“Register Pooling”降低共享內存帶來的開(kai)(kai)銷,并使用動(dong)態并行機制,最(zui)終形成基于代碼塊(kuai)的數據(ju)流抽(chou)象機模型。項目(mu)成果未(wei)來將(jiang)開(kai)(kai)源發布。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲上海交通(tong)大(da)學(xue)計(ji)算機學(xue)院教授(shou)、上海期(qi)智研(yan)究院PI冷靜文

2、曦望陳博宇:國產AI芯片破局,極致推理目標1分錢/百萬Token?

曦望Sunrise研發副總(zong)裁(cai)陳博(bo)宇(yu)認為,大模(mo)型發展進入下半場,云端訓練算力(li)向高(gao)效推理(li)傾(qing)斜。AI芯片高(gao)效推理(li)是(shi)一場長期價(jia)值(zhi)競(jing)賽,降成本、降能耗,性價(jia)比的洼地亟待填平。

曦望的下一(yi)代芯(xin)(xin)片(pian)采用(yong)單(dan)芯(xin)(xin)片(pian)高(gao)配比低精度計算(suan)單(dan)元,大模型推(tui)理性價比對標英偉(wei)達Rubin GPU。

在(zai)主流(liu)測(ce)試集中,NVFP4精(jing)度下運行DeepSeek-R1的表現已接(jie)近FP8,低精(jing)度數據(ju)格式能顯(xian)著擴大(da)數據(ju)吞(tun)吐(tu),提(ti)升(sheng)推理效率(lv),從(cong)而降(jiang)低每Token成本。

曦望芯片軟件生(sheng)態通(tong)用(yong)性良好(hao)。算子庫、工具鏈、通(tong)信庫均為(wei)全棧自(zi)研,主(zhu)體功能(neng)模塊與CUDA對齊(qi),支(zhi)持各(ge)類主(zhu)流開源模型的推理部(bu)署,支(zhi)持CUDA代碼無縫遷移和(he)工作。

曦望芯片的(de)應用(yong)形態分為一體機和(he)超(chao)節(jie)(jie)點,是(shi)Scale-up/Scale-out互聯架構原生支持超(chao)節(jie)(jie)點產品。超(chao)節(jie)(jie)點支持PD分離和(he)大(da)EP部署、All-to-All互聯、面向千億級或(huo)萬(wan)億級參(can)數的(de)多模(mo)態大(da)模(mo)型(xing)推(tui)理(li)。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲曦(xi)望Sunrise研(yan)發(fa)副總裁陳博(bo)宇

3、愛芯元智劉建偉:AI應用(大模型)需要重新設計原生AI芯片

愛芯元智聯合創始(shi)?、副總裁劉建(jian)偉分享道,過去(qu)端側AI芯片主要跑傳(chuan)統CNN模(mo)型,場景(jing)明確,大模(mo)型的(de)興起則提升了AI上限,應用(yong)場景(jing)更(geng)廣泛,有(you)望引發成本驅動型生產力(li)革命。

在他(ta)看來,當AI程序規模(mo)足夠(gou)大(da)時,現有運行架構不是(shi)最高效的,值得重新(xin)設計適合跑AI程序的原生(sheng)處理器。

端側和(he)邊側長期受(shou)成本、功耗剛性約束,對高能效(xiao)比AI處理器需(xu)求迫(po)切。這驅使愛芯元智選(xuan)擇從端側和(he)邊緣側入(ru)手做AI基(ji)建。

設(she)計原生AI處(chu)理器,需關注(zhu)算(suan)子指(zhi)令集和數(shu)據(ju)流(liu)DSA架構,兩者相(xiang)輔相(xiang)成。采用(yong)可編程數(shu)據(ju)流(liu)微架構可提升(sheng)能效比。異構多核處(chu)理器要保證由硬件來(lai)調度,以降低客戶開發(fa)與使用(yong)成本。

愛芯元(yuan)智已打造了從工具鏈(lian)到芯片(pian)的完整軟硬件體系,推動構建(jian)邊緣智能共同體。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲愛芯元智聯合(he)創始?、副總裁劉建偉

4、墨芯人工智能曾昭鳳:稀疏化讓AI計算“更聰明”

墨芯人(ren)工(gong)智能解(jie)決方案總監曾昭鳳(feng)談道(dao),傳統硬(ying)件(jian)架構(gou)面臨性(xing)能提升困境,通過(guo)軟硬(ying)一體(ti)方案來解(jie)決算力瓶頸(jing)已(yi)是業(ye)內公認(ren)的(de)發展方向,稀疏化有望成為破解(jie)算力瓶頸(jing)的(de)突破口(kou)。

稀疏計算(suan)是(shi)一種(zhong)“更(geng)聰(cong)明”的(de)AI計算(suan)方式,如人類(lei)大腦一般,僅啟(qi)動計算(suan)所必需(xu)的(de)神經元(yuan),減少(shao)冗(rong)余重復,提(ti)升(sheng)有效性能。

基(ji)于這一認知(zhi),墨芯(xin)提出了“權重稀(xi)疏(shu)(shu)化(hua)+激活(huo)稀(xi)疏(shu)(shu)化(hua)”的(de)(de)(de)雙稀(xi)疏(shu)(shu)技術,在相同硬件資源下實現高(gao)達32倍的(de)(de)(de)稀(xi)疏(shu)(shu)率,并協同設計了配套的(de)(de)(de)軟件方案。

從算法與(yu)軟件(jian)(jian)出發(fa),墨芯打造(zao)了相應的硬件(jian)(jian)與(yu)架構(gou),開發(fa)的計(ji)算卡已能在云端推理場(chang)景中加(jia)速CV、NLP及知識圖譜等多類(lei)任務。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲墨(mo)芯人工智能解決方案總監曾昭鳳

5、江原科技王永棟:構建全國產化AI芯片產業鏈(lian)

江原科技已構建貫通EDA工具、芯(xin)片IP、芯(xin)片設計、芯(xin)片制造(zao)、封(feng)裝測試的全國產化AI芯(xin)片產業鏈。

江原科技(ji)聯合創始?兼CTO王永棟認為(wei),全國(guo)產路(lu)線(xian)已經成為(wei)行業共識,核心挑(tiao)戰集中在工藝和生(sheng)(sheng)態上。他從(cong)工藝、架構、生(sheng)(sheng)態層面探(tan)討了國(guo)產芯片的突(tu)圍路(lu)徑。

工(gong)藝維度(du),國內AI芯片企業唯一的道(dao)路(lu)就是擁抱全國產(chan),具體路(lu)徑包括基于國內工(gong)藝特點進行協同優化、系統集成創新。

架構維度,需(xu)要(yao)向AI定制傾斜(xie),通過拆解AI算法將其中占比高、對效率影響大的部分進行硬件優化。

生(sheng)態維度(du),從降低客戶使用門檻(jian)、發揮本土(tu)化優勢(shi)打造性能長(chang)板、擁抱開(kai)源切(qie)入。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲江原科技聯合創始?兼CTO王永(yong)棟

6、邁特芯李凱:突破端側大模型芯片三個關鍵痛點

在(zai)邁特芯(xin)(xin)主任工程(cheng)師李凱看來,端(duan)側(ce)(ce)AI場(chang)景正從“離(li)(li)身智能(neng)”向(xiang)“具身智能(neng)”進(jin)化,這離(li)(li)不開端(duan)側(ce)(ce)芯(xin)(xin)片(pian)的(de)支持。端(duan)側(ce)(ce)大模(mo)型芯(xin)(xin)片(pian)(LPU)需(xu)要滿足低(di)(di)功耗(hao)、高token數、低(di)(di)成本,這正是痛點所在(zai)。

邁特芯LPU采用(yong)的(de)3D-DRAM解決方(fang)案可(ke)大幅(fu)提升(sheng)帶寬(kuan),以滿足端側大模(mo)型(xing)(xing)需求(qiu)。該方(fang)案采用(yong)了針對(dui)大模(mo)型(xing)(xing)算(suan)子優化的(de)DSA設計和(he)自研立方(fang)脈(mo)動陣列架構,基于(yu)多項技術(shu)優化,實現計算(suan)利(li)用(yong)率(lv)和(he)內存(cun)帶寬(kuan)利(li)用(yong)率(lv)最大化。

演示(shi)中,基于邁特芯LPU推理(li)卡可(ke)實現(xian)大語言模(mo)型端(duan)到端(duan)部署(shu),帶(dai)寬利用率75%、性(xing)能75tokens/s,性(xing)能和能效達到國際領先水(shui)平。

邁(mai)特芯針對(dui)泛端(duan)側(ce)大(da)模型硬件(jian)產品(pin)、端(duan)側(ce)大(da)模型硬件(jian)產品(pin)和推理一體(ti)機三(san)類場景布局產品(pin),三(san)個市(shi)場的總空間可(ke)達萬億(yi)級。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲邁特芯(xin)主任工程師李凱(kai)

7、智源研究院鄭楊:統一編譯器給OpenAI Triton語言補短板

北京智源??智能研究院AI編(bian)譯器(qi)專家(jia)鄭楊分(fen)享說,OpenAI的(de)Triton語言已成為(wei)業內公認的(de)、繼(ji)CUDA后第二大(da)流(liu)行的(de)AI算子開(kai)發語言,但其也(ye)有(you)明(ming)顯弱勢:需(xu)要(yao)在開(kai)發效率和性(xing)能之間權衡(heng),跨芯片的(de)可(ke)移植性(xing)和性(xing)能不足,治理與(yu)生(sheng)態面臨(lin)局限性(xing),以(yi)及版本分(fen)散(san)等。

為(wei)此,智源構建了(le)面(mian)向多元AI芯片的統一(yi)編譯器——FlagTree。

FlagTree基于(yu)硬(ying)件(jian)感(gan)知進行了編譯指導優(you)化(hua),允許程序(xu)員通(tong)過注釋嵌入硬(ying)件(jian)優(you)化(hua)提示(shi)flagtree_hints,具有使用成本低(di)、生態兼容好、可移植(zhi)性強(qiang)等特點。

同時(shi),該(gai)編譯(yi)器在(zai)C++運行時(shi)進行了優化,提供從(cong)C++調用Triton內核的方法,從(cong)而節省Wrapper耗(hao)時(shi),整體(ti)降低80%以上,與CUDA接近。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲北京智(zhi)源??智(zhi)能(neng)研究院AI編譯器專家鄭楊

8、北極雄芯徐濤:大模型推理落地有效降本迫在眉睫

截至(zhi)2025年6月,中國(guo)日均tokens消耗量突(tu)破30萬(wan)億,比(bi)2024年增長300+倍,且(qie)依然處于高速增長期。而大模型應(ying)用(yong)商(shang)業(ye)化(hua)閉環任重(zhong)道遠(yuan),一方面C段訂閱付(fu)費(fei)較難,B端API調用(yong)收費(fei)與美國(guo)相比(bi)有數量級的差(cha)距,另一方面國(guo)內算力成本并不優于美國(guo)。

北極雄芯聯創、副總裁(cai)徐濤談道,當前(qian)中國(guo)大模(mo)型(xing)應(ying)用落地商業化,解決成本問題至關重要。而受制于各類制裁(cai),面對高(gao)速增長的(de)算力、存(cun)儲(chu)容(rong)量、內(nei)存(cun)帶寬(kuan)的(de)“不可兼得三角”,國(guo)內(nei)上下游企業亟需共同開展(zhan)架構創新(xin)。

在云(yun)端推理(li)場景,北極雄芯將在近期推出面向Decode環節的(de)專用加速方(fang)案,通(tong)過Chiplet+3D堆疊(die)的(de)近存計算技術大幅降低推理(li)成本至少一(yi)個數(shu)量級,相比(bi)主流GPU芯片(pian)提升10倍以(yi)上性價比(bi)。

在端側AI領域,北極雄(xiong)芯(xin)的啟(qi)明(ming)935系(xi)列(lie)芯(xin)粒通(tong)過(guo)Chiplet靈活組合應用(yong),為主機(ji)廠提供AI Box、艙駕一(yi)體、高階智駕等不(bu)同擋次應用(yong)的解(jie)決方案。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲北極雄芯聯創(chuang)、副總裁徐濤(tao)

9、Alphawave鄧澤群:高速連接市場猛增,Chiplet是變革路徑

Alphawave戰略客戶銷售經理鄧澤群談道,高(gao)速連接的市場規模(mo)2023年接近(jin)100億美(mei)元,預(yu)計2026年接近(jin)180億美(mei)元,年復(fu)合增長率達到20%。

這背后的推動力就是數據中心建(jian)設,其對(dui)數據的傳輸、存儲、處理(li)需求爆炸,數據帶寬(kuan)每2~3年翻(fan)一倍(bei)。

生(sheng)成式AI正在(zai)重新定義計(ji)算和(he)連接(jie)。他預測ChatGPT背(bei)后下一(yi)代模型的(de)參數規模或達到百萬億級別,促使云(yun)服務(wu)商(shang)建設更高規格的(de)數據(ju)中(zhong)心。

鄧澤群認為,新(xin)計算(suan)技術的變(bian)革路徑是Chiplet,以(yi)及為云服(fu)務商進行定制,以(yi)滿(man)足大語言模型的需求。

伴隨AI產業(ye)發(fa)展(zhan),Alphawave的業(ye)務(wu)體系(xi)已(yi)經從IP供應擴展(zhan)到高速連接技(ji)術(shu)的垂直集成(cheng)方案(an)。

燃!好燃的AI芯片盛會,大模型時代國產化希望叢生

▲Alphawave戰略客戶(hu)銷(xiao)售經(jing)理鄧澤群

結語:國產AI芯片掀開落地新篇章

8年來,智(zhi)(zhi)東(dong)西(xi)、芯東(dong)西(xi)持(chi)續對(dui)AI芯片(pian)全產業鏈(lian)進行追蹤(zong)報道,見證了(le)AI芯片(pian)產業及智(zhi)(zhi)能革(ge)命浪潮的發(fa)展,以及許多(duo)AI芯片(pian)團(tuan)隊的厚(hou)積薄發(fa)。

多個知名市場(chang)調(diao)研機(ji)構的數據(ju)顯示,2024年中國(guo)AI芯(xin)(xin)片出貨量顯著(zhu)提升,華(hua)為昇騰、阿(a)里平(ping)頭哥、昆侖芯(xin)(xin)、寒武(wu)紀、摩爾線程、燧原科技(ji)、中昊芯(xin)(xin)英(ying)、壁仞科技(ji)、沐(mu)曦(xi)股份、太初元碁(qi)等企業的AI芯(xin)(xin)片均已走向量產(chan)交付,并在性能方(fang)面縮(suo)短與國(guo)際先(xian)進(jin)水平(ping)的差(cha)距(ju)。龐大的國(guo)內AI基(ji)建市場(chang),正(zheng)向國(guo)產(chan)AI芯(xin)(xin)片敞開大門。

與(yu)此同時(shi),國產(chan)AI芯(xin)片(pian)(pian)正(zheng)迎來政策紅利期。今年8月,國務院(yuan)印發《關于深(shen)入實施“人工智(zhi)能+”行動的(de)意見》,在強(qiang)化(hua)基礎支撐能力方面,提到(dao)強(qiang)化(hua)智(zhi)能算力統籌,支持(chi)AI芯(xin)片(pian)(pian)攻堅創(chuang)新與(yu)使能軟(ruan)件(jian)生態培育,加快(kuai)超(chao)大規(gui)模智(zhi)算集群技術(shu)突(tu)破和(he)工程(cheng)落地。

在AI產業趨勢、地緣博弈等復雜(za)因素的(de)影響下,AI芯片(pian)自主可控勢在必行(xing),國(guo)產模型與國(guo)產芯片(pian)的(de)適配有望進一步增強,AI芯片(pian)及算力基礎設施技術仍有巨(ju)大的(de)創新空間和市場(chang)前景。