
智東西(公眾號:zhidxcom)
作者 | 中國AI算力大會
6月26日,一場干貨爆棚的(de)AI算力盛會,在(zai)北京燦爛盛夏中熱烈召開。
以大模型(xing)、生成式AI為代(dai)表(biao)的(de)新一(yi)輪人工智能浪潮的(de)滾(gun)滾(gun)向前,催(cui)生出前所(suo)未有的(de)AI算力需求,算力是數(shu)字經濟時(shi)代(dai)的(de)新質生產力,更是人工智能發展的(de)基石。
2025年,以DeepSeek為代表的國(guo)產大模(mo)(mo)型(xing)強勢突圍,在全球引爆部署熱潮和AI應(ying)用開發熱潮,也(ye)(ye)給國(guo)內(nei)AI算力市(shi)場注(zhu)入(ru)新(xin)的活(huo)力,推動(dong)AI推理算力需求暴漲,超大規(gui)模(mo)(mo)集群鱗次櫛比,而需求的爆發也(ye)(ye)帶(dai)來諸多挑戰,醞釀新(xin)的行業變化(hua)。
為(wei)此(ci),我們發起了一場聚(ju)焦前沿技術與(yu)產(chan)業趨勢的夏日AI聚(ju)會——2025中國AI算力大會。
從(cong)國(guo)產(chan)AI算力的突圍與(yu)崛起,到智(zhi)算中心深層軟硬件技術創新解(jie)決算力落地產(chan)業(ye)難(nan)題,近30位重量級嘉賓(bin)與(yu)會帶來致辭、報告、演講(jiang)和對話(hua),全方位解(jie)構DeepSeek引爆的AI算力變(bian)局,全場(chang)(chang)金(jin)句頻頻,各(ge)路大佬觀(guan)點持續碰撞擦出(chu)火花(hua),現場(chang)(chang)參會人數超(chao)過(guo)850人。
在會場(chang)外的展區,Alluxio、研惠(hui)通、惠(hui)普(pu)、白山云(yun)科技(ji)、中昊芯英、中科加禾、科華數(shu)據、行云(yun)集成電路(lu)等8家企業(ye)亮(liang)出(chu)了他們的最(zui)新技(ji)術和產品,展區人(ren)頭攢動,交流熱情(qing)氛圍(wei)濃(nong)厚。
▲展區
由(you)智一(yi)科技(ji)(ji)旗(qi)下智猩猩與智東(dong)西(xi)共同發起主(zhu)辦、芯東(dong)西(xi)協辦的(de)首屆AI算(suan)力(li)(li)(li)大會(hui),圍繞AI算(suan)力(li)(li)(li)產業變局與創新、AI推理(li)(li)算(suan)力(li)(li)(li)、智算(suan)中(zhong)心(xin)、智算(suan)集群(qun)異構混(hun)訓、超節點(dian)等話題設置議程,主(zhu)會(hui)場包括高(gao)峰(feng)論(lun)(lun)(lun)壇、AI推理(li)(li)算(suan)力(li)(li)(li)專題論(lun)(lun)(lun)壇和智算(suan)中(zhong)心(xin)專題論(lun)(lun)(lun)壇;分(fen)會(hui)場為閉門(men)制,組織了智算(suan)集群(qun)異構混(hun)訓技(ji)(ji)術(shu)研討會(hui)、超節點(dian)技(ji)(ji)術(shu)研討會(hui)。
▲聯想(xiang)集(ji)團Game of AI科普視頻在大會展播(bo):聯想(xiang)海(hai)神(shen)全液冷(leng)解(jie)決方案,革(ge)命性提(ti)升AI推理時代算力
智(zhi)一科(ke)技(ji)聯合創始人、CEO龔(gong)倫常在大會致(zhi)辭環節宣布:中國AI算力大會正式成(cheng)為(wei)“智(zhi)領(ling)未(wei)來”北京(jing)人工智(zhi)能系(xi)列品牌活(huo)動之一。
“智領未來(lai)”是北京市(shi)科委、中關(guan)村管(guan)委會打(da)造的(de)北京市(shi)人(ren)工(gong)智能(neng)領域的(de)活動品牌。同樣作為“智領未來(lai)”北京人(ren)工(gong)智能(neng)系列品牌活動之一的(de)中國生成式(shi)AI大會已于今年4月1日-2日圓(yuan)滿(man)舉行。
龔倫常還預告了將(jiang)于下半年舉(ju)行的(de)兩場大型品(pin)牌(pai)活動:9月(yue)在(zai)上(shang)海舉(ju)辦(ban)第七屆全球AI芯片(pian)峰(feng)會(hui),11月(yue)在(zai)深圳舉(ju)辦(ban)2025中國具身(shen)智能機(ji)器人大會(hui)。
▲智(zhi)一(yi)科技聯合創始人、CEO龔倫(lun)常
智(zhi)算集群異構混訓(xun)、超節(jie)點兩場技(ji)術(shu)研(yan)(yan)討會(hui)在分會(hui)場圓(yuan)滿舉辦。壁仞(ren)科(ke)技(ji)AI軟件首席架(jia)(jia)構師丁云(yun)帆、中國移動研(yan)(yan)究院網(wang)絡與(yu)(yu)IT技(ji)術(shu)研(yan)(yan)究所技(ji)術(shu)經理班有容、北(bei)京(jing)智(zhi)源(yuan)人(ren)工(gong)智(zhi)能研(yan)(yan)究院AI框(kuang)架(jia)(jia)研(yan)(yan)發負責(ze)人(ren)敖玉龍(long)、上海人(ren)工(gong)智(zhi)能實驗室(shi)編譯計算與(yu)(yu)國產化團隊負責(ze)人(ren)裴芝林(lin)、商湯(tang)大裝置技(ji)術(shu)產品(pin)總(zong)監劉葉楓在智(zhi)算集群異構混訓(xun)技(ji)術(shu)研(yan)(yan)討會(hui)做了(le)報告分享。
阿里云(yun)基礎設(she)施異構硬件和系(xi)統及(ji)解決方(fang)案資深總監(jian)盧曉偉、中國移(yi)動研(yan)究院網(wang)絡與IT技(ji)(ji)(ji)術研(yan)究所技(ji)(ji)(ji)術經(jing)理王鵬、奇異摩爾首席網(wang)絡架構專家葉(xie)棟、曦智科技(ji)(ji)(ji)聯(lian)合創始人兼(jian)首席技(ji)(ji)(ji)術官孟(meng)懷宇圍繞(rao)超(chao)節(jie)點進行了(le)不(bu)同(tong)視角(jiao)的報告分(fen)享。中信建投證券科技(ji)(ji)(ji)行業(ye)首席分(fen)析(xi)師閻(yan)貴成主持了(le)超(chao)節(jie)點技(ji)(ji)(ji)術研(yan)討會(hui)及(ji)圓桌Panel。
▲分會場
接下來(lai)我們將為大家帶來(lai)主會場(chang)三大論壇15+位分享嘉賓(bin)的演講(jiang)和對話精華。
一、高峰論壇:從千芯節點到千億大模型,國產AI芯片生態迸發旺盛活力
AI已成為數據(ju)中心增長的(de)核(he)心驅動(dong)力。大(da)模型迭代拉(la)動(dong)算(suan)(suan)力需(xu)求暴增,推(tui)動(dong)計算(suan)(suan)、存儲、網絡(luo)基礎設施(shi)全面(mian)升級。在(zai)大(da)模型訓練(lian)與部(bu)署需(xu)求旺盛的(de)背景(jing)下,如(ru)何更充分地利用閑置算(suan)(suan)力,國產AI芯片發展到了怎樣的(de)新階段,有哪(na)些優化大(da)模型推(tui)理效(xiao)果的(de)創新技術?6位嘉賓分享了他們對(dui)產業最新風向(xiang)的(de)觀察與探索。
1、信通院陳屹力:“算力荒”與“算力閑置”共存,算力互聯互通、AI云成焦點
中國信(xin)息通信(xin)研究院云(yun)大所副總工程師陳屹力談道,當下AI大規模應(ying)用促使(shi)智(zhi)能(neng)算力需求激(ji)增,AI 云(yun)成為全球AI浪(lang)潮角逐(zhu)的焦點。其(qi)中AI云(yun)基礎設施需覆(fu)蓋異構高(gao)效(xiao)調度能(neng)力、一云(yun)多(duo)模能(neng)力、專家知識大腦等多(duo)方面。AI云(yun)平(ping)臺推動(dong)AI應(ying)用的智(zhi)能(neng)、便捷構建(jian),提(ti)升國際影響力、助力生態繁榮(rong)。
隨任(ren)務型智(zhi)算(suan)(suan)應用(yong)興(xing)起,對算(suan)(suan)力(li)(li)資源的定位、調(diao)度(du)、部署效率提(ti)出更高(gao)要求(qiu)。中國信(xin)通院(yuan)聯合產(chan)業各方探索構(gou)建算(suan)(suan)力(li)(li)互聯網(wang),積極推進算(suan)(suan)力(li)(li)標識、算(suan)(suan)力(li)(li)調(diao)度(du)、傳(chuan)輸協議(yi)、應用(yong)適配等(deng)方面技術(shu)研究(jiu),加快(kuai)現有算(suan)(suan)力(li)(li)“局域網(wang)”間互聯互通,逐(zhu)步建立標準(zhun)體系(xi),形成(cheng)算(suan)(suan)力(li)(li)互聯網(wang)體系(xi)架構(gou),核心(xin)解(jie)決算(suan)(suan)力(li)(li)“找(zhao)調(diao)用(yong)”挑戰,逐(zhu)步形成(cheng)具備智(zhi)能感(gan)知、實時發現、隨需獲取(qu)的算(suan)(suan)力(li)(li)互聯網(wang)。
▲中國信息(xi)通信研究院云大所(suo)副(fu)總(zong)工程(cheng)師陳(chen)屹力(li)
2、摩爾線程王華:算力需求千倍增長,大集群和FP8成為強需求
摩(mo)爾線程副總裁王華引用了一些研究數據:2020至(zhi)2025年間,大模(mo)型訓(xun)練(lian)的算力(li)需求提(ti)升近(jin)1000倍 ,驅(qu)動力(li)來(lai)自參數規模(mo)與(yu)數據量雙(shuang)向增長(chang)。以DeepSeek-V3為例(li),其訓(xun)練(lian)所需算力(li)達102?級別,在萬(wan)卡集(ji)群上可將訓(xun)練(lian)時間壓縮至(zhi)13天內完成 。
為(wei)應對(dui)算(suan)力需求(qiu),摩(mo)爾線程提(ti)供包括FP8在內的全精度算(suan)力,有(you)效支持混合精度訓練,大(da)(da)幅提(ti)升訓練效率(lv);部署萬卡(ka)集(ji)群(qun),研(yan)發(fa)完整(zheng)的軟硬件棧,提(ti)供開箱(xiang)即用的產品,快速滿足大(da)(da)模(mo)型訓練的算(suan)力需求(qiu);打(da)造豐富的集(ji)群(qun)監控和診(zhen)斷能力,針對(dui)大(da)(da)規模(mo)集(ji)群(qun)實現分鐘級(ji)故(gu)障定位(wei)。
此外,摩爾線程構(gou)建(jian)了支持(chi)FP8、BF16、FP32等數(shu)據類(lei)型的混合精(jing)度(du)訓(xun)練(lian)方案(an),開源(yuan)Torch-MUSA、MT-MegatronLM與MT-TransformerEngine等大模型訓(xun)練(lian)組(zu)件,已完成DeepSeek-V3的混合精(jing)度(du)訓(xun)練(lian)復(fu)現。在多個模型上的實(shi)驗結果表明,其方案(an)整體(ti)性能提升可達20%–30%,訓(xun)練(lian)精(jing)度(du)與業(ye)界主流保持(chi)一(yi)致。
▲摩爾(er)線程副總裁王(wang)華(hua)
3、中昊芯英楊龔軼凡:解讀TPU架構創新設計,國產AI芯片如何抓住本土機遇
中昊(hao)芯英創始人(ren)、CEO楊龔軼(yi)凡談道,AI專用芯片(pian)(pian)是AI Infra的(de)(de)必然發展趨(qu)勢,TPU架構為AI大模型而生,采用多維度計(ji)算(suan)(suan)單(dan)元來優(you)化(hua)數據(ju)復用,提高計(ji)算(suan)(suan)效率(lv),并通(tong)過更激進的(de)(de)數據(ju)傳(chuan)輸(shu)策略和更小(xiao)的(de)(de)控制單(dan)元,給片(pian)(pian)上存(cun)儲(chu)器和運(yun)算(suan)(suan)單(dan)元留下更大空間,其可擴展性也更適(shi)合(he)超大規模計(ji)算(suan)(suan)。
中昊芯(xin)英全自研高性能TPU架構AI芯(xin)片(pian)“剎那(nei)”于2023年已成(cheng)功流片(pian)并實現量產,其(qi)計算(suan)性能較海(hai)外某(mou)知名GPU芯(xin)片(pian)提升近1.5倍。基于“剎那(nei)”的(de)高性能AI服務器及大規模AI計算(suan)集(ji)群(qun)“泰(tai)則(ze)”,支(zhi)持(chi)1024卡高速互聯,可支(zhi)撐超千億參(can)數大模型計算(suan)。
隨著大模(mo)型成本下移,AI芯片(pian)架(jia)構開始(shi)深度適配動態稀疏計算范式(shi),形成“算法定(ding)義硬(ying)件”的新(xin)(xin)研(yan)發模(mo)式(shi)。降低(di)對CUDA生態的依賴后,國(guo)產Al芯片(pian)將通過提供定(ding)制化工(gong)具鏈、優化編(bian)譯器等方式(shi),在架(jia)構設(she)計上更加靈活適應新(xin)(xin)的本土趨勢和需求。
▲中昊(hao)芯英創始人、CEO楊龔軼凡
4、魔形智能徐凌杰:大模型需要“千芯”超節點,未來架構有五大關鍵因素
魔(mo)形智能科技(ji)創(chuang)始(shi)人(ren)(ren)、CEO徐凌杰幽(you)默開場:“過去十年(nian),中國最值錢(qian)的(de)是(shi)房(fang)地產(chan)行業。未(wei)來最值錢(qian)的(de),可(ke)能還是(shi)房(fang)地產(chan),只不過住(zhu)的(de)不是(shi)人(ren)(ren),而是(shi)機器。”
研究數(shu)據顯示,全(quan)球數(shu)據中心總耗電量(liang)與(yu)單個發(fa)達國家相(xiang)當(dang)(dang)(dang)。更(geng)強的(de)(de)大(da)模型(xing)需要(yao)大(da)集群,更(geng)快的(de)(de)大(da)模型(xing)需要(yao)超節點(dian),更(geng)大(da)的(de)(de)高帶寬互聯域是超節點(dian)設計的(de)(de)核心。當(dang)(dang)(dang)前算力(li)(li)密(mi)度遠不(bu)夠高,要(yao)達到與(yu)人腦相(xiang)當(dang)(dang)(dang)的(de)(de)算力(li)(li)密(mi)度,需要(yao)構(gou)(gou)建“千芯”超節點(dian),構(gou)(gou)建可重構(gou)(gou)的(de)(de)AI算力(li)(li)中心。
如何構建千(qian)芯互連網絡?徐凌杰總結了未來超(chao)節點架(jia)構的5大(da)關鍵(jian)因(yin)素:超(chao)高密度算(suan)力(li)節點,千(qian)芯多機(ji)柜級聯背板(ban)連接,800V供電輸入(ru),交換芯片全(quan)互聯,全(quan)覆蓋(gai)式冷卻。
他還分享了下一代算(suan)力(li)(li)基礎設(she)施對芯片提出的3大要求:板級&封(feng)裝(zhuang)級靈活組合與(yu)解耦,整合光電(dian)共封(feng)裝(zhuang)設(she)計,Cluster First的產(chan)品理念。軟(ruan)硬(ying)協(xie)同(tong)將釋(shi)放超大集群的潛力(li)(li)。
▲魔形(xing)智(zhi)能(neng)科技創始(shi)人(ren)、CEO徐凌(ling)杰
5、中科加禾崔慧敏:AI編譯優化躍升推理性能,有效擴展國產AI芯片生態
中國科(ke)學院計(ji)算技(ji)術研(yan)(yan)究(jiu)所研(yan)(yan)究(jiu)員、中科(ke)加禾創始人崔慧敏談道,大模型推理私有(you)化部(bu)署(shu)需求大漲,但面臨硬件(jian)繁(fan)多(duo)(duo)、需求多(duo)(duo)元、多(duo)(duo)模部(bu)署(shu)等多(duo)(duo)重挑(tiao)戰。
中科(ke)加禾圍(wei)繞編(bian)譯優化構建大模型推(tui)理的引擎和(he)軟件棧,積累了(le)大量實踐案例:在(zai)推(tui)理引擎中實施(shi)深度顯存優化,有效(xiao)提高顯存利用率;在(zai)大規模推(tui)理中實現多維(wei)并(bing)行策略,有效(xiao)利用計(ji)算、訪存、通(tong)信(xin)資源;基于多項聯合優化,推(tui)理技術在(zai)某(mou)互聯網廠商合作中將(jiang)QPS提升50%以上,并(bing)在(zai)昇騰(teng)910B平臺私有化部(bu)署場景下有效(xiao)支持128K長上下文。
長(chang)期來看,基(ji)于AI編譯技術,構(gou)建一套底層公共的編譯支撐,能(neng)夠長(chang)期有效解決AI生態(tai)(tai)碎片化(hua)及生態(tai)(tai)融合(he)問題(ti)。
▲中國科(ke)學院計算(suan)技術研究(jiu)(jiu)所研究(jiu)(jiu)員、中科(ke)加(jia)禾創始人崔(cui)慧敏
6、趨境科技陳祥麟:千億大模型的異構推理新路徑
趨境科技技術(shu)負責人陳祥麟分(fen)享了大模(mo)型(xing)推(tui)(tui)理的(de)技術(shu)創新。他認(ren)為大模(mo)型(xing)私(si)有化推(tui)(tui)理架構將從(cong)傳統的(de)以GPU為中心(xin)轉向全系統異構協同,需要充分(fen)提(ti)升(sheng)算力利用(yong)率。
團隊首創(chuang)全(quan)系統異(yi)構協同與(yu)以存換(huan)算(suan)(suan)(suan)技(ji)術,充分利用底層GPU、CPU、存儲等(deng)(deng)硬件設(she)備算(suan)(suan)(suan)力(li),通過基于計(ji)算(suan)(suan)(suan)強度的offload策(ce)(ce)略(lve)、CPU/GPU的高性能算(suan)(suan)(suan)子改造、MTP等(deng)(deng)算(suan)(suan)(suan)力(li)優化方法(fa),以及prefix cache等(deng)(deng)融(rong)合推理策(ce)(ce)略(lve),提升全(quan)系統算(suan)(suan)(suan)力(li),將大模型(xing)推理門檻(jian)降低至1/10。
趨境科技與清華KVCache.AI團隊(dui)共同開源的異構推(tui)理框架KTranformers,能夠利用(yong)單(dan)張消費級(ji)GPU+CPU異構推(tui)理DeepSeek-671B-r1/v3,decode速度(du)最高達到20+ tokens/s。
同時參與月之(zhi)暗面、清華MADSys實驗(yan)室等(deng)多個產學研機(ji)構開(kai)(kai)源的項目Mooncake,以超(chao)大(da)(da)規模KVCache緩存池為(wei)中心,通過以存換(huan)算(suan)的創新理念(nian)大(da)(da)幅度減少算(suan)力開(kai)(kai)銷,顯著提升了推理吞吐量。
▲趨境科技研發負責人陳祥(xiang)麟
二、高端對話:國產AI算力的突圍與崛起,中美差距正逐步縮小
以《國產(chan)AI算力的突(tu)圍與(yu)崛起》為主題的高端對(dui)話,由(you)智一科(ke)技聯(lian)(lian)合創始(shi)人(ren)、智車芯產(chan)媒矩陣總(zong)編輯張國仁主持,中(zhong)昊(hao)芯英創始(shi)人(ren)兼CEO楊龔軼凡,魔形智能科(ke)技創始(shi)人(ren)、CEO徐凌杰,中(zhong)科(ke)加禾(he)聯(lian)(lian)合創始(shi)人(ren)兼CTO陳龍三(san)位嘉賓進行分享。
張國仁談道,從2018年AI芯片峰會(hui)到如今AI算力峰會(hui),他感觸最深的(de)是(shi)國內企業(ye)對自己(ji)的(de)產品、公司發(fa)(fa)展(zhan)都表現得(de)愈發(fa)(fa)云(yun)淡風輕(qing)。
▲智一科技聯合(he)創始人、智車芯產媒(mei)矩陣(zhen)總編輯(ji)張(zhang)國仁(ren)
1、國產算力與全球差距仍然存在
面(mian)對(dui)國產算(suan)力(li)在(zai)全球發展中的地位,陳(chen)龍(long)談道,國內廠商已(yi)掌握(wo)算(suan)力(li)底層技術,但在(zai)PyTorch等主流訓(xun)練框架適配方面(mian)仍處于跟隨、陪跑階段。
楊龔軼凡從硬(ying)件的設(she)(she)(she)計和生產兩方面進行了比較(jiao):生產差距存(cun)在,但預測將在3-5年(nian)內逐(zhu)步縮(suo)小(xiao);而在設(she)(she)(she)計層面,從學術(shu)研究、論(lun)文創新性等角(jiao)度看,設(she)(she)(she)計的差距更大。隨(sui)著模型算法收斂(lian),更多(duo)創新型架構(gou)、設(she)(she)(she)計出現,國(guo)外諸多(duo)路線已發展到產品(pin)落地(di),國(guo)內廠商需要(yao)共同拓(tuo)展生態。
▲中昊芯(xin)英創始人兼(jian)CEO楊龔軼凡
徐凌杰認(ren)為(wei),在如(ru)何(he)做(zuo)優秀的GPU、如(ru)何(he)搭建生(sheng)態(tai)、如(ru)何(he)做(zuo)集(ji)群等方面,中(zhong)美(mei)認(ren)知差距正不(bu)斷縮(suo)小。但實(shi)際產業(ye)(ye)中(zhong),差距進(jin)一步擴大(da),企業(ye)(ye)需要從(cong)底(di)層供(gong)應(ying)鏈突破。
2、算力仍是資源導向型市場
對于國產算力(li)的(de)市場化,徐凌杰判斷,政府、資源導向型(xing)的(de)現(xian)狀(zhuang)未(wei)來幾年不會(hui)有(you)很大改(gai)變,芯片晶圓、制程以及(ji)芯片創企在國產生態中的(de)成長,都需(xu)要政府扶持。芯片公司的(de)機會(hui)是通過更(geng)強互聯、集群打(da)造(zao)差異(yi)化,找到商業化落腳點。
楊龔軼凡同樣認為,資源導向(xiang)(xiang)型走向(xiang)(xiang)市場導向(xiang)(xiang)型是(shi)一個過程(cheng),在半(ban)導體(ti)行業(ye),老(lao)的生產(chan)(chan)制(zhi)程(cheng)永遠比(bi)新的生產(chan)(chan)制(zhi)程(cheng)性(xing)價(jia)(jia)比(bi)低,生產(chan)(chan)制(zhi)程(cheng)每(mei)迭代(dai)一次(ci)會有4倍的性(xing)價(jia)(jia)比(bi)提升,這就導致純國產(chan)(chan)芯(xin)片的性(xing)價(jia)(jia)比(bi)更低,需(xu)要政府扶持拉通生產(chan)(chan)工藝的產(chan)(chan)業(ye)鏈。
陳龍從(cong)應(ying)用層面(mian)進行(xing)分析,談到(dao)國家的扶持很必要,企業通過軟硬(ying)件優化(hua)降低了部署成本,但消費(fei)側拉動(dong)還不夠強(qiang),現狀是上一代(dai)芯(xin)片(pian)尚沒有(you)完(wan)全(quan)落地應(ying)用,下一代(dai)芯(xin)片(pian)已經出來了,因此核心是要發(fa)掘更有(you)價值(zhi)的應(ying)用。
▲中科加禾聯合創始(shi)人兼CTO陳(chen)龍
3、專用芯片、編譯技術、超節點,是未來發展方向
楊龔(gong)軼凡堅信專用芯(xin)片(pian)是(shi)未來的(de)發展方(fang)向,在通(tong)用性需(xu)求大幅(fu)降低(di)的(de)情況下,可(ke)以拋棄(qi)部(bu)分通(tong)用性,增加芯(xin)片(pian)核心的(de)性能(neng)和(he)性價比。越專越好,是(shi)在滿(man)足一定可(ke)控性和(he)變化(hua)下的(de)結果(guo)。
圍繞編譯技(ji)術(shu)在解決國(guo)產(chan)芯片面(mian)臨的風險,陳(chen)龍認為,它是(shi)將專家的經驗泛化、普適化的一種(zhong)技(ji)術(shu)手(shou)段。編譯技(ji)術(shu)最開(kai)始產(chan)生是(shi)為了彌補人的思維和機器能接受信息之間的鴻溝,使開(kai)發(fa)效(xiao)率(lv)提升上(shang)百(bai)倍。
徐凌杰著(zhu)重(zhong)談到超節(jie)點(dian)的(de)發展方向,在大(da)模型領(ling)域,類似(si)MoE的(de)創(chuang)新結合超節(jie)點(dian)會有更(geng)大(da)收益,即更(geng)大(da)的(de)問題用更(geng)大(da)的(de)集(ji)群解決(jue),更(geng)大(da)的(de)集(ji)群反哺(bu)系統(tong),從而做(zuo)出(chu)更(geng)大(da)的(de)模型。
▲魔形智(zhi)能科技創(chuang)始人、CEO徐(xu)凌杰
4、算力產業格局未定
談到全(quan)球(qiu)算(suan)力產(chan)業(ye)的產(chan)業(ye)格局(ju),陳(chen)龍認為,雖然國內巨頭有積累優勢(shi),但產(chan)業(ye)規模足夠大,且需(xu)求多元化,將來(lai)企業(ye)將百花齊放。
楊龔軼凡的(de)觀(guan)點更(geng)為激進:首先,3-5年(nian)內形成產業(ye)(ye)格局的(de)可能性(xing)不高(gao),目前(qian)仍是企業(ye)(ye)相互競爭、高(gao)速發展(zhan)變革的(de)過程;其(qi)次(ci),資源型(xing)市(shi)場的(de)天然屬性(xing)決定了其(qi)很(hen)難形成壟斷,且巨頭穿越周期(qi)能力弱,因此AI產業(ye)(ye)爆(bao)發后(hou)市(shi)場格局會(hui)洗牌,初創公司或許會(hui)通過更(geng)好的(de)組織形式去適(shi)應(ying)產業(ye)(ye)發展(zhan)。
行(xing)業的重要性(xing)、資本(ben)周期(qi)發(fa)展對產業發(fa)展都會有(you)(you)影(ying)響(xiang)。徐(xu)凌(ling)杰相信,算力(li)變得(de)越來越有(you)(you)吸引(yin)力(li),自(zi)然會有(you)(you)更(geng)多的錢涌入,會出(chu)現巨頭被沖擊(ji)、新(xin)生勢力(li)冒出(chu)的場景。創(chuang)企和巨頭需要找準自(zi)己的定位,通過“整合”變成更(geng)強實(shi)體可能是一條發(fa)展路徑。
如(ru)今中國算力(li)(li)規(gui)模已在全球排名第二,被預測有望(wang)影響全球AI 競賽格局。陳龍(long)認(ren)為,AI算力(li)(li)市場規(gui)模和國家GDP發展成(cheng)正(zheng)(zheng)比關系,當(dang)國家GDP反超或許(xu)是國產算力(li)(li)格局更進一步的機會(hui)(hui)。楊龔軼(yi)凡提到投(tou)入產出比,目前美國和中國算力(li)(li)開(kai)銷差10倍,當(dang)投(tou)入量逐(zhu)步趕(gan)上才會(hui)(hui)有變(bian)化。徐凌杰(jie)認(ren)為未來(lai)當(dang)AI賦(fu)能千行百業,算力(li)(li)真正(zheng)(zheng)變(bian)成(cheng)生產力(li)(li)時,就是一個巨大(da)的機會(hui)(hui)。
三、專題論壇:從軟硬協同到端邊云協同,底層技術創新突破AI算力瓶頸
下午(wu)場(chang)火熱繼續,在AI推理(li)算(suan)力專(zhuan)題(ti)論壇(tan)和智算(suan)中心(xin)專(zhuan)題(ti)論壇(tan)中,來自行云集成(cheng)電路、安謀科技、實在智能(neng)、白山云科技、Alluxio、浩云長盛集團、上海矩(ju)向科技、趨動科技的8位(wei)嘉(jia)賓(bin)帶來了(le)精彩(cai)演講(jiang)。
如(ru)何(he)(he)突破大模(mo)型(xing)(xing)推理芯片(pian)的核心(xin)瓶(ping)頸、如(ru)何(he)(he)實現出色的端側模(mo)型(xing)(xing)性能?超大規模(mo)智算(suan)中心(xin)面臨(lin)的數據、成本(ben)功耗、算(suan)力利用率等方面的一系列難題要如(ru)何(he)(he)破解(jie)?我們(men)都將找(zhao)到(dao)答案。
1、行云余洪敏:只有軟硬件協同創新才能突破大模型推理芯片的核心瓶頸
行云聯合創始人、CTO余洪敏談道,高質(zhi)量(liang)大模型最核心(xin)的(de)需(xu)(xu)求就是極其變態的(de)內存(cun)(cun)需(xu)(xu)求,既要(yao)帶寬,又要(yao)容量(liang)。推理(li)芯片核心(xin)瓶(ping)頸有:顯存(cun)(cun)容量(liang),價格高昂,只有通(tong)過軟硬件協同創新才(cai)能解決。
行(xing)(xing)云致(zhi)力于把AI基礎(chu)設(she)施從超(chao)算變成消費電子競(jing)爭,褐蟻是第一個(ge)十萬(wan)元(yuan)級運行(xing)(xing)DeepSeek滿(man)血(xue)671B、FP8非量化且對(dui)話速度在20TPS以上的(de)解(jie)決方案,用數量級碾壓的(de)競(jing)爭力讓全(quan)行(xing)(xing)業(ye)對(dui)AI超(chao)算祛魅。
近期(qi)行云將推出(chu)蟻(yi)群,實現500~1000有(you)(you)效并(bing)發下最高質量(liang)模型的流暢體驗,價格在(zai)300~400萬(wan)價位,接近DeepSeek公有(you)(you)云的性價比;此外,計劃在(zai)明年年底推出(chu)自(zi)研GPU芯片,相比褐(he)蟻(yi)性能將有(you)(you)數倍提升,集(ji)群化后(hou),相比蟻(yi)群可(ke)以數倍提高有(you)(you)效并(bing)發。
▲行云集成電路(lu)聯合創(chuang)始(shi)人、CTO余洪敏
2、安謀科技鮑敏祺:NPU如何助力端側設備突破內存、算力、功耗三堵墻?
安謀科(ke)技(ji)產品總監鮑敏(min)祺觀(guan)察到(dao),端(duan)側(ce)設備正逐步承擔更(geng)多AI計算任務,端(duan)側(ce)AI模型在算法迭(die)代、上下(xia)文(wen)長度擴展和模型理解力提(ti)升等方面(mian)進展迅速。
隨著模型的(de)演進(jin),端側AI硬件也(ye)面臨新的(de)需(xu)求(qiu):一是算(suan)力(li)(li)需(xu)求(qiu)持續增長,計算(suan)精度(du)從INT向FLOAT轉變,需(xu)通過多核協同實現算(suan)力(li)(li)提升(sheng);二(er)是大(da)模型對帶寬要求(qiu)更高,可(ke)通過提升(sheng)數據本(ben)地(di)化(hua)程(cheng)度(du)減少數據傳輸(shu)距離,從而優化(hua)能效比(bi);三是需(xu)要優化(hua)硬件中向量計算(suan)與矩陣計算(suan)的(de)配(pei)比(bi)。
為應對“內存墻(qiang)(qiang)”、“算(suan)力墻(qiang)(qiang)”和“功耗墻(qiang)(qiang)”三大挑戰,安謀科技正升級(ji)其自研“周(zhou)易”NPU產(chan)品,如擴展數(shu)據(ju)類型支持(chi)、新增(zeng)W4A16硬件加(jia)速(su)和DSA加(jia)速(su)功能、提供更為豐富的算(suan)子庫等,持(chi)續驅動終端(duan)(duan)算(suan)力躍(yue)遷,助力產(chan)業把握端(duan)(duan)側AI“芯”機(ji)遇。
▲安(an)謀科技(ji)產品總監鮑敏(min)祺
3、實在智能歐陽小剛:Agent端側性能超GPT-4o 10%,一體機30分鐘開箱部署
實在智(zhi)能合伙人、核心(xin)算(suan)法負責人歐(ou)陽小剛(gang)提到,算(suan)力需求與(yu)場景落(luo)地的雙向倒逼,正推動智(zhi)能體技(ji)術端側的探(tan)索革新(xin)。
其公司行(xing)業首發的(de)通用智能(neng)(neng)體(ti)(ti)“實在(zai)Agent”,專(zhuan)注跨系(xi)統(tong)、鏈接(jie)各類軟(ruan)件的(de)辦公流程(cheng)自動化。其自研(yan)的(de)實在(zai)TARS大模(mo)型和(he)TARS-VL大模(mo)型分(fen)別在(zai)垂(chui)域(yu)任務理(li)解性能(neng)(neng)超(chao)越GPT-4o達10個百分(fen)點,GUI多模(mo)態理(li)解能(neng)(neng)力(li)領先3%,而通用能(neng)(neng)力(li)幾乎無損;同時,該(gai)模(mo)型支(zhi)持私有化部署,深度融(rong)合RPA與智能(neng)(neng)體(ti)(ti)工(gong)作(zuo)流,實現瀏覽(lan)器、桌面應(ying)用、移動端的(de)無縫操(cao)作(zuo),支(zhi)持一(yi)鍵流程(cheng)編輯和(he)智能(neng)(neng)體(ti)(ti)共享(xiang),降低30%重(zhong)復開發成本。
歐陽小(xiao)剛提到與惠(hui)普聯(lian)合打造的Z系列(lie)數(shu)字員工一(yi)體(ti)機:基于(yu)HP Z8 Fury G5工作站,得益于(yu)四(si)塊NVIDIA 5880 Ada的強大算力,開箱30分鐘完成部(bu)署,核心業(ye)務數(shu)據全程本地處理(li)。
▲實在智能合伙人、核心算法(fa)負責人歐陽小(xiao)剛
4、 白山云科技李金鋒:以邊緣計算破解AI推理時延與成本難題
白山云科技(ji)智算(suan)產品研發(fa)負責人(ren)李金鋒談到,AI推理(li)面(mian)臨網(wang)絡時(shi)延(yan)與成本挑戰,對邊緣(yuan)計算(suan)的(de)需求日(ri)益增(zeng)長。當前的(de)云邊端(duan)架構(gou)依然適用:中心云集(ji)中計算(suan),追(zhui)求性能(neng)極致(zhi)優化;邊緣(yuan)云在靠近(jin)用戶處提供算(suan)力(li),作為重要補充,現可處理(li)百億參(can)數內(nei)大模(mo)型推理(li),顯著降(jiang)低時(shi)延(yan);終端(duan)算(suan)力(li)則在保障數據隱私場景(jing)中發(fa)揮(hui)作用。
針對邊(bian)緣云節(jie)點分(fen)散(san)帶來的(de)算(suan)力管理(li)難、任務(wu)調度復雜(za)和單節(jie)點資源有(you)限等(deng)挑(tiao)戰,李金鋒介紹可通(tong)過全網任務(wu)調度、彈(dan)性算(suan)力調度、模型加載優(you)化及單節(jie)點推理(li)性能優(you)化等(deng)方式解決(jue)。
依托覆蓋全球的(de)1700多個(ge)具(ju)備計算(suan)、存儲、安全能(neng)力的(de)數據節點及(ji)150多個(ge)海外運營商資源,白山云能(neng)輕松(song)升級GPU算(suan)力,有(you)力支撐邊緣推理服務(wu)。
▲白(bai)山(shan)云(yun)科技智算產品研發(fa)負(fu)責人(ren)李金鋒
5、Alluxio傅正佳:用去中心化架構方案,解決AI數據湖困境
Alluxio首席架構師傅正佳談道,AI 數據(ju)(ju)全鏈路(lu)各(ge)環節面(mian)臨的不(bu)同(tong)難題,以及環節間(jian)數據(ju)(ju)交互導致的資源(yuan)浪費與效率低(di)下,其本質都是數據(ju)(ju)湖困境(jing)的體現。
Alluxio介于分布式計算框架(jia)與(yu)(yu)存儲(chu)系統(tong)之間,可以做(zuo)到(dao)對(dui)當前(qian)AI Infra“零(ling)改造無侵入”,并提升數(shu)據安全性(xing),還可以統(tong)一(yi)納(na)管數(shu)據孤島,提供高性(xing)能緩(huan)存層。Alluxio采用(yong)去(qu)中(zhong)心化架(jia)構,支持100億以上對(dui)象(xiang),能夠(gou)降(jiang)低數(shu)據工程復雜度與(yu)(yu)成(cheng)本(ben),提升模型迭代效率(lv)與(yu)(yu)數(shu)據方向速度。
Alluxio的核心技術(shu)包括(kuo)協議轉(zhuan)換、數據緩存層以及虛(xu)擬數據湖等,可應(ying)用于智駕(jia)、機器學習訓(xun)練(lian)、智算(suan)(suan)、AI模型分(fen)發、科學計算(suan)(suan)等場景。基準測(ce)試顯示,其性能與全球頂尖并行系統持平,成(cheng)本更低,GPU利用率可達(da)95%及以上。
▲Alluxio首席架構師傅正佳
6、浩云長盛趙亮:智算時代數據中心變革,液冷、超高壓直流成大勢所趨
浩云長盛集團首席增長官(CGO)趙亮稱,隨著智算時(shi)代的(de)(de)到來(lai),數據中(zhong)心的(de)(de)算力密度(du)不斷提升,同時(shi),大模型推理和訓推一(yi)體的(de)(de)需求也在增長。
這些變(bian)化對數據中(zhong)心的(de)(de)(de)供電和制冷系統提(ti)(ti)出了巨大挑戰,設計和架構(gou)需要重(zhong)大調整。如今,數據中(zhong)心應(ying)配備更(geng)高的(de)(de)(de)層(ceng)高和更(geng)強的(de)(de)(de)承重(zhong)能(neng)力,以滿足(zu)密度的(de)(de)(de)提(ti)(ti)升(sheng),隨之而(er)來的(de)(de)(de)散熱問題讓液冷成為必然選(xuan)擇。在電力層(ceng)面,能(neng)夠減少能(neng)源轉換(huan)損(sun)耗、提(ti)(ti)升(sheng)電力運營效(xiao)率的(de)(de)(de)高壓直流技(ji)術正獲得廣泛(fan)采用。
此(ci)(ci)外,數據(ju)中心的選(xuan)址(zhi)也(ye)至關重要(yao),需綜合考慮電力(li)供應便利(li)(li)性、運維便利(li)(li)性、算力(li)設備梯級利(li)(li)用(yong)(yong)和實際應用(yong)(yong)場景,而非簡單地將其布局在(zai)能源成本較低的地區(qu),因此(ci)(ci)把訓推(tui)一體智算中心建設在(zai)一線城(cheng)市周邊更有優勢。
▲浩云長盛集團(tuan)首席增(zeng)長官CGO趙亮
7、矩向科技黃朝波:模算云破局算力浪費,毛利躍升超10倍
上(shang)海矩向(xiang)科技創始人兼CEO黃朝波指出,當前(qian)智算中心深陷(xian)無序(xu)建設、架構封閉、遠離業務場景三(san)重困局,導(dao)致區(qu)域算力(li)閑(xian)置、資源(yuan)利用率不足。
傳統硬件堆砌模式已無法滿(man)足AI爆發需(xu)求,唯有通過整(zheng)合算(suan)力(li)、模型(xing)與(yu)應用的(de)(de)模算(suan)云平臺重構價值鏈,將電力(li)轉(zhuan)化為(wei)算(suan)力(li)、模型(xing)力(li),并深加工(gong)為(wei)應用賦能能力(li),以此來實現算(suan)力(li)服務(wu)(wu)毛(mao)利的(de)(de)躍遷。以3000P AI算(suan)力(li)為(wei)例,服務(wu)(wu)毛(mao)利從(cong)智算(suan)中心的(de)(de)1億(yi)飆升至模算(suan)云的(de)(de)10多億(yi),增幅超10倍(bei)。
模(mo)算云模(mo)式以輕(qing)資產實(shi)現高(gao)產出:政(zheng)府可統籌閑置算力賦能中小企(qi)(qi)業,企(qi)(qi)業可通過開箱(xiang)即用的MaaS服務降低AI門(men)檻;技術上采用異構(gou)協(xie)同,國產芯片(pian)覆蓋80%計算量,英偉達(da)GPU兜底剩余需求,同時結合云邊(bian)端(duan)協(xie)同,進一步降低推理成本,縮短業務落地周期。
▲上海矩向科技創始人兼CEO黃朝波
8、趨動科技張增金:通用行業GPU利用率不足30%,軟件定義AI算力成必然趨勢
趨動(dong)科技技術總(zong)監張增金指出,盡管生成式AI算(suan)力(li)市場熱度(du)高漲,但非生成式AI的規(gui)模仍是其兩倍(bei),從(cong)運營層面來看,蘊藏(zang)著巨大的收(shou)入潛力(li)(IDC 2025)。在國內眾多智算(suan)場景中(zhong),GPU平均利(li)用率低至5%左(zuo)右,主(zhu)要原因(yin)在于異構資源分配方式粗放(fang)、調度(du)機制(zhi)缺(que)失以(yi)及管理(li)效率低下等問題(ti)。
采用(yong)軟件(jian)(jian)(jian)定(ding)義AI算力(li)的(de)(de)模式,通過(guo)軟件(jian)(jian)(jian)對(dui)算力(li)基礎設(she)施進行重新構(gou)建(jian),實現硬件(jian)(jian)(jian)資(zi)源的(de)(de)按需動(dong)態調(diao)(diao)用(yong),能(neng)夠有效解決當前異構(gou)硬件(jian)(jian)(jian)利用(yong)率低、調(diao)(diao)度模式僵(jiang)化(hua)等難題,避免(mian)因資(zi)源管理不善而引發的(de)(de)系統(tong)瓶頸。
張增金表示(shi),未來,軟(ruan)件定(ding)義將成為(wei)智算(suan)中(zhong)心(xin)的關鍵發(fa)展方向。在一(yi)系列(lie)行業實踐中(zhong),趨動科技(ji)借助軟(ruan)件定(ding)義技(ji)術(shu),助力某客(ke)(ke)戶將整(zheng)體GPU平均利(li)用率從8%提升(sheng)(sheng)至(zhi)35%,峰值平均利(li)用率從15%躍(yue)升(sheng)(sheng)至(zhi)60%。目前,趨動科技(ji)已與(yu)數百家家來自運營商(shang)、金融、能源電力、制造業等領域的客(ke)(ke)戶展開了深度合作。
▲趨動科技技術總監張(zhang)增金(jin)
結語:中國AI算力蓬勃向前,技術創新加速涌現
在中美博弈的(de)背景下,國產(chan)大模型們強勢(shi)突圍(wei),帶動了(le)國內AI算(suan)(suan)(suan)(suan)力(li)需求的(de)持續增長,算(suan)(suan)(suan)(suan)力(li)需求發生結構(gou)性變化(hua)、推理算(suan)(suan)(suan)(suan)力(li)需求增速(su)遠超預期,中國AI算(suan)(suan)(suan)(suan)力(li)產(chan)業不斷(duan)迎來新的(de)機遇和(he)挑戰,諸多優秀企業通過技術創(chuang)新破解算(suan)(suan)(suan)(suan)力(li)難題,加速(su)AI的(de)產(chan)業化(hua)落地。
站在技(ji)術與產(chan)業(ye)共振(zhen)的歷史節點(dian),我們每一(yi)個人,都正(zheng)在見證和參與一(yi)場激動人心的技(ji)術躍遷。隨著Agent浪潮的涌起(qi)、端側智能的加速落地、具身智能的覺醒、產(chan)業(ye)AI加速賦(fu)能,AGI的曙光正(zheng)離(li)我們越(yue)來(lai)越(yue)近。
中國AI算力產業必(bi)將乘著(zhu)這股(gu)勁(jing)流揚帆起航,駛向更(geng)廣闊的AI星辰(chen)大海。