智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

DeepSeek的爆火,讓一條“中國特(te)色”的算力(li)路線浮出(chu)水面。

智東西2月11日報道,今日,AI基礎設施創企無(wu)問芯穹(qiong)上線了滿血版(ban)DeepSeek-R1的國產適(shi)配版(ban),且正逐(zhu)一打通(tong)DeepSeek模型(xing)在7家(jia)國產AI芯片上的部署(shu)與(yu)推理服務(wu)。

至此,無問芯穹Infini-AI異構云大模型服務平臺成為首個同時支持DeepSeek多芯片適配和推理的平臺。開發者不僅能一鍵獲取R1、V3模型,還將能選用來自壁仞科(ke)技、海光信(xin)息(xi)、華為昇騰(teng)、摩爾(er)線程(cheng)、沐曦、燧(sui)原科(ke)技、天數智芯這7家國產(chan)AI芯片品牌(pai)的算力。

無問芯穹演(yan)示了在Infini-AI平臺上順暢調用(yong)DeepSeek-R1模型及沐(mu)曦(xi)C550 AI加速卡的流(liu)程和(he)效果。

滿血版DeepSeek免費用,7種國產AI芯片打通!一條“中國特色”算力路線浮出水面

這將DeepSeek擂響的“國產(chan)(chan)算力(li)替代”戰鼓(gu)聲,推(tui)至新的高潮。比(bi)起僅僅比(bi)拼模型精度優勢的競速(su)賽,時代的氣運(yun)已經將AI競賽的焦點,推(tui)向(xiang)一場更大組織之間完整產(chan)(chan)業(ye)鏈實力(li)的比(bi)拼。

技驚四座的DeepSeek大模型(xing),用一系(xi)列(lie)創新打破了AI算力的游戲規則,降低了訓練頂尖模型(xing)所需(xu)的硬件(jian)門(men)檻,令本土(tu)替代雄心(xin)高漲。但如何(he)利(li)用好DeepSeek模型(xing)帶來(lai)的算力優化(hua)啟示,高效盤(pan)活國產算力資源?這個(ge)難題(ti)依然待解。

DeepSeek引爆的國產算力狂歡能持續多久?狂歡過后,國產AI芯片的路又該如何往前走?其論文提出對未來硬件設計的發展建議對國產芯片有何參考價值?國產大模型的發展會對算力緊缺和算力閑置并存的現象產生何種影響?未來大模型訓練的比拼是否會演變為系統能力主導?

近日,智東(dong)西獨家對話無(wu)問芯(xin)穹聯合創始人兼CEO夏立(li)雪,深入探討(tao)在(zai)算(suan)力(li)受(shou)限的條件下,國產模型、AI芯(xin)片及智算(suan)產業如何從DeepSeek的成(cheng)功汲(ji)取經驗,通過(guo)精耕細作來降低算(suan)力(li)成(cheng)本,發揮出國內智算(suan)資源的實用價值。

滿血版DeepSeek免費用,7種國產AI芯片打通!一條“中國特色”算力路線浮出水面▲無問芯穹聯合創始(shi)人兼CEO夏立雪

一、用有限算力訓練更大模型:解讀DeepSeek的技術秘籍,如何做到對算力的極致利用?

DeepSeek大語言模型共發布了3個大版本,參數規模從67B擴大到236B再到如今671B,所用的訓練算力并未與(yu)模型尺(chi)寸(cun)等(deng)比例的成(cheng)倍增長

在美國芯?封鎖的背景下,DeepSeek通過算法(fa)、架(jia)構(gou)、?程的軟硬件協同(tong)優化(hua)創新,以有限算?、超低成本實現了性能比肩頂尖國外模型的國產模型,印證了軟硬協同這一技術路線對推動Scaling Law、突破算?瓶頸的有效性和巨?潛力

具體(ti)表(biao)現(xian)為兩大類方法:

一是深?到底層硬件的硬核優化——需要對底層的硬件有充分理解,并能夠在硬件層?得到?夠開放的軟件?態。典型技術包括底層PTX編(bian)程、精細(xi)流?線編(bian)排(pai)、極致(zhi)的內(nei)存優化

  • 底層(ceng)PTX編(bian)程:DeepSeek團隊通過?CUDA更底層的硬件接?編程實現更精細的通信任務管理,將跨節點通信的效率提?了60%,比起“繞開CUDA”更像是“穿透CUDA”。
  • 精(jing)細(xi)流水線(xian)編排:采?混合專家(MoE)結構,通過縮減模型激活參數量和限制通信范圍,犧牲通信換取模型規模增?,再通過細致的計算通信編排,實現了通信時間和計算時間將近100%重疊,成功掩蓋這些開銷。
  • 極致的(de)內(nei)存優化:通過參數共享、計算換存儲、協同使?內存顯存等技術,將顯存需求量降低了1/4以上,有效改善顯存開銷對限制模型規模的影響。

二是打通從算法到硬件的協同優化——需要對于從算法到硬件各層次都有充分理解,并具有極致的?程實現能?。典型技術包括:模型(xing)結構配合系(xi)統需求(qiu)、使?更低精(jing)度訓練、MoE負載均衡

  • 模型結構配合系統需求:修改標準Transformer(存儲?量計算中間結果會嚴重制約模型能處理的上下??度),使?隱空間注意?計算機制MLA,計算換存儲,在有限顯存中完成注意?計算。在?乎不損失算法精度的情況下,將顯存占?量降低1-2個數量級。
  • 使?更低精度訓練:通過算法上的精細分組量化、系統上CUDA核?與張量核?的并?計算,結合?量數據實驗,率先實現了利用英偉達H800上FP8低?特計算單元訓練出?質量模型,充分榨?硬件潛?。
  • MoE負載均衡:在MoE常?的負載均衡損失函數外,額外加?了限制極端情況的損失限制,并提出Auxiliary-Loss-Free技術減少負載均衡限制導致的模型精度損失,不僅將負載不均衡程度從超過50%降低到5%以內,也保證了MoE訓練精度。

依托于深厚的系統能力,DeepSeek-R1是(shi)第(di)?個成功使?強化(hua)學習(xi)實現推理能?增強、達(da)到(dao)世(shi)界最優性(xing)能,并完全開源的類(lei)OpenAI o1/o3?案。DeepSeek-R1-Zero更是(shi)探索出一條全新(xin)的無需人類(lei)思考數據,直接自我迭代的技術(shu)路(lu)線,對大模型(xing)技術(shu)發展起到(dao)了深刻影(ying)響。

二、DeepSeek的軟硬件優化策略,對國產算力產業有哪些啟示?

軟硬(ying)件(jian)(jian)(jian)聯合優(you)化(hua)是連接硬(ying)件(jian)(jian)(jian)和(he)算法的橋(qiao)梁,區別于各種算法層面優(you)化(hua)方(fang)法,和(he)硬(ying)件(jian)(jian)(jian)本身迭代(dai)的方(fang)法,而是隨著硬(ying)件(jian)(jian)(jian)變化(hua),讓軟件(jian)(jian)(jian)也不斷(duan)優(you)化(hua),或根據軟件(jian)(jian)(jian)的迭代(dai)來(lai)定義未來(lai)的底(di)層電(dian)路實現(xian),以更好地?持AI算法的運?。

夏立雪認為,DeepSeek通過軟硬件協同降低算?成本,給國內的啟?在于這套?法論可以打破現在的閉(bi)環?態瓶頸(jing)

滿血版DeepSeek免費用,7種國產AI芯片打通!一條“中國特色”算力路線浮出水面

在美國,模型、系統、芯(xin)片三個(ge)關鍵因素(su)已經形(xing)成(cheng)閉環(huan)生態(tai)。而國內(nei)多(duo)數大模型是通(tong)過國外(wai)芯?(如英(ying)偉達(da))訓練得到的,與國內(nei)的系統、芯?難以形(xing)成(cheng)閉環(huan)。

未來,中國(guo)需(xu)要(yao)依托國(guo)產(chan)模型、國(guo)產(chan)芯?、國(guo)產(chan)系統,形成(cheng)?主可控的(de)全國(guo)產(chan)AI?態閉環。實現(xian)這個?標需要(yao)分三步?:

第?步,?向國外芯?開展極致的軟硬件協同優化,以有限算?實現國產模型能?追趕國外模型。

DeepSeek已經(jing)成(cheng)功完成(cheng)了第(di)?步的(de)(de)探索,依托極致的(de)(de)軟硬件(jian)協同優化(hua),?2048塊H800 GPU完成(cheng)了V3模型的(de)(de)預訓練(lian),整體訓練(lian)成(cheng)本僅為558萬(wan)美元。而海外(wai)訓練(lian)同等能?模型所需的(de)(de)成(cheng)本通常?達數(shu)千萬(wan)美元。

第?步,依托國產和國外芯?搭建“異構”AI系統,解決算?缺?以實現國產模型能?超越國外模型。

據(ju)估算,OpenAI正在(zai)研(yan)發的(de)(de)GPT-5模型(xing)的(de)(de)參數(shu)量(liang)預(yu)計是GPT-4(參數(shu)量(liang)1800B)的(de)(de)5到10倍(bei),?少(shao)需(xu)要5萬(wan)塊H100 GPU進(jin)?訓練。我國現有(you)符合(he)條件的(de)(de)算力儲備和供給,距離實現自主可控的(de)(de)下一代模型(xing)能力超越,仍有(you)較大(da)算力缺(que)口,需(xu)要搭建(jian)?套開放(fang)?態(tai)的(de)(de)異(yi)構AI系統,推動國產芯(xin)??商開放(fang)底層(ceng)軟件?態(tai),實現國產算?的(de)(de)優勢資源集聚。

第三步,構建國產芯?“同構”AI系統,軟硬協同垂直打通實現國產模型Scaling Law的持續發展。

國外閉環(huan)AI?態是(shi)?個同(tong)構(gou)的(de)AI系統(tong),核?競爭?在于CUDA-X的(de)垂直整合(he)能?。國內可通(tong)過調動(dong)跨越軟硬件和(he)上下(xia)游的(de)?態,加?投(tou)?“模型(xing)-芯?-系統(tong)”協同(tong)優化(hua)和(he)垂直打通(tong)。

例如根據新?代模(mo)(mo)型架(jia)構來定義未(wei)來芯?的底(di)層(ceng)電(dian)路實(shi)現(xian),根據國(guo)產(chan)AI系統的互聯(lian)通信?式(shi)來設(she)計?效的MoE模(mo)(mo)型結(jie)構,充分(fen)整合上(shang)層(ceng)模(mo)(mo)型、中間系統、底(di)層(ceng)芯?的產(chan)業鏈資源(yuan),集中優勢資源(yuan),助(zhu)?實(shi)現(xian)國(guo)產(chan)模(mo)(mo)型Scaling Law持(chi)續發展。

在夏立(li)雪(xue)看(kan)來,未來大模型(xing)訓(xun)練的比拼,要(yao)同(tong)時考(kao)慮算法精度、系統(tong)效(xiao)率(lv)甚?是國(guo)家戰(zhan)略。這需要(yao)沿著軟(ruan)硬(ying)件(jian)協同(tong)的路徑,考(kao)慮中(zhong)美(mei)差異,兼(jian)顧模型(xing)、系統(tong)與芯?,最終實現模型(xing)訓(xun)練和落地成本(ben)的指數級降低,去牽引更?范圍(wei)的產業升級。

三、國產AI芯片大練兵,用“系統自信”調動“算力自信”

對于國內智算產業來說,DeepSeek是激勵,更是絕佳的商業化試煉場。

DeepSeek刺激(ji)(ji)應用需求暴漲,激(ji)(ji)發了大量推(tui)理算(suan)力需求。幾(ji)乎主流云廠商均已(yi)宣布提供R1模型(xing)服務,但(dan)全網(wang)還是很難找到(dao)服務不繁忙(mang)的(de)“滿(man)血(xue)版”。

在推理需求愈(yu)發旺(wang)盛(sheng)的背景下,國產算(suan)(suan)力(li)還(huan)有很大被利(li)用(yong)的空(kong)間。完善(shan)國內算(suan)(suan)?基建(jian)迫(po)在眉睫。

以前,國產AI芯片各行其是,各自豪言支持大模型部署,奈何觀望者眾多,實際使用者寥寥。現在DeepSeek相當于將AI芯片公司拉到同一個考場,給出統一考題:你的芯片能不能支楞起來?

于是(shi)在(zai)短短10天內,20家國(guo)產(chan)AI芯片企(qi)業(ye)摩拳擦掌,各顯(xian)其能,爭相適(shi)配或上線DeepSeek模型,以期抓住這千載難逢(feng)的增(zeng)長(chang)機遇。

這反映了中國當前特有的AI基礎設施格局:有的是芯片(pian)和算力資源,只是沒被利用起來

如何將大量不同架構的國產芯片變得能用、好用,并在使用過程中形成硬件與算法之間的正向循環?無問芯穹的策略是做異構云(yun),即統籌模型和算力需求,把分散在不同地方的異構算力整合起來,實現不同模型和不同硬件之間的統?部署和聯合優化,提供給需要算?和模型的客?。

這種將異構算(suan)力資源統一轉化(hua)(hua)成標準的算(suan)力服務、規模化(hua)(hua)復制的做法,有(you)助于擴?國內?模型(xing)產業可?算(suan)?的范圍,提升算(suan)?利?效(xiao)率。

無問芯穹由清華大學電子工程系教授、系主任汪玉發起,他帶領的清華大學納米集成電路與系統實驗室高能效計算組(NICS-EFC)早在2018 年總結出軟硬件聯合優化技術路線。無問芯穹聯合創始人、CEO夏立雪,聯合創始人、首席科學家戴國浩,均畢業于NICS-EFC;聯合創始人、CTO顏深根現任清(qing)華大學電子工(gong)程(cheng)系(xi)副研究員。

這些背景(jing)使得(de)無問芯穹吸納了(le)AI基礎設施領(ling)域的(de)頭部研發人才(cai),足夠了(le)解在(zai)?模型各種場(chang)景(jing)下的(de)異構計(ji)算卡(ka)性能,并(bing)與多家硬件公(gong)司有充分(fen)信任關(guan)系。其(qi)推理加速技術Flash Decoding++通過異步?法(fa)實現注意(yi)?計(ji)算的(de)真正并(bing)?,在(zai)10+種芯?上實現?業第?推理加速效果。

夏立雪談道,做國產芯?適配的主要挑戰來自硬件?態系統封閉且(qie)互不(bu)兼容(rong),不(bu)同芯?有(you)著不(bu)同的(de)架(jia)構(gou)和相應?具鏈

比如(ru)(ru)?A卡(ka)的開發者,?法輕(qing)易遷移?B卡(ka)上展開?作,也很難同(tong)(tong)時?A卡(ka)和B卡(ka)做?模型訓練或(huo)推理。如(ru)(ru)果?個算(suan)?集群中存在(zai)多種(zhong)芯?,算(suan)?使(shi)??會(hui)?臨很多技術挑戰(zhan),?如(ru)(ru)不(bu)同(tong)(tong)硬件平臺適配不(bu)同(tong)(tong)的軟(ruan)件棧和?具鏈,需要(yao)為每種(zhong)芯?定(ding)制(zhi)和優(you)化代(dai)碼,令開發和維(wei)護的復雜(za)性?增。

滿血版DeepSeek免費用,7種國產AI芯片打通!一條“中國特色”算力路線浮出水面

去年7?,無問芯穹就在業內(nei)?次實現千(qian)卡規(gui)模的4+2種芯?(天數智芯、華為昇騰、沐曦、摩爾線程與AMD、英偉達)異構混訓,集群算力利?率最?達到97.6%,其運營算(suan)力(li)已經覆蓋全國超13座城市。

據夏立雪分享,在不穩定的(de)生(sheng)態環境中,需要(yao)一個從算法、硬件到模型都深(shen)入理解(jie)的(de)團(tuan)隊,無問(wen)芯(xin)穹便具備這樣的(de)全棧垂直優化能力。

無(wu)問芯穹也(ye)在(zai)持(chi)續跟進(jin)業界領(ling)先的(de)(de)模(mo)型架構(gou)(gou),未來(lai)如果有更(geng)專?的(de)(de)、針對(dui)模(mo)型結構(gou)(gou)的(de)(de)計(ji)算(suan)芯?出現(xian),則(ze)可以更(geng)好地利?這些專?計(ji)算(suan)芯?,軟(ruan)硬協同優化,減少模(mo)型計(ji)算(suan)時間和硬件資源需求,降低?模(mo)型的(de)(de)開發應?成本。

結語:產業鏈?主可控是長遠之策,盤活國產智算資源一盤棋

今年春節,DeepSeek和《哪吒之魔童(tong)鬧(nao)海》兩(liang)匹國(guo)產黑馬,扭轉了中國(guo)企業技不如人(ren)的(de)成見(jian),也例證了只要(yao)實(shi)力強,自有不分(fen)國(guo)界的(de)人(ren)鼓(gu)掌。

西方的經驗畢竟(jing)是過(guo)往,未(wei)必(bi)全對。在劈開(kai)算(suan)力封鎖的路上(shang),DeepSeek踏出了成功的一步,接下(xia)來(lai)的“國(guo)產(chan)模(mo)型+國(guo)產(chan)算(suan)?+國(guo)產(chan)云服(fu)務+國(guo)產(chan)應?”全國(guo)產(chan)化(hua)AI之路,還(huan)要靠產(chan)業鏈上(shang)下(xia)游的生態伙(huo)伴合力闖出來(lai)。

近期,MIT科技評論(lun)的一(yi)篇《除DeepSeek之外(wai)值得(de)關注的4家中國AI初(chu)創公司》報(bao)道引起(qi)廣泛關注。無(wu)問芯穹是其(qi)中唯(wei)一(yi)一(yi)家專(zhuan)注于AI基建和算力供給(gei)、讓現有算力資源發(fa)揮出(chu)價值的公司。

DeepSeek證明(ming)了(le)利用(yong)有限算(suan)力加上軟(ruan)件和工程(cheng)創新,足以做出(chu)強(qiang)大(da)的(de)模型(xing),也讓國際意識到中國還存在若干路徑獨(du)特的(de)團隊,正在探尋“用(yong)Scaling Law比拼模型(xing)精(jing)度(du)的(de)巨頭(tou)競(jing)賽”之外(wai)可能(neng)出(chu)奇(qi)制勝的(de)路徑。這些(xie)路徑能(neng)夠跨越軟(ruan)硬件,攢動上下(xia)游,從而產生意外(wai)的(de)戰略(lve)奇(qi)襲。

最終,只有中(zhong)國AI開發應用(yong)成(cheng)本降(jiang)下(xia)來、中(zhong)國算(suan)(suan)力資源用(yong)起來,才(cai)能(neng)擺(bai)脫算(suan)(suan)力限制和算(suan)(suan)力閑置的掣肘,推動實現千行(xing)百業的大模型應用(yong)繁榮。