智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影

在剛剛過去的7月份,國產模型迎來一波重磅開源。與以往不同的是,本次國內大模型玩家們開源模型的參數量成倍增長,達到數千億乃至萬億級別。這不僅顯著提升了國產模型(xing)(xing)的(de)能力上限(xian),也為各行(xing)業智能化轉型(xing)(xing)提供了新一代強大的(de)智能基座(zuo)。

然而,隨著模型(xing)(xing)體量不斷攀升,對應的基礎(chu)設施正面臨(lin)前所未有的挑戰。傳統(tong)集群(qun)架(jia)構在通信效率、I/O性(xing)(xing)能和系統(tong)擴展性(xing)(xing)等方面逐漸暴露出(chu)瓶(ping)頸(jing),已難(nan)以滿足當前開(kai)源模型(xing)(xing)的部署需求。

在這樣的背景下,各類“超節點(dian)”方(fang)案應(ying)運而生。作(zuo)為面向(xiang)大模型的新一代基礎(chu)設施(shi)架(jia)構,超節點通過在(zai)(zai)單系統(tong)內部(bu)集成更多(duo)GPU資源(yuan),并顯著優化節點間(jian)的通信性(xing)能,有(you)效突(tu)破了傳統(tong)架(jia)構在(zai)(zai)大規(gui)模分布式計算中的性(xing)能瓶(ping)頸。

昨日,浪潮信息正式發布了其面向萬億參數大模(mo)型的超(chao)節點AI服(fu)務器——“元腦SD200”。得益于浪潮(chao)信息自研的多主(zhu)機低延遲內(nei)存語義通(tong)信架構,SD200在單機內(nei)集成64路加速(su)計算(suan)芯(xin)片,單機支持DeepSeek、Qwen、Kimi、GLM四(si)大國產頂級(ji)開源(yuan)模型同時運行,以及多智能體(ti)實時協作與按(an)需調(diao)用。

單機支持超萬億參數模型!浪潮信息發布超節點,給開源AI打造開放底座

浪潮信息一直是開放計算生態的積極推動者,本次其此次推出的超節點方案采用了OCM+OAM的開放(fang)架構設計,兼容多款本土(tu)GPU芯(xin)片與大部分主流AI框架,目(mu)前已(yi)率先實(shi)現商用。

在(zai)國產開源模(mo)型奮力追趕(gan)智(zhi)能(neng)上限之際,浪潮信(xin)息的(de)開放超節點,有(you)望(wang)成為承(cheng)載萬億(yi)參數模(mo)型的(de)重要(yao)底座(zuo)之一。

一、廠商競相追逐超節點,開放架構需求凸顯

在探討“超節點”對行業所帶(dai)來(lai)的(de)(de)深遠影響之前,我們有必要先厘(li)清這(zhe)一技術誕生的(de)(de)背景。

首先,模型規模的持續膨脹正在逼近(jin)現有硬件的(de)承載(zai)極(ji)限。大模型加(jia)速邁向萬億參數規模,同時上下文長度不斷擴(kuo)展,直接推高了推理過程中的(de)鍵(jian)值(zhi)緩存(KV Cache)需求。顯存與帶寬,正(zheng)成為壓在AI基礎設(she)施之上的(de)兩座大山。

與此同時,隨著大模型加速進入千行百業,推理型負載成為主流計算模式,而推理是一種高度通信敏感(gan)的計(ji)算過程。以Qwen3-235B模型為例,若要實現100 tokens/s的解碼速(su)度,單個token需完成(cheng)多(duo)達188次(ci)(ci)的All-to-All通信,且每次(ci)(ci)通信的延遲必須控(kong)制在53微秒(miao)以內。

更不容忽視的是,Agentic AI的興起正在進一步拉高對計算系統的需求。具備自主規劃、多模態感知與連續執行能力的智能體,在執行任務時生成的token數量往往是傳統模型的數十倍甚至上百倍,動(dong)輒需(xu)要處(chu)理數(shu)十(shi)萬乃至數(shu)百(bai)萬token。

算力基礎設施面臨的上述三大關鍵挑戰,使其走到升級重構的臨界點。為了支撐萬億參數級模型的高效運行,構建高度集成、低(di)延遲、高帶寬的Scale-Up(縱向擴(kuo)展)系統,即通(tong)過構(gou)建一個(ge)更(geng)大的高速互連域、形成“超節點”,成為現實的技術選擇(ze)。

單機支持超萬億參數模型!浪潮信息發布超節點,給開源AI打造開放底座

通過構建超低延遲的統一顯存空間,Scale-Up系統能將萬億級模型參數及激增的KV Cache整體容納于單一(yi)高速(su)互(hu)連域內(nei),保障了多芯片間高效協同執行,顯著減少跨節點通信開銷,從而大幅提升(sheng)吞(tun)吐(tu)速度并降低通信延遲,實現降本(ben)增效(xiao)。

AI算力需求側(ce)的(de)變化,正驅動供給側(ce)的(de)廠商們爭相布局(ju)前沿(yan)的(de)Scale Up方案。2024年(nian),英偉達在GTC大會上提(ti)出(chu)SuperPod的(de)概(gai)念;今(jin)年(nian),國內廠商的(de)方案更(geng)是(shi)將(jiang)超節(jie)點(dian)引入大眾(zhong)視野。

當前,業界在超節點技術方案的選擇上,存在多種路徑。在浪潮信息看來,超節點要根據客戶應用需求來選擇技術路線,要給客戶提供更多算力方案的選擇,核心策略是(shi)“開放(fang)架構”。

基于開放架構設計的超節點,能夠支持多樣化芯片、開放AI框架及主流開發工具,在保障高性能、低延遲的同時,實現跨平臺的良好兼容與靈活擴展,推動AI基礎設施真正(zheng)走向(xiang)開放、可持續的發展路徑。

二、單機運行四大開源模型,全面支持主流框架

昨日,浪(lang)潮信(xin)息在2025開(kai)(kai)放計算(suan)(suan)技術大會上正式發布元腦SD200超節點AI服務器(qi)。作為開(kai)(kai)放計算(suan)(suan)領域的重要風向(xiang)標,該(gai)大會一(yi)(yi)向(xiang)聚焦(jiao)推動(dong)算(suan)(suan)力基礎設(she)施的開(kai)(kai)放與協(xie)同,而SD200正是這一(yi)(yi)理念(nian)的典型體現(xian)。

SD200基于OCM(開放(fang)算力模組)與OAM(開放(fang)加速(su)模塊(kuai))兩大架構打(da)造。OCM標準由中國電子技術標準化研究院發起(qi),浪(lang)潮信息、百度(du)等18家(jia)算力產業上下游企(qi)業共同參與編制(zhi)。

該(gai)架(jia)構圍繞CPU和內(nei)存進行解耦設計,具備高度模塊化(hua)與標準化(hua)優(you)勢,支(zhi)持(chi)系統供電、管理、風扇等組件的獨立升(sheng)級與更(geng)換,大幅提升(sheng)了服(fu)務器的靈活性與可(ke)維護性。同(tong)時(shi),OCM支(zhi)持(chi)“一(yi)機(ji)多(duo)芯”,可(ke)快速(su)適配Intel、AMD、ARM等多(duo)種計算平臺。

OAM則由開(kai)放計算(suan)(suan)項目(OCP)社區推動(dong),是專為高性能(neng)計算(suan)(suan)與AI加速場景設計的開(kai)放模塊標(biao)準。

該架(jia)構統一了(le)加速(su)(su)卡(ka)的(de)尺寸、電氣接口和散熱(re)設計(ji),使來自(zi)不(bu)同廠商的(de)GPU、NPU等AI加速(su)(su)器可在同一系統中(zhong)協同運行,并通過高速(su)(su)互聯技術(shu)實現加速(su)(su)卡(ka)之間的(de)低(di)延遲直連,有效滿足大模(mo)型(xing)訓練(lian)與推理對帶(dai)寬的(de)極致(zhi)要(yao)求。

浪潮信息將OCM與OAM架構(gou)有機融合,為業(ye)界(jie)提供了(le)一種開放的超節(jie)點(dian)技術架構(gou)。

不過,光有“開放”的特性,仍不足以讓一款開放超節點方案獲得廣泛采用,性能同樣至關重(zhong)要。

在開放計算技術大會現場,浪潮信息副總經理趙帥曬出了SD200超節點在真實部署環境下實現的性能。在經過軟硬件的系統協同優化后,SD200超節點滿機運行DeepSeek R1全參模型推理性能提升比為370%,滿機運行Kimi K2全參模型推理性能提升比為170%

單機支持超萬億參數模型!浪潮信息發布超節點,給開源AI打造開放底座

SD200超節點配備高達4TB的顯存,能夠同時容納DeepSeek、Qwen、Kimi、GLM等多個旗艦級開源模型。趙帥稱,這樣的顯存配置具備前瞻性,不僅可滿足當前萬億級模型的部署需求,甚至為(wei)未來可能出(chu)現的2萬億(yi)、3萬億(yi)參數模型預留了充足空間(jian)。

然而,在打造這一(yi)方案時,浪(lang)潮信息(xi)并未一(yi)味追求(qiu)技(ji)術堆疊,而是更注重實際落地的(de)可行性。正如浪(lang)潮信息(xi)趙帥(shuai)在發布會(hui)后與智東(dong)西等(deng)媒體交流時所(suo)提到的(de)——客戶(hu)的(de)核心訴(su)求(qiu)是“能否快速部署、快速上業務、上應用”。

基于這一判斷,SD200在使用便利性上進行了優化設計。例如,采用風冷散熱,企業無需改造機房,即可靈活部署;在互連方案上,則選擇了更為成熟穩健的全銅電互(hu)連,提升了系統穩定性,同時降低了終端(duan)用戶的運(yun)維復(fu)雜度和成本。

此外,SD200超節點還全面兼容當前主流的開源大模型計算框架(如PyTorch,已支持2200+算子),可實現新模型的無縫遷移與“Day 0”上(shang)線,為企業構建(jian)AI應用(yong)提供(gong)了(le)即開即用(yong)的基礎平(ping)臺。

三、軟硬協同優化實現性能突破,揭秘開放超節點背后創新

這(zhe)樣一套開放超節點方(fang)案背后,是浪潮信息在融合架構(gou)和軟(ruan)硬(ying)件協同方(fang)面長(chang)達十余年的(de)深厚積累(lei)。

趙(zhao)帥分享道,自2010年起,浪潮信(xin)息持續推進融合(he)架構演進,從最(zui)初的供電、散熱等(deng)非IT資源(yuan)的整合(he),到(dao)存儲、網(wang)絡等(deng)資源(yuan)池化(hua),再到(dao)最(zui)新融合(he)架構3.0系統實現了計算、存儲、內存、異構加速等(deng)核心IT資源(yuan)徹底解耦和(he)池化(hua)。

這沉淀下來的芯片共享內存數據、統一(yi)編址技術、池(chi)化、資源動態調度等(deng)技術(shu),在(zai)今天的(de)超節點系(xi)統中得以(yi)延續和(he)應用,顯著(zhu)提升了(le)系(xi)統的(de)適配速度與商(shang)用效率(lv)。

此外,浪潮信息并非單純的硬件廠商,其在大模型領域同樣具備深度布局——早在2021年即發布首個中文巨量模型“源1.0”,其參數規模達(da)2457億,并持續在模(mo)型訓練、推理優化(hua)和軟硬件協同方(fang)面積累經驗。這些能力也為SD200這樣的超節(jie)點方(fang)案提供了堅實基礎。

為突破萬億大模型的帶來的顯存壓力,SD200超節點基于浪潮信息自主研發的開放總線交換(Open Fabric Switch)技術,首創多主機三維網格系統架(jia)構(3D Mesh)。在這一(yi)架構下,64顆(ke)本土GPU能夠以高速、低延(yan)遲的(de)方(fang)式(shi)實(shi)現互(hu)連。

更進一步,SD200通過GPU虛擬(ni)映射(she)等底層創(chuang)新,解決了多主機環境下統一(yi)編址(zhi)的(de)難(nan)題,將顯(xian)(xian)存統一(yi)地址(zhi)空(kong)間(jian)擴增8倍,顯(xian)(xian)存容量達(da)4TB,配合(he)64TB系統內(nei)存,為(wei)超(chao)大模(mo)型提供(gong)了充足的(de)KV緩存資源。

這意味著,不論是在模型訓練還是推理過程中,開發者都能像調用單機GPU一樣,靈活調度整個系統中的算力與顯存資源,極大(da)簡化了工程復雜度。實測(ce)結(jie)果表(biao)明,在推理過(guo)程常見的小數(shu)據包通信場景中,全規約(All Reduce)性能表(biao)現優異,顯著提升(sheng)計(ji)算與通信效率(lv)。

在系統層面,浪潮信息圍繞萬億參數大模型計算密集、通信敏感的特性,構建起一整套軟硬協同優化的系(xi)統(tong)方案,將64卡超節(jie)點(dian)的算力潛能釋(shi)放到極致。

單機支持超萬億參數模型!浪潮信息發布超節點,給開源AI打造開放底座

一方面,浪潮信息開發了智(zhi)能(neng)總線管理(li)系統(tong),可(ke)實現超節點64卡(ka)全局最優路(lu)由的(de)自(zi)動創建與(yu)(yu)管(guan)理。該系統不(bu)僅支(zhi)持靈活拓撲切(qie)換,還能(neng)根(gen)據(ju)業務負載(zai)動態進(jin)行資源(yuan)切(qie)分與(yu)(yu)調(diao)度,為不(bu)同(tong)類型的(de)大模型任務提供定制化的(de)算(suan)力(li)編(bian)排(pai)能(neng)力(li)。

針對All Reduce、All Gather等典型通(tong)信算子的(de)不同數據包(bao)規(gui)模,系統設計了細(xi)粒度、多(duo)層級的(de)通(tong)信策略(lve),進一步壓(ya)縮(suo)通(tong)信路(lu)徑的(de)延遲。

此外,SD200還引入了開放的(de)PD分(fen)離(li)框架(jia),將預(yu)填充(chong)-解碼(Prefill-Decoder)環節解耦,支持異步KV Cache高(gao)效傳輸,并(bing)允許針對不(bu)同模(mo)型并(bing)行(xing)需求制定差異化策略,兼(jian)顧性能與兼(jian)容性。這一設(she)計不(bu)僅提升(sheng)了(le)系(xi)統性能,也保障了(le)對多元算(suan)(suan)力架構的(de)適配能力,加強了(le)計算(suan)(suan)與通信之間(jian)的(de)協同優(you)化。

通過軟硬協同系(xi)統創新(xin),SD200成(cheng)功實現了縱向擴展,幫助本(ben)土AI芯片突破了性(xing)能(neng)邊界(jie),在大模(mo)型(xing)場(chang)景中展示(shi)出(chu)優異的性(xing)能(neng)表(biao)現。

結語:開放超節點,帶動產業鏈協同創新

在趙(zhao)帥的分享中,智(zhi)東(dong)西感受(shou)到了(le)浪潮信(xin)息對“以應用(yong)為導向(xiang)”的堅持。作為系(xi)(xi)統廠商,他們與終端客(ke)戶的距離(li)更(geng)近(jin),也更(geng)能(neng)體會到實際應用(yong)場景的痛點。也因此(ci),趙(zhao)帥稱,超節點架(jia)構本質上是系(xi)(xi)統化思維的產物,它不是某一個點的突(tu)破,而(er)是在現有技術、生態(tai)和成(cheng)本約束下(xia),從系(xi)(xi)統層面去(qu)打破芯(xin)片本身的性能(neng)邊界,最大化用(yong)戶價(jia)值。

超(chao)節(jie)點(dian)的發展(zhan)也為中國(guo)本(ben)土產業(ye)(ye)鏈(lian)提供了(le)發展(zhan)機遇——高(gao)速(su)連接器、線纜、板材、電源等上下游產業(ye)(ye)鏈(lian)廠商,都有望這個過程中找到屬(shu)于(yu)自(zi)己的突破點(dian)。這不僅能加速(su)成本(ben)下降和技術普惠,更推動(dong)了(le)智能基礎設施的“平權化”。

放眼(yan)未來,趙帥認為,AI數(shu)據中心(xin)正從“機柜級(ji)密度革(ge)命”邁(mai)向“數(shu)據中心(xin)級(ji)系統工程挑戰”,算力密度將持續攀升(sheng),能源供給、冷卻方式(shi)和(he)系統管理(li)也隨之進(jin)入全面革(ge)新(xin)期(qi)。

從芯片到架構,從系(xi)統到生態(tai),技術演(yan)進注(zhu)定不會是一(yi)條單線(xian)道路(lu),而(er)是多路(lu)徑的(de)協同創新。在這(zhe)場關于未來(lai)的(de)集體奔赴(fu)中,唯有持續(xu)(xu)開放、擁抱合(he)作,才能構筑真正(zheng)普(pu)惠、可持續(xu)(xu)的(de)智能算力基(ji)石。