单机支持超万亿参数模型！浪潮信息发布超节点，给开源AI打造开放底座

智東西（公眾號：zhidxcom）
作者 | 陳駿達
編輯 | 漠影

在剛剛過去的7月份，國產模型迎來一波重磅開源。與以往不同的是，本次國內大模型玩家們開源模型的參數量成倍增長，達到數千億乃至萬億級別。這不僅顯著提升了國產模型(xing)(xing)的(de)能力上限(xian)，也為各行(xing)業智能化轉型(xing)(xing)提供了新一代強大的(de)智能基座(zuo)。

然而，隨著模型(xing)(xing)體量不斷攀升，對應的基礎(chu)設施正面臨(lin)前所未有的挑戰。傳統(tong)集群(qun)架(jia)構在通信效率、I/O性(xing)(xing)能和系統(tong)擴展性(xing)(xing)等方面逐漸暴露出(chu)瓶(ping)頸(jing)，已難(nan)以滿足當前開(kai)源模型(xing)(xing)的部署需求。

在這樣的背景下，各類“超節點(dian)”方(fang)案應(ying)運而生。作(zuo)為面向(xiang)大模型的新一代基礎(chu)設施(shi)架(jia)構，超節點通過在(zai)(zai)單系統(tong)內部(bu)集成更多(duo)GPU資源(yuan)，并顯著優化節點間(jian)的通信性(xing)能，有(you)效突(tu)破了傳統(tong)架(jia)構在(zai)(zai)大規(gui)模分布式計算中的性(xing)能瓶(ping)頸。

昨日，浪潮信息正式發布了其面向萬億參數大模(mo)型的超(chao)節點AI服(fu)務器——“元腦SD200”。得益于浪潮(chao)信息自研的多主(zhu)機低延遲內(nei)存語義通(tong)信架構，SD200在單機內(nei)集成64路加速(su)計算(suan)芯(xin)片，單機支持DeepSeek、Qwen、Kimi、GLM四(si)大國產頂級(ji)開源(yuan)模型同時運行，以及多智能體(ti)實時協作與按(an)需調(diao)用。

單機支持超萬億參數模型！浪潮信息發布超節點，給開源AI打造開放底座

浪潮信息一直是開放計算生態的積極推動者，本次其此次推出的超節點方案采用了OCM+OAM的開放(fang)架構設計，兼容多款本土(tu)GPU芯(xin)片與大部分主流AI框架，目(mu)前已(yi)率先實(shi)現商用。

在(zai)國產開源模(mo)型奮力追趕(gan)智(zhi)能(neng)上限之際，浪潮信(xin)息的(de)開放超節點，有(you)望(wang)成為承(cheng)載萬億(yi)參數模(mo)型的(de)重要(yao)底座(zuo)之一。

一、廠商競相追逐超節點，開放架構需求凸顯

在探討“超節點”對行業所帶(dai)來(lai)的(de)(de)深遠影響之前，我們有必要先厘(li)清這(zhe)一技術誕生的(de)(de)背景。

首先，模型規模的持續膨脹正在逼近(jin)現有硬件的(de)承載(zai)極(ji)限。大模型加(jia)速邁向萬億參數規模，同時上下文長度不斷擴(kuo)展，直接推高了推理過程中的(de)鍵(jian)值(zhi)緩存（KV Cache）需求。顯存與帶寬，正(zheng)成為壓在AI基礎設(she)施之上的(de)兩座大山。

與此同時，隨著大模型加速進入千行百業，推理型負載成為主流計算模式，而推理是一種高度通信敏感(gan)的計(ji)算過程。以Qwen3-235B模型為例，若要實現100 tokens/s的解碼速(su)度，單個token需完成(cheng)多(duo)達188次(ci)(ci)的All-to-All通信，且每次(ci)(ci)通信的延遲必須控(kong)制在53微秒(miao)以內。

更不容忽視的是，Agentic AI的興起正在進一步拉高對計算系統的需求。具備自主規劃、多模態感知與連續執行能力的智能體，在執行任務時生成的token數量往往是傳統模型的數十倍甚至上百倍，動(dong)輒需(xu)要處(chu)理數(shu)十(shi)萬乃至數(shu)百(bai)萬token。

算力基礎設施面臨的上述三大關鍵挑戰，使其走到升級重構的臨界點。為了支撐萬億參數級模型的高效運行，構建高度集成、低(di)延遲、高帶寬的Scale-Up（縱向擴(kuo)展）系統，即通(tong)過構(gou)建一個(ge)更(geng)大的高速互連域、形成“超節點”，成為現實的技術選擇(ze)。

單機支持超萬億參數模型！浪潮信息發布超節點，給開源AI打造開放底座

通過構建超低延遲的統一顯存空間，Scale-Up系統能將萬億級模型參數及激增的KV Cache整體容納于單一(yi)高速(su)互(hu)連域內(nei)，保障了多芯片間高效協同執行，顯著減少跨節點通信開銷，從而大幅提升(sheng)吞(tun)吐(tu)速度并降低通信延遲，實現降本(ben)增效(xiao)。

AI算力需求側(ce)的(de)變化，正驅動供給側(ce)的(de)廠商們爭相布局(ju)前沿(yan)的(de)Scale Up方案。2024年(nian)，英偉達在GTC大會上提(ti)出(chu)SuperPod的(de)概(gai)念；今(jin)年(nian)，國內廠商的(de)方案更(geng)是(shi)將(jiang)超節(jie)點(dian)引入大眾(zhong)視野。

當前，業界在超節點技術方案的選擇上，存在多種路徑。在浪潮信息看來，超節點要根據客戶應用需求來選擇技術路線，要給客戶提供更多算力方案的選擇，核心策略是(shi)“開放(fang)架構”。

基于開放架構設計的超節點，能夠支持多樣化芯片、開放AI框架及主流開發工具，在保障高性能、低延遲的同時，實現跨平臺的良好兼容與靈活擴展，推動AI基礎設施真正(zheng)走向(xiang)開放、可持續的發展路徑。

二、單機運行四大開源模型，全面支持主流框架

昨日，浪(lang)潮信(xin)息在2025開(kai)(kai)放計算(suan)(suan)技術大會上正式發布元腦SD200超節點AI服務器(qi)。作為開(kai)(kai)放計算(suan)(suan)領域的重要風向(xiang)標，該(gai)大會一(yi)(yi)向(xiang)聚焦(jiao)推動(dong)算(suan)(suan)力基礎設(she)施的開(kai)(kai)放與協(xie)同，而SD200正是這一(yi)(yi)理念(nian)的典型體現(xian)。

SD200基于OCM（開放(fang)算力模組）與OAM（開放(fang)加速(su)模塊(kuai)）兩大架構打(da)造。OCM標準由中國電子技術標準化研究院發起(qi)，浪(lang)潮信息、百度(du)等18家(jia)算力產業上下游企(qi)業共同參與編制(zhi)。

該(gai)架(jia)構圍繞CPU和內(nei)存進行解耦設計，具備高度模塊化(hua)與標準化(hua)優(you)勢，支(zhi)持(chi)系統供電、管理、風扇等組件的獨立升(sheng)級與更(geng)換，大幅提升(sheng)了服(fu)務器的靈活性與可(ke)維護性。同(tong)時(shi)，OCM支(zhi)持(chi)“一(yi)機(ji)多(duo)芯”，可(ke)快速(su)適配Intel、AMD、ARM等多(duo)種計算平臺。

OAM則由開(kai)放計算(suan)(suan)項目（OCP）社區推動(dong)，是專為高性能(neng)計算(suan)(suan)與AI加速場景設計的開(kai)放模塊標(biao)準。

該架(jia)構統一了(le)加速(su)(su)卡(ka)的(de)尺寸、電氣接口和散熱(re)設計(ji)，使來自(zi)不(bu)同廠商的(de)GPU、NPU等AI加速(su)(su)器可在同一系統中(zhong)協同運行，并通過高速(su)(su)互聯技術(shu)實現加速(su)(su)卡(ka)之間的(de)低(di)延遲直連，有效滿足大模(mo)型(xing)訓練(lian)與推理對帶(dai)寬的(de)極致(zhi)要(yao)求。

浪潮信息將OCM與OAM架構(gou)有機融合，為業(ye)界(jie)提供了(le)一種開放的超節(jie)點(dian)技術架構(gou)。

不過，光有“開放”的特性，仍不足以讓一款開放超節點方案獲得廣泛采用，性能同樣至關重(zhong)要。

在開放計算技術大會現場，浪潮信息副總經理趙帥曬出了SD200超節點在真實部署環境下實現的性能。在經過軟硬件的系統協同優化后，SD200超節點滿機運行DeepSeek R1全參模型推理性能提升比為370%，滿機運行Kimi K2全參模型推理性能提升比為170%。

單機支持超萬億參數模型！浪潮信息發布超節點，給開源AI打造開放底座

SD200超節點配備高達4TB的顯存，能夠同時容納DeepSeek、Qwen、Kimi、GLM等多個旗艦級開源模型。趙帥稱，這樣的顯存配置具備前瞻性，不僅可滿足當前萬億級模型的部署需求，甚至為(wei)未來可能出(chu)現的2萬億(yi)、3萬億(yi)參數模型預留了充足空間(jian)。

然而，在打造這一(yi)方案時，浪(lang)潮信息(xi)并未一(yi)味追求(qiu)技(ji)術堆疊，而是更注重實際落地的(de)可行性。正如浪(lang)潮信息(xi)趙帥(shuai)在發布會(hui)后與智東(dong)西等(deng)媒體交流時所(suo)提到的(de)——客戶(hu)的(de)核心訴(su)求(qiu)是“能否快速部署、快速上業務、上應用”。

基于這一判斷，SD200在使用便利性上進行了優化設計。例如，采用風冷散熱，企業無需改造機房，即可靈活部署；在互連方案上，則選擇了更為成熟穩健的全銅電互(hu)連，提升了系統穩定性，同時降低了終端(duan)用戶的運(yun)維復(fu)雜度和成本。

此外，SD200超節點還全面兼容當前主流的開源大模型計算框架（如PyTorch，已支持2200+算子），可實現新模型的無縫遷移與“Day 0”上(shang)線，為企業構建(jian)AI應用(yong)提供(gong)了(le)即開即用(yong)的基礎平(ping)臺。

三、軟硬協同優化實現性能突破，揭秘開放超節點背后創新

這(zhe)樣一套開放超節點方(fang)案背后，是浪潮信息在融合架構(gou)和軟(ruan)硬(ying)件協同方(fang)面長(chang)達十余年的(de)深厚積累(lei)。

趙(zhao)帥分享道，自2010年起，浪潮信(xin)息持續推進融合(he)架構演進，從最(zui)初的供電、散熱等(deng)非IT資源(yuan)的整合(he)，到(dao)存儲、網(wang)絡等(deng)資源(yuan)池化(hua)，再到(dao)最(zui)新融合(he)架構3.0系統實現了計算、存儲、內存、異構加速等(deng)核心IT資源(yuan)徹底解耦和(he)池化(hua)。

這沉淀下來的芯片共享內存數據、統一(yi)編址技術、池(chi)化、資源動態調度等(deng)技術(shu)，在(zai)今天的(de)超節點系(xi)統中得以(yi)延續和(he)應用，顯著(zhu)提升了(le)系(xi)統的(de)適配速度與商(shang)用效率(lv)。

此外，浪潮信息并非單純的硬件廠商，其在大模型領域同樣具備深度布局——早在2021年即發布首個中文巨量模型“源1.0”，其參數規模達(da)2457億，并持續在模(mo)型訓練、推理優化(hua)和軟硬件協同方(fang)面積累經驗。這些能力也為SD200這樣的超節(jie)點方(fang)案提供了堅實基礎。

為突破萬億大模型的帶來的顯存壓力，SD200超節點基于浪潮信息自主研發的開放總線交換（Open Fabric Switch）技術，首創多主機三維網格系統架(jia)構（3D Mesh）。在這一(yi)架構下，64顆(ke)本土GPU能夠以高速、低延(yan)遲的(de)方(fang)式(shi)實(shi)現互(hu)連。

更進一步，SD200通過GPU虛擬(ni)映射(she)等底層創(chuang)新，解決了多主機環境下統一(yi)編址(zhi)的(de)難(nan)題，將顯(xian)(xian)存統一(yi)地址(zhi)空(kong)間(jian)擴增8倍，顯(xian)(xian)存容量達(da)4TB，配合(he)64TB系統內(nei)存，為(wei)超(chao)大模(mo)型提供(gong)了充足的(de)KV緩存資源。

這意味著，不論是在模型訓練還是推理過程中，開發者都能像調用單機GPU一樣，靈活調度整個系統中的算力與顯存資源，極大(da)簡化了工程復雜度。實測(ce)結(jie)果表(biao)明，在推理過(guo)程常見的小數(shu)據包通信場景中，全規約（All Reduce）性能表(biao)現優異，顯著提升(sheng)計(ji)算與通信效率(lv)。

在系統層面，浪潮信息圍繞萬億參數大模型計算密集、通信敏感的特性，構建起一整套軟硬協同優化的系(xi)統(tong)方案，將64卡超節(jie)點(dian)的算力潛能釋(shi)放到極致。

單機支持超萬億參數模型！浪潮信息發布超節點，給開源AI打造開放底座

一方面，浪潮信息開發了智(zhi)能(neng)總線管理(li)系統(tong)，可(ke)實現超節點64卡(ka)全局最優路(lu)由的(de)自(zi)動創建與(yu)(yu)管(guan)理。該系統不(bu)僅支(zhi)持靈活拓撲切(qie)換，還能(neng)根(gen)據(ju)業務負載(zai)動態進(jin)行資源(yuan)切(qie)分與(yu)(yu)調(diao)度，為不(bu)同(tong)類型的(de)大模型任務提供定制化的(de)算(suan)力(li)編(bian)排(pai)能(neng)力(li)。

針對All Reduce、All Gather等典型通(tong)信算子的(de)不同數據包(bao)規(gui)模，系統設計了細(xi)粒度、多(duo)層級的(de)通(tong)信策略(lve)，進一步壓(ya)縮(suo)通(tong)信路(lu)徑的(de)延遲。

此外，SD200還引入了開放的(de)PD分(fen)離(li)框架(jia)，將預(yu)填充(chong)-解碼（Prefill-Decoder）環節解耦，支持異步KV Cache高(gao)效傳輸，并(bing)允許針對不(bu)同模(mo)型并(bing)行(xing)需求制定差異化策略，兼(jian)顧性能與兼(jian)容性。這一設(she)計不(bu)僅提升(sheng)了(le)系(xi)統性能，也保障了(le)對多元算(suan)(suan)力架構的(de)適配能力，加強了(le)計算(suan)(suan)與通信之間(jian)的(de)協同優(you)化。

通過軟硬協同系(xi)統創新(xin)，SD200成(cheng)功實現了縱向擴展，幫助本(ben)土AI芯片突破了性(xing)能(neng)邊界(jie)，在大模(mo)型(xing)場(chang)景中展示(shi)出(chu)優異的性(xing)能(neng)表(biao)現。

結語：開放超節點，帶動產業鏈協同創新

在趙(zhao)帥的分享中，智(zhi)東(dong)西感受(shou)到了(le)浪潮信(xin)息對“以應用(yong)為導向(xiang)”的堅持。作為系(xi)(xi)統廠商，他們與終端客(ke)戶的距離(li)更(geng)近(jin)，也更(geng)能(neng)體會到實際應用(yong)場景的痛點。也因此(ci)，趙(zhao)帥稱，超節點架(jia)構本質上是系(xi)(xi)統化思維的產物，它不是某一個點的突(tu)破，而(er)是在現有技術、生態(tai)和成(cheng)本約束下(xia)，從系(xi)(xi)統層面去(qu)打破芯(xin)片本身的性能(neng)邊界，最大化用(yong)戶價(jia)值。

超(chao)節(jie)點(dian)的發展(zhan)也為中國(guo)本(ben)土產業(ye)(ye)鏈(lian)提供了(le)發展(zhan)機遇——高(gao)速(su)連接器、線纜、板材、電源等上下游產業(ye)(ye)鏈(lian)廠商，都有望這個過程中找到屬(shu)于(yu)自(zi)己的突破點(dian)。這不僅能加速(su)成本(ben)下降和技術普惠，更推動(dong)了(le)智能基礎設施的“平權化”。

放眼(yan)未來，趙帥認為，AI數(shu)據中心(xin)正從“機柜級(ji)密度革(ge)命”邁(mai)向“數(shu)據中心(xin)級(ji)系統工程挑戰”，算力密度將持續攀升(sheng)，能源供給、冷卻方式(shi)和(he)系統管理(li)也隨之進(jin)入全面革(ge)新(xin)期(qi)。

從芯片到架構，從系(xi)統到生態(tai)，技術演(yan)進注(zhu)定不會是一(yi)條單線(xian)道路(lu)，而(er)是多路(lu)徑的(de)協同創新。在這(zhe)場關于未來(lai)的(de)集體奔赴(fu)中，唯有持續(xu)(xu)開放、擁抱合(he)作，才能構筑真正(zheng)普(pu)惠、可持續(xu)(xu)的(de)智能算力基(ji)石。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、廠商競相追逐超節點，開放架構需求凸顯

二、單機運行四大開源模型，全面支持主流框架

三、軟硬協同優化實現性能突破，揭秘開放超節點背后創新

結語：開放超節點，帶動產業鏈協同創新

相關推薦