智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西8月(yue)23日報道,NVIDIA昨夜推出一項(xiang)重(zhong)要(yao)網絡創新技(ji)(ji)術——NVIDIA Spectrum-XGS以太(tai)網。這項(xiang)跨區域擴(kuo)展(scale-across)技(ji)(ji)術可將多個(ge)分布式數據中心組合成一個(ge)十億(yi)瓦級AI超(chao)級工廠。

NVIDIA Spectrum-X以太(tai)(tai)網提(ti)供橫向擴(kuo)展架構,可連接(jie)整個集群,快速(su)將海量數據集傳(chuan)輸到AI模型中,并協調整個數據中心的GPU間通信。Spectrum-XGS以太(tai)(tai)網是NVIDIA Spectrum-X以太(tai)(tai)網平臺(tai)的一部分,現可供貨。

年(nian)度(du)芯片(pian)及(ji)系(xi)統架構頂(ding)級會(hui)議Hot Chips舉行(xing)在即(ji),AI推理和網絡將(jiang)成為關注(zhu)焦(jiao)點(dian)。NVIDIA將(jiang)在Hot Chips期間(jian)重點(dian)介(jie)紹NVIDIA Spectrum-XGS以(yi)太網,并詳(xiang)細(xi)分享NVIDIA網絡、數據中心機架、神經(jing)渲染(ran)技術、NVIDIA GB10超級芯片(pian)與DGX Spark、集成硅光(guang)(guang)子學(xue)的共封裝光(guang)(guang)學(xue)器(qi)件(CPO)交換機等(deng)推理和加速(su)計算領(ling)域的最(zui)新技術進(jin)展。

隨(sui)著(zhu)AI需(xu)求的激(ji)增,單(dan)個設施內的數(shu)據(ju)中(zhong)心功率和容量(liang)已達到極限。要實(shi)現(xian)(xian)數(shu)據(ju)中(zhong)心擴展,必須打破(po)建筑物(wu)的限制(zhi),而(er)現(xian)(xian)有的商用以太網網絡基礎設施因高延遲、高抖動(dong)及(ji)性能的不(bu)可預測而(er)無法(fa)滿足需(xu)求。

對此,NVIDIA Spectrum-X以太網平臺新增Spectrum-XGS以太網,通過引入跨區域擴展(scale-across)基礎設施打破了上述限制。

NVIDIA創始人兼CEO黃仁勛談(tan)道(dao):“AI工業革命已經(jing)到來,而巨型AI工廠(chang)是(shi)這場變革的(de)(de)核心基礎設(she)施。繼(ji)縱向擴展(zhan)(scale-up)和橫向擴展(zhan)(scale-out)技(ji)術(shu)(shu)后(hou),我們又(you)通過推出NVIDIA Spectrum-XGS以太網(wang)提(ti)供跨(kua)區域擴展(zhan)(scale-across)技(ji)術(shu)(shu),將不同城市、國家(jia)乃至大洲的(de)(de)數據中心組合(he)成(cheng)龐大的(de)(de)十億瓦級(ji)的(de)(de)AI超級(ji)工廠(chang)。”

跨區(qu)域擴(kuo)展(scale-across)是繼(ji)縱向(xiang)擴(kuo)展(scale-up)和橫向(xiang)擴(kuo)展(scale-out)之(zhi)后的AI計算“第三大支柱(zhu)”。Spectrum-XGS以太(tai)網(wang)完全集(ji)成于Spectrum-X平臺,通(tong)過算法(fa)實現了(le)網(wang)絡和數據(ju)中心設施間距(ju)離動態(tai)適配。

憑借先進的、自動調節的遠距離擁塞控制、精準延遲管理及端到端遙測技術,Spectrum-XGS以太網將NVIDIA集合通信庫性能提升了近1倍,加(jia)速了(le)多(duo)GPU和多(duo)節點的通信性(xing)(xing)能(neng),實現了(le)可預測(ce)異地AI集群的性(xing)(xing)能(neng)。這樣就可以將多(duo)個(ge)數據中心(xin)組(zu)合成一個(ge)統一的AI超級工廠運行,全(quan)面優(you)化長距離連接性(xing)(xing)能(neng)。

CoreWeave等超(chao)大規(gui)模(mo)云(yun)提供商已開始部(bu)署這種新基礎設施(shi)。其中CoreWeave將成(cheng)為首批使(shi)用Spectrum-XGS以太網連接它的數據中心的企業(ye)。

Spectrum-X以太網網絡平臺為多租戶、超大規模AI工廠(包括全球最大的AI超級計算機)提供的帶寬密度較傳統以太網高出1.6倍。該平臺(tai)由NVIDIA Spectrum-X交換機和(he)NVIDIA ConnectX-8 SuperNIC組成,幫助構建未來(lai)AI平臺(tai)的企業(ye)實(shi)現無縫擴展、超低延遲和(he)空(kong)前性能(neng)。

今(jin)日最新發布(bu)是NVIDIA一(yi)系列網絡創新技術發布(bu)的(de)延續,如(ru)NVIDIA Spectrum-X和NVIDIA Quantum-X CPO網絡交換機等,這些技術一(yi)起能(neng)夠(gou)將位于不(bu)同(tong)地點(dian)的(de)數(shu)百(bai)萬顆(ke)GPU組合成AI工廠(chang),突(tu)破大規模AI基礎設(she)施(shi)性能(neng)和效率的(de)極限,同(tong)時降低能(neng)耗和運(yun)營成本。