智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影

隨著(zhu)大模(mo)型(xing)(xing)的(de)快速演進和模(mo)型(xing)(xing)參數(shu)規模(mo)的(de)快速增長,AI算力需求正呈現爆發(fa)式態勢。然而,支撐芯片發(fa)展(zhan)的(de)摩爾定(ding)律已逼近(jin)物理極限,晶體管微縮帶來的(de)成本呈指數(shu)級上升,性能提升幅(fu)度卻逐年收窄(zhai)。

這一根本性矛盾促使業界亟需探索一種能繼續擴展AI基礎設施的解決方案。超節點技術(shu)應運(yun)而(er)生,通過數十張乃至數百張加(jia)速卡的(de)高帶寬互連,將相對獨立的(de)計算資(zi)源整合(he)為統(tong)一的(de)超級(ji)計算單元,突(tu)破了(le)傳統(tong)架構在(zai)規模擴展上的(de)瓶頸(jing)。

不過,在國內環境中,由于高端算力的缺乏,國產超節點方案往往需要整合更大規模的集群,這對(dui)互連技術提出了更高的要求。在帶寬(kuan)、能耗(hao)、傳(chuan)輸距離上較(jiao)傳(chuan)統電互連方案更具優勢的(de)(de)光學(xue)方案的(de)(de)應用,有望逐步成(cheng)為推動超節點性能提(ti)升的(de)(de)關鍵驅動力。

就在昨天,國內光電混合算力獨角獸曦智科技在世界人工智能大會(WAIC)上發布了國內(nei)首(shou)個光(guang)互連光(guang)交換GPU超節點(dian)光(guang)躍LightSphere X,并聯合壁仞科技(ji)、中興通訊(xun)首次進行示范應用,即(ji)將(jiang)于上海(hai)儀電國產超節點(dian)算力集群落地。

超節點迎最佳拍檔!上海獨角獸首創分布式光交換芯片,成果已獲頂會認證

憑借全球首創的分布式光交換技術,光躍LightSphere X獲(huo)得世界人工智(zhi)能(neng)大(da)會的(de)最高獎項,2025 SAIL獎,并成為SAIL四大(da)評(ping)價維度(Superior, Application, Innovation, Leading)中“Innovation”(創新)維度的(de)標桿案例。

超節點迎最佳拍檔!上海獨角獸首創分布式光交換芯片,成果已獲頂會認證

近日,智東西與曦智科技創始人兼CEO沈亦晨(chen)博士(shi)、曦智科技聯合創始人兼CTO孟懷宇(yu)博士以及曦智科技互連產品線副總裁朱劍進(jin)行(xing)了近2個小時的(de)深入溝通(tong),他們向(xiang)智(zhi)東(dong)西等媒體剖析了光躍LightSphere X背后的(de)技術創新(xin)與曦智(zhi)科技對光電混合(he)算力(li)行(xing)業(ye)的(de)長(chang)期展望。

一、超節點互連技術路徑分野,國產方案如何突圍

當下,海外的(de)超節(jie)點方案基本由英(ying)偉達主導,使(shi)用電交換構建單柜(ju)達72卡(ka)的(de)大規模超節(jie)點,也就(jiu)是所謂的(de)GB200 NVL72。

該解決方案依賴于一個在國內看來幾乎有(you)些“奢(she)侈”的前提——每張GB200的算力數倍于(yu)國(guo)產(chan)(chan)卡(ka)。若要實現同等效(xiao)果,國(guo)產(chan)(chan)超節點可(ke)能需要進(jin)行成百上千卡(ka)的互連,在現有條件(jian)下,基本難以在單機柜內實現。

即便從理論上可行,單機柜內構建如此密集的電互連方案本身也面臨極高的技(ji)術挑戰和投入成本,對(dui)于目前國內的產業(ye)基礎來說,依然是一項極具挑(tiao)戰(zhan)性的任務。

超節點迎最佳拍檔!上海獨角獸首創分布式光交換芯片,成果已獲頂會認證

因此,國產解決方案更可行的路徑或許是通過增加機柜數量,先確保計算(suan)卡的(de)總量,再通過高效互連(lian)技(ji)術組成超節點。

沈亦晨博士稱,在多機柜場景下,傳統的銅導線連接距離一旦超過1-1.5米,就無法滿足超節點對帶寬和延時的嚴苛要求,光互連(lian)幾乎成為必(bi)選項。

谷歌曾在其TPU光互連超節點方案采用集中式光交換,實現GPU集群間的跨機柜通信。不過,該方案專為TPU定制,硬件(jian)成本高昂,對(dui)全棧(zhan)軟件(jian)能力要(yao)求較(jiao)高,目前除了谷歌外尚未有其他(ta)廠商采(cai)用。

前段時間帶(dai)火超(chao)節點概念的(de)華為昇騰CloudMatrix 384超(chao)節點,也使(shi)用了(le)光互連網絡(luo),配備近7000個光模塊,讓(rang)數百(bai)塊GPU能實(shi)現(xian)高效協同(tong)。

此外,要打造高效的超節點方案,交(jiao)換也是極為(wei)關鍵的一環。

沈亦晨博士介紹,在模型訓練過程中(zhong),不同(tong)階段GPU間的通信(xin)拓撲存在動態變化(hua)。英偉(wei)達采用NVSwitch電(dian)交換芯(xin)片集中(zhong)調度(du)NVLink信(xin)號,類似交通信(xin)號燈統(tong)一分配各GPU間的通信(xin)路徑。

然而,國內GPU廠商普遍缺乏同類高性(xing)能電交(jiao)換芯片,現(xian)有解決方案在性能(neng)上仍與英偉達存在顯著差距(ju)。此外,國內GPU廠商的互(hu)連接口(kou)協(xie)議也各(ge)不相(xiang)同,傳統(tong)交(jiao)換機(ji)無(wu)法做到統(tong)一(yi)調(diao)度。

面臨種(zhong)種(zhong)挑戰,國產超節點方案(an)(an)究竟(jing)應該如(ru)何破局?作為國內乃至(zhi)全球領先的光電混合算力提供(gong)商,曦智科技依托其在光子計算和光子網絡的技術積累(lei),交(jiao)出(chu)國內首個光互(hu)連光交(jiao)換(huan)GPU超節點解決方案(an)(an)光躍LightSphere X。

二、首創分布式光交換芯片,相關成果獲頂會認證

光躍LightSphere X的核心技術,是曦智科技全球首創的基(ji)于硅光子技術(shu)的分布式(shi)光交換dOCS(distributed Optical Circuit Switch)芯(xin)片(pian)。

若把傳統集中式的交換芯片比為中央物流中心,將每張計算卡(ka)比為一個車(che)間,分布式光交換技術所進行(xing)的調整,就是取消了中(zhong)央物(wu)流中(zhong)心,轉(zhuan)而在(zai)每(mei)個車(che)間旁邊設置小型物(wu)料中(zhong)轉(zhuan)站,使(shi)物(wu)料傳輸路徑更(geng)短(duan)、更(geng)直接(jie)。

超節點迎最佳拍檔!上海獨角獸首創分布式光交換芯片,成果已獲頂會認證

得益于這一架構,光躍LightSphere X可靈活配置超節點的規模,并可靈活切換GPU間互(hu)連拓(tuo)撲結構,以(yi)適應不(bu)同模型負載對通信模式的差異化需求。

在大規模訓練、推理場景中,上述解決方案在GPU冗余率上展現出明顯優勢。傳統超節點必須整體運作,單卡故障會導致整個節點下線,冗余成本高;而分布式光交換讓超節點(dian)支持動態(tai)重組(zu)——當檢測到異常(chang)時,系統(tong)可自動移除故(gu)障節點,接入備份服務(wu)器重(zhong)新(xin)組網。

這種“卡級冗余”相比傳統“節點級冗余”大幅降低備用資源需求,將(jiang)冗余比例從(cong)整節點壓縮到(dao)單卡級別(bie),冗余率僅(jin)為英偉達、谷(gu)歌(ge)等方(fang)案的1/10。

超節點迎最佳拍檔!上海獨角獸首創分布式光交換芯片,成果已獲頂會認證

光躍LightSphere X解決方案在商用光電轉換模組的基礎上,增加了用于光交換功能的芯片,以較低的成本實現了分布式的光交換。分布式設計方案(an)幾乎可(ke)以無限(xian)擴展,突破了傳統交換芯片對連接數(shu)量(liang)的限(xian)制。

在本屆WAIC期間發布的光躍LightSphere X獲得了SAIL獎(jiang)(WAIC最高獎(jiang)項),也成為該獎(jiang)項創新維度(du)的標桿案例。而dOCS相(xiang)關方案則收(shou)錄于國(guo)際(ji)通信網絡旗(qi)艦會議SIGCOMM 2025。

除了技術方面(mian)的突破之外,光(guang)躍LightSphere X還對國產算(suan)力(li)生態(tai)起到了一定(ding)的推動(dong)作用(yong)。

當下,國產GPU類型、架構龐雜,協議各有區別,難以形成協同效應。而光交換本身不依(yi)賴于(yu)特定的數(shu)據傳(chuan)輸協議,這意味(wei)著它能無(wu)縫兼容不同(tong)廠商使用的(de)互連協議。這有效緩解(jie)了(le)開(kai)放生態中缺(que)乏高效Scale-Up交換芯片(pian)的(de)現狀(zhuang),推動了(le)基于光交換的(de)Scale-Up技術(shu)路徑(jing)。

此外,dOCS芯片基于硅光技術,其設計與制造不依賴于先進半導體工藝節點,這對(dui)提升算(suan)力基礎設施供(gong)應鏈的安全性(xing)與(yu)韌性(xing)也有較(jiao)大意(yi)義。

三、硅光技術迎來歷史機遇期,5年內硅光芯片占比或將達30%

光躍LightSphere X是曦智科技在AI算力需求大爆發的當下,對光電混合算力的最新探索,這離不開曦智成立8年多來在硅光技術上的長期投入。該公司擁有光子矩(ju)陣計算(oMAC)、片上光網絡(oNOC)和片間光網絡(oNET)三大領域的核心技(ji)術,并打造了光子(zi)計算和(he)光子(zi)網(wang)絡兩大產品線(xian)。

超節點迎最佳拍檔!上海獨角獸首創分布式光交換芯片,成果已獲頂會認證

沈亦晨認為,近兩年,硅光技術在國際上的熱度和重視度不斷攀升,可能已(yi)經走到歷史上最(zui)好的階(jie)段。面臨這一歷史機遇(yu)期(qi),曦智(zhi)從兩年(nian)前便(bian)開始聚(ju)焦產品(pin)化、商業化,業務收入在過去3年(nian)內(nei)快速(su)增(zeng)長,今年(nian)芯片出貨量已經達(da)到數萬顆。

放眼未來(lai),曦智科技的高管們(men)一(yi)致(zhi)認為(wei),隨著算(suan)力集群和算(suan)力需求越來(lai)越大,硅(gui)光是(shi)必然的解決方案。雖然國際(ji)上純電互連仍占(zhan)主(zhu)導,但(dan)華為(wei)這一(yi)主(zhu)流廠商已將光互連引入超節點解決方案,英偉達的下一(yi)步也可能是(shi)如此。

此外,光互連和光交換技術當前仍屬于系統級方案,通過外接光模組實現,通過不斷迭代,未來光互連和光交換器件有望與主芯片實現共(gong)封(feng)裝,從而(er)進一(yi)步提高帶寬(kuan)和能效。

沈亦晨預測,未來五年,硅(gui)光芯(xin)片在智算(suan)中心(xin)的(de)占(zhan)比有望提升至30%以上。隨著規模化量產(chan),硅光芯片(pian)成本將成倍下降,推動(dong)成本降低到應用普及的(de)正(zheng)向(xiang)循環。

具體來看,他認為光互連有望率(lv)先在未(wei)來幾年(nian)出(chu)現指(zhi)數級增長;光計(ji)算(suan)則從(cong)大模型推(tui)理、AI for Science等追(zhui)求極致性(xing)能的場景切入(ru),逐步擴展通(tong)用性(xing)。

曦智科(ke)技(ji)目前(qian)擁(yong)有一支近250人的團隊,核心成員由來自麻省(sheng)理工(gong)學院(yuan)的頂尖科(ke)學家和擁(yong)有豐富半導體行(xing)業經驗(yan)的業界知名(ming)人士組成,在上(shang)海(hai)、杭(hang)州、南京、北京、新加坡等地均設有辦(ban)公室及實(shi)驗(yan)室。

自成立以來,曦(xi)智科技(ji)在(zai)產品進展、技(ji)術(shu)研(yan)發(fa)、融資(zi)規模等(deng)方(fang)(fang)面均(jun)位(wei)居全球光(guang)電混合賽(sai)道前列。孟懷宇博(bo)士透露,曦(xi)智在(zai)光(guang)學(xue)芯片、模擬芯片、先進封裝技(ji)術(shu)等(deng)方(fang)(fang)面都擁(yong)有前瞻性的技(ji)術(shu)儲備。

負責互連產品線的(de)朱劍(jian)則稱,曦智有很多先進的(de)技(ji)術儲備,但該公司會采取(qu)較為務實的(de)態度,根(gen)據市場的(de)發(fa)展階段(duan)提供適合的(de)解決方案。

結語:實現從0到千卡突破,光電融合已成行業大勢

光(guang)電混合算力(li)作(zuo)為一(yi)項前沿技術(shu),在落地的時候必然面臨客戶原(yuan)有技術(shu)路徑的慣性問題。沈亦晨(chen)透露,直到如今,曦智仍(reng)需要花精力(li)“教育市場”,逐步(bu)說服廠(chang)商采用(yong)這一(yi)技術(shu)。

令(ling)人(ren)慶幸(xing)的(de)(de)是(shi),曦智已在光(guang)(guang)躍LightSphere X方案上實(shi)現(xian)了從0到千卡突破,將對光(guang)(guang)互連超節(jie)點方案的(de)(de)魯(lu)棒性和成本效益驗證起到極大的(de)(de)推動作用。

在智東(dong)西(xi)與曦智的溝通中,我們清楚地感受到(dao)其(qi)發展路徑(jing):以光電混合算力技(ji)術為支點,逐步撬動算力基(ji)礎設施的升級,同時保持(chi)對“光替代電”的長期信(xin)仰。