
在智猩猩聯合主辦的2025中國AI算力大會同期進行的「超節點技術研討會」上,曦智科技聯合創始人兼首席技術官孟懷宇博士圍繞《光互連、光交換:解鎖超節點規模上限》發表了主題報告。
孟懷宇(yu)博士指(zhi)出,超節點(dian)技術(shu)在大(da)模型的訓練(lian)與推(tui)理過程(cheng)中發揮著(zhu)至關重要(yao)的作用。其(qi)理想架構為單(dan)層拓撲,這(zhe)能夠顯著(zhu)降(jiang)低延遲與成本。然而(er),由(you)于國產芯片制程(cheng)的限(xian)制,往往需要(yao)集成數百塊國產GPU才能與海外產品(pin)相當。
在(zai)這種情況下(xia),孟懷宇博士認(ren)為(wei),擴大超(chao)節點規模(mo)主要有兩(liang)條路徑:一是(shi)(shi)提升單(dan)機(ji)柜的功耗(hao),二是(shi)(shi)增加(jia)機(ji)柜的數量。而(er)跨機(ji)柜互連必然要依賴光技術。
針對光(guang)(guang)互連大(da)規模應用(yong)所面臨的(de)(de)功(gong)耗、成(cheng)本(ben)以(yi)及可(ke)靠性挑(tiao)戰,孟(meng)懷(huai)宇博士認為高集(ji)成(cheng)光(guang)(guang)學方案(an)是破(po)局(ju)的(de)(de)關鍵。通過采用(yong)共封裝光(guang)(guang)學(CPO)技術(shu),將光(guang)(guang)電(dian)轉換集(ji)成(cheng)至芯片附近,可(ke)將功(gong)耗降(jiang)低 1/3 至 2/3,同(tong)時也減(jian)少了(le)分立器(qi)件的(de)(de)數(shu)量,從而(er)提升了(le)可(ke)靠性。
最(zui)后(hou),孟懷宇博士還分享了(le)曦(xi)智科(ke)技的分布式光交換(dOCS)技術。dOCS在(zai)光I/O層(ceng)嵌入交換功能(neng)(neng),實現(xian)了(le)兩(liang)大價值:一(yi)是(shi)動(dong)態冗余,在(zai)故障(zhang)發生時,能(neng)(neng)夠以(yi)服務器為(wei)單位切換拓撲,從(cong)而(er)降低備份成本(ben);二是(shi)靈活(huo)伸縮超(chao)節點規(gui)模(mo),可根據不同模(mo)型(xing)的算力需求進行適(shi)配。最(zui)終,曦(xi)智科(ke)技希望構建一(yi)個(ge)融合光電計算、光互連與(yu)光交換的高效集群。
本文為孟(meng)懷宇博士的報告實錄(lu),有一定(ding)刪(shan)減。
超節點本身(shen)的價值我覺得不需要過多(duo)的說,今天(tian)前(qian)面(mian)(mian)各位專家已經也談到了(le)很多(duo),主(zhu)要是在(zai)大模(mo)型訓練和推理兩個層面(mian)(mian)。
在訓練層面(mian),我們看到(dao)模(mo)(mo)型的尺寸自從GPT-3出來以后迅速(su)發展(zhan),訓練所需(xu)要的GPU數(shu)量也指數(shu)級增長。超節點可以極大地提(ti)高(gao)訓練的效率,尤其是對比較大的模(mo)(mo)型。
推理可能是2025年以來在國內市場(chang)更受關注的一個應(ying)用場(chang)景(jing)。
上(shang)面(mian)這張(zhang)圖(tu)(tu)是(shi)(shi)黃仁(ren)勛在25年上(shang)半(ban)年GTC上(shang)展示(shi)的(de)(de)(de)一(yi)個圖(tu)(tu)片的(de)(de)(de)簡化版本,意思是(shi)(shi)說(shuo)大模型的(de)(de)(de)推理可(ke)(ke)以(yi)(yi)按照橫(heng)軸(zhou)和(he)縱(zong)軸(zhou)分成兩(liang)個部分。橫(heng)軸(zhou)是(shi)(shi)單(dan)個用(yong)戶輸(shu)出(chu)token的(de)(de)(de)速度(du),可(ke)(ke)以(yi)(yi)把它(ta)翻譯成用(yong)戶體驗(yan),從(cong)某種意義上(shang)也(ye)可(ke)(ke)以(yi)(yi)把它(ta)翻譯成價(jia)格。而縱(zong)軸(zhou)是(shi)(shi)每張(zhang)卡可(ke)(ke)以(yi)(yi)輸(shu)出(chu)的(de)(de)(de)模型數(shu)量(liang)(liang),從(cong)經濟學(xue)的(de)(de)(de)邏輯來說(shuo)可(ke)(ke)以(yi)(yi)把它(ta)翻譯成產量(liang)(liang)。那么(me)價(jia)格乘以(yi)(yi)產量(liang)(liang)就是(shi)(shi)總的(de)(de)(de)產值。
因(yin)此我們在這張圖片上面選一個運營點的(de)(de)時候,它所囊括的(de)(de)那個方塊(kuai),就意味著(zhu)這個狀態(tai)下(xia)系統(tong)可以(yi)產生(sheng)的(de)(de)價(jia)值(zhi)。黃仁勛(xun)在GTC上想(xiang)要展示的(de)(de),是(shi)他們的(de)(de)Blackwell NVL72超節點從(cong)產生(sheng)價(jia)值(zhi)的(de)(de)角度來講遠(yuan)遠(yuan)高于之前的(de)(de)8卡集(ji)群。
一、超節點架構應往單層發展
超節(jie)點(dian)(dian)的架構我(wo)們(men)看到有單層超節(jie)點(dian)(dian)和兩層超節(jie)點(dian)(dian)兩個邏輯,這(zhe)個概念也很清(qing)楚,就是超節(jie)點(dian)(dian)的計算(suan)卡需要多少層交換(huan)機才能(neng)夠組成一(yi)個整體。
從(cong)算法(fa)(fa)的(de)應用(yong)(yong)上(shang)來(lai)講,尤其是超(chao)節(jie)點(dian)(dian)的(de)推(tui)理來(lai)說(shuo),我(wo)們希望它整(zheng)體延遲更低、成本(ben)更低、可靠性更好(hao)。由(you)此推(tui)得(de),超(chao)節(jie)點(dian)(dian)最(zui)好(hao)是只有(you)一層。但是現(xian)實(shi)中我(wo)們可能沒(mei)有(you)足夠大的(de)交換機,沒(mei)有(you)足夠大的(de)高效互連,使得(de)在某些情況(kuang)下沒(mei)辦法(fa)(fa)把超(chao)節(jie)點(dian)(dian)做(zuo)成一層架(jia)構。也(ye)有(you)超(chao)節(jie)點(dian)(dian)是用(yong)(yong)兩層的(de)架(jia)構,但是我(wo)們覺(jue)得(de)這應該是暫(zan)時的(de)一個妥(tuo)協方案,最(zui)終超(chao)節(jie)點(dian)(dian)架(jia)構應該往單層方向(xiang)發展。
剛才說了,超(chao)節點我們(men)(men)希望是(shi)單(dan)層,這(zhe)是(shi)一個點。第二個點,在國產生態中,單(dan)卡單(dan)芯(xin)片算力是(shi)嚴重受限的(de)(de),基本(ben)上(shang)直接被(bei)制(zhi)程所限制(zhi)。那么,當國產芯(xin)片制(zhi)程可(ke)能一段時(shi)間(jian)內停留(liu)在7納米水平的(de)(de)時(shi)候(hou),我們(men)(men)的(de)(de)單(dan)芯(xin)片的(de)(de)算力、帶(dai)寬(kuan)、顯存容量、顯存帶(dai)寬(kuan),比(bi)現在主流的(de)(de)NVL72用的(de)(de)B200芯(xin)片,基本(ben)上(shang)是(shi)2倍、4倍甚(shen)至7倍的(de)(de)差距。
如果人家一個超節點NVL72有72個B200芯片(pian),咱們假設使用7nm國(guo)產GPU,大概(gai)也(ye)就是A100的水平,基(ji)本上(shang)就是幾百張卡。
剛才提到我們希(xi)望超(chao)節(jie)點(dian)是一層的(de),然后又希(xi)望國(guo)產(chan)超(chao)節(jie)點(dian)要(yao)對標海外的(de)的(de)超(chao)節(jie)點(dian),這樣就得(de)到我們需要(yao)幾百個國(guo)產(chan)GPU連成一層的(de)超(chao)節(jie)點(dian),我們要(yao)怎么實現呢?
二、 單層超節點擴大規模主流路徑
我(wo)(wo)們覺得現(xian)在(zai)的(de)(de)(de)起點和將來的(de)(de)(de)終點,應該(gai)都是(shi)大家(jia)比較(jiao)認可的(de)(de)(de)。短期內盡量(liang)往(wang)單個機(ji)柜(ju)(ju)塞,單機(ji)柜(ju)(ju)的(de)(de)(de)功(gong)耗上限有多少(shao)就塞多少(shao)。比如傳統數據中心里,非(fei)(fei)計算、非(fei)(fei)高(gao)電的(de)(de)(de)機(ji)柜(ju)(ju)功(gong)耗就是(shi)20kW,可能(neng)還不到。將來每個機(ji)柜(ju)(ju)可能(neng)會超過100kW,甚至我(wo)(wo)也(ye)(ye)(ye)看到有更多的(de)(de)(de)一(yi)些規劃,我(wo)(wo)們肯定也(ye)(ye)(ye)希望機(ji)柜(ju)(ju)的(de)(de)(de)數量(liang)盡量(liang)多。因為國(guo)產(chan)GPU,100kW放進去可能(neng)也(ye)(ye)(ye)就是(shi)100個,如果(guo)需(xu)要(yao)幾百(bai)張(zhang)卡的(de)(de)(de)超節點的(de)(de)(de)話(hua),肯定是(shi)需(xu)要(yao)多個機(ji)柜(ju)(ju)的(de)(de)(de)。
所以我覺得發展的起點和終點大家應該是有共識的:起點是單機柜,終點是多機柜,且每個機柜的電量會越來越高。
從機柜(ju)數(shu)量(liang)(liang)和每(mei)個機柜(ju)能(neng)夠容納的(de)(de)(de)GPU數(shu)量(liang)(liang)來講(jiang),可(ke)以(yi)說有(you)兩條路(lu)徑。第一(yi)(yi)條路(lu)徑是(shi)(shi)先(xian)(xian)把(ba)(ba)單(dan)個機柜(ju)的(de)(de)(de)功耗往(wang)上提,盡量(liang)(liang)往(wang)里塞(GPU),看能(neng)塞多(duo)少。NVIDIA走的(de)(de)(de)其實就是(shi)(shi)這(zhe)樣一(yi)(yi)個路(lu)線,今年也(ye)發布了后面的(de)(de)(de)幾(ji)代產(chan)品(pin),從NVL72、144到576。還(huan)有(you)一(yi)(yi)條路(lu)徑是(shi)(shi)先(xian)(xian)考慮增(zeng)加機柜(ju)的(de)(de)(de)數(shu)量(liang)(liang),把(ba)(ba)數(shu)量(liang)(liang)加到位了之后,再把(ba)(ba)他們連成(cheng)一(yi)(yi)個超(chao)節點。海外比(bi)較典型的(de)(de)(de)樣品(pin)就是(shi)(shi)谷歌的(de)(de)(de)TPU,最新應(ying)該是(shi)(shi)有(you)數(shu)千卡(ka)的(de)(de)(de)超(chao)節點,它其實就是(shi)(shi)一(yi)(yi)個多(duo)機柜(ju)的(de)(de)(de)展示方法(fa)。
這(zhe)時出現了光(guang)互(hu)(hu)連(lian)的(de)必然性。當超過一(yi)個(ge)機(ji)柜,多個(ge)機(ji)柜的(de)GPU互(hu)(hu)連(lian)的(de)時候(hou),直接使用光(guang)可能是一(yi)個(ge)必要的(de)選擇(ze)。
超節點GPU直接出光(guang)使用多個機柜的時候(hou)有什么好處呢?
首先(xian),光纜(lan)相對于銅纜(lan)最明確的(de)優勢就是距(ju)離遠。一般來(lai)說,銅纜(lan)112G可(ke)以(yi)走(zou)1米(mi)(mi)或(huo)者(zhe)2米(mi)(mi),或(huo)者(zhe)AEC有(you)的(de)時(shi)候可(ke)以(yi)走(zou)3-7米(mi)(mi)。而普(pu)通的(de)短(duan)距(ju)光纜(lan)很容(rong)易就可(ke)以(yi)到50米(mi)(mi)、100米(mi)(mi)甚至千米(mi)(mi)級別。距(ju)離不是問題,這其實(shi)就產生了很多的(de)可(ke)能性(xing),比如組成(cheng)超節點的(de)機器可(ke)以(yi)隨便(bian)放在(zai)哪里(li)。
今天上午,包(bao)括之(zhi)前的(de)(de)專(zhuan)家也提到高電(dian)機柜(ju)(ju)本身也是有相當的(de)(de)技術挑戰的(de)(de)。比如(ru)整個數(shu)據中心的(de)(de)土建、供電(dian)、液冷以(yi)及(ji)整套系統如(ru)何設計等。當我們有跨(kua)機柜(ju)(ju)的(de)(de)超節點能(neng)力的(de)(de)時(shi)候,短期(qi)內其實(shi)就可(ke)以(yi)規避這些(xie)問題。
比如同樣(yang)是四個服(fu)務器的超節點,假設單個機(ji)柜無法(fa)支持那么大的供電和散(san)熱,我(wo)們可以把它們放(fang)在兩個機(ji)柜里(li),通過(guo)光(guang)纜互(hu)連,這樣(yang)就能組(zu)成一個超節點。
解(jie)鎖了(le)距離(li)限制之后(hou),其(qi)實還有很(hen)多其(qi)他的(de)優勢(shi)。從商業上來講,交付形態不一定(ding)就(jiu)是完(wan)整的(de)機柜,因(yin)為(wei)超(chao)節點本(ben)身(shen)就(jiu)是多個服務(wu)(wu)器連起(qi)來,我們可以(yi)(yi)用4個、6個或者8個服務(wu)(wu)器,也可以(yi)(yi)按照(zhao)客戶(hu)的(de)需求靈活配置,對有些客戶(hu)來說他們是比較在意這一點的(de)。
大家(jia)都知(zhi)道(dao)光(guang)纜傳輸距(ju)離遠遠長(chang)于銅纜,另外還有一點可能(neng)大家(jia)沒太意識到,光(guang)纜其實比銅纜要細很多。
上圖(tu)右(you)側展示(shi)的(de)(de)(de)是(shi)我們(men)已(yi)經部署落地的(de)(de)(de)光纜和銅纜混合(he)的(de)(de)(de)一(yi)個(ge)超節點。大家很(hen)(hen)容(rong)易看出來,淺藍色很(hen)(hen)細的(de)(de)(de)線就(jiu)是(shi)光纜,占據了圖(tu)片很(hen)(hen)大面積的(de)(de)(de)黑色的(de)(de)(de)線就(jiu)是(shi)銅纜,很(hen)(hen)明顯他(ta)們(men)的(de)(de)(de)尺寸是(shi)不一(yi)樣的(de)(de)(de)。
如(ru)果(guo)用(yong)銅(tong)纜來(lai)做這件事,可(ke)能上架的時(shi)候會(hui)阻塞風(feng)道,影響(xiang)散(san)熱,導致產生一(yi)些(xie)問題(ti)。當然也可(ke)以用(yong)液(ye)冷,但是(shi)液(ye)冷又是(shi)另外一(yi)層技術難點。另外銅(tong)纜比(bi)較重,會(hui)去(qu)拉(la)上面(mian)的銅(tong)纜接(jie)(jie)口。銅(tong)攬接(jie)(jie)口長期(qi)承重的時(shi)候,會(hui)有可(ke)靠性的問題(ti)。這些(xie)都是(shi)我們在現實部署(shu)中(zhong)遇(yu)到的一(yi)些(xie)具(ju)體情況(kuang)。
使用光纜業界(jie)也(ye)有一(yi)些顧慮,包(bao)括(kuo)功耗、成本和(he)可靠性三個方面(mian),尤(you)其是在大規(gui)模超節點(dian)中,光纜的使用數(shu)量會非常大。一(yi)個典型的例子就是華為(wei)今年發布的CloudMatrix 384超節點(dian)。
上圖我圈出了兩個(ge)數(shu)字,CloudMatrix 384在二層(ceng)使用了3000多根光(guang)纜,也(ye)就意味著6000多個(ge)光(guang)模塊。這么(me)大數(shu)量(liang)的光(guang)模塊顯然對于功耗、成(cheng)本和可靠性有著非常高的要求。
為什(shen)么光互(hu)(hu)連(lian)相比銅(tong)互(hu)(hu)連(lian)會有這(zhe)(zhe)樣(yang)的(de)(de)問題呢(ni)?基(ji)于可(ke)插(cha)拔光模(mo)塊(kuai)的(de)(de)光互(hu)(hu)連(lian),實際(ji)上(shang)不是半導體產品(pin),每(mei)個(ge)光模(mo)塊(kuai)至少有二三十(shi)個(ge)零件(jian)。激光器(qi)、隔離器(qi)、棱鏡等,還要用(yong)膠(jiao)水等各種各樣(yang)的(de)(de)方(fang)式把(ba)它們粘起來,之(zhi)后以(yi)上(shang)這(zhe)(zhe)些再乘(cheng)以(yi)4或者(zhe)乘(cheng)以(yi)8。所以(yi)每(mei)個(ge)光模(mo)塊(kuai)里都有幾十(shi)個(ge)分立的(de)(de)零件(jian),通過機械的(de)(de)方(fang)式組合成最(zui)終的(de)(de)產品(pin)。
大家很容易聯想到,我們可以把光模塊這樣的非半導體產品變成半導體產品,把這些元器件全部或(huo)者(zhe)盡(jin)量多的集成到1個或(huo)者(zhe)2個芯片里,從而(er)符合(he)長期以來(lai)大家認(ren)知當(dang)中(zhong)的芯片產品的邏(luo)輯。
芯(xin)片產品(pin)不怕復雜,一(yi)個計算(suan)芯(xin)片可能(neng)有(you)數(shu)十億個晶體(ti)(ti)管(guan),只(zhi)要(yao)能(neng)夠在(zai)(zai)半(ban)導體(ti)(ti)工藝中(zhong)進行生產,其(qi)可靠性(xing)就會(hui)非常(chang)好。在(zai)(zai)需(xu)求(qiu)量非常(chang)大(da)的時候,每個芯(xin)片的成(cheng)本也可以降(jiang)低(di)到可控層面(mian)。因此(ci),我(wo)們覺得解決(jue)以上問題很重要(yao)的一(yi)個方向(xiang)就是使用集成(cheng)度更(geng)高(gao)、更(geng)接近(jin)于半(ban)導體(ti)(ti)邏輯的光學產品(pin)。
三、 光互連技術的演進
通過(guo)這張(zhang)圖我們可以(yi)看到光(guang)互連(lian)技術(shu)的演進路線。
左下(xia)角是(shi)目前大(da)部分光(guang)通信的(de)(de)(de)狀態(tai),業(ye)界在(zai)(zai)這方(fang)面也有(you)幾十年(nian)的(de)(de)(de)經驗,是(shi)一個可插拔的(de)(de)(de)光(guang)模塊。光(guang)模塊距離(li)(li)主芯片的(de)(de)(de)距離(li)(li),從服(fu)務器的(de)(de)(de)尺(chi)寸來(lai)看可能有(you)幾十厘(li)米。再(zai)進一步,可以把光(guang)電(dian)轉換模塊放在(zai)(zai)離(li)(li)主芯片更近的(de)(de)(de)地方(fang),比如放在(zai)(zai)同一個PCB板上,這個距離(li)(li)可能會到5cm、3cm。
再往(wang)后可以放(fang)在同一個封裝(zhuang)上面,變(bian)成所謂的共封裝(zhuang)光學Co – Packaged Optics,簡稱CPO,這也是(shi)最近(jin)兩(liang)年以來比較(jiao)火的一個概念。
最(zui)后我們(men)很容易想象,可以把光電(dian)轉換和主芯片(pian)(pian),也(ye)就是數字芯片(pian)(pian)垂直3D堆疊放(fang)在(zai)同一個芯片(pian)(pian)上(shang),實現光電(dian)融合。
這(zhe)樣的技(ji)術演進在集成度上有多(duo)大(da)的好(hao)處(chu)呢?這(zhe)里有一個直觀的展示(shi)。
上(shang)面(mian)中(zhong)間展示(shi)的是(shi)博(bo)通51.2T的TH5交換機,也是(shi)博(bo)通第(di)一代(dai)量產化的共封(feng)裝光(guang)學CPO產品。大家可以看到中(zhong)間的封(feng)裝旁邊有四(si)塊玻璃窗口(kou)一樣的東西,里面(mian)是(shi)可以傳達(da)51.2T的一個光(guang)電轉(zhuan)換引擎,被(bei)封(feng)裝在芯片邊里。
如(ru)果51.2T的帶寬用(yong)傳統(tong)的光模塊(kuai)來支持,會是什么(me)狀態呢?那就是周圍這一(yi)圈光模塊(kuai),128個光模塊(kuai)全部擺在(zai)一(yi)起(qi)就是這個樣子。
通(tong)過上(shang)圖,這樣大家可以(yi)很直觀的看到兩種技(ji)術(shu)在集成度(du)上(shang)會有(you)多大的提升(sheng)。
功耗層(ceng)面(mian)(mian),從光(guang)學層(ceng)面(mian)(mian)來(lai)講(jiang),共封裝光(guang)學相比傳統(tong)可(ke)插(cha)拔光(guang)模塊(kuai)會節省1/3-2/3左右的(de)功耗。功耗相對來(lai)說是小一點(dian)的(de)擔憂,畢竟不管怎么說,通信的(de)功耗相比1kW以上的(de)GPU來(lai)說可(ke)能還是很小的(de)。
可靠(kao)性(xing)是更為重要的(de)(de)(de)一(yi)點。集群在做訓(xun)練和推理的(de)(de)(de)時候,與(yu)傳統(tong)的(de)(de)(de)網絡邏輯不一(yi)樣,他(ta)們是協同作(zuo)戰。也(ye)就(jiu)是說(shuo)假(jia)如一(yi)個GPU因為互連出現問題,少則(ze)拖(tuo)累一(yi)個服務器,多則(ze)整(zheng)個萬(wan)卡集群需(xu)要重啟,這個代價是非常大的(de)(de)(de)。所以(yi)業(ye)界對于集群任何部(bu)分的(de)(de)(de)可靠(kao)性(xing)都有很高的(de)(de)(de)要求,當然也(ye)包括對互連的(de)(de)(de)可靠(kao)性(xing)。
我們(men)使用更先(xian)進(jin)的(de)(de)集成光(guang)(guang)學技術的(de)(de)時候(hou),對于(yu)光(guang)(guang)互連的(de)(de)可(ke)靠性實際(ji)上也有比較(jiao)客(ke)觀的(de)(de)提(ti)升,最簡單的(de)(de)就是(shi)分立器件的(de)(de)數(shu)量少(shao)了。當然每(mei)個器件通(tong)過機械的(de)(de)方(fang)式(shi)安裝在一(yi)起的(de)(de)時候(hou),每(mei)一(yi)個安裝的(de)(de)地(di)(di)方(fang)都有可(ke)能出問(wen)(wen)題。此(ci)外因為是(shi)光(guang)(guang)互連,某一(yi)個地(di)(di)方(fang)進(jin)去(qu)一(yi)粒灰塵可(ke)能都會產(chan)生問(wen)(wen)題,我們(men)可(ke)以(yi)盡量減少(shao)灰塵可(ke)能進(jin)去(qu)的(de)(de)地(di)(di)方(fang),從(cong)而降(jiang)低(di)出現問(wen)(wen)題的(de)(de)概(gai)率(lv),包括(kuo)把激光(guang)(guang)光(guang)(guang)源(yuan)拉到面(mian)板上面(mian)遠離熱源(yuan),這樣本身也可(ke)以(yi)極大降(jiang)低(di)光(guang)(guang)互連出問(wen)(wen)題的(de)(de)概(gai)率(lv)。
海外一(yi)些(xie)(xie)巨頭在(zai)共(gong)封裝光學CPO上已經(jing)有一(yi)些(xie)(xie)布局。
在(zai)共(gong)封裝光(guang)學(xue)CPO上的研究,包括商業化嘗試,在(zai)過去十年一直(zhi)在(zai)持續。真正做到接(jie)近量產級(ji)別的,是通(tong)訊(xun)領(ling)域的第(di)一大(da)巨頭(tou)(tou)博通(tong),前面也(ye)展示(shi)了(le)他們共(gong)封裝的交換機。今年上半年,NVIDIA在(zai)GTC上也(ye)發(fa)布(bu)了(le)他們共(gong)封裝光(guang)學(xue)CPO產品。也(ye)就(jiu)是說通(tong)信(xin)和算力界的兩大(da)龍頭(tou)(tou),都(dou)已經進入了(le)這個領(ling)域。
四、 基于分布式光交換的超節點新架構
對于整體可(ke)靠性(xing)的(de)(de)提升,我們(men)還(huan)有另一(yi)(yi)(yi)個想法,就是通過光交換減少冗(rong)余度。從現有超節(jie)點(dian)的(de)(de)架構(gou)來(lai)說,不管(guan)是直連(lian)架構(gou),還(huan)是交換架構(gou),都(dou)要回答一(yi)(yi)(yi)個問題:當一(yi)(yi)(yi)個超節(jie)點(dian)有上百(bai)(bai)甚至數百(bai)(bai)個GPU的(de)(de)時候,如何保證(zheng)任何一(yi)(yi)(yi)個點(dian)出問題時,超節(jie)點(dian)還(huan)能繼續(xu)運行。所(suo)以總(zong)要有各種各樣的(de)(de)冗(rong)余設置(zhi)在里(li)面(mian)。
我(wo)們覺得可以把交換(huan)功(gong)能融入到光互連中,把一(yi)些(xie)小的(de)交換(huan)功(gong)能融入到光IO領(ling)域,我(wo)們稱(cheng)之為(wei)分布式(shi)光交換(huan)dOCS。這是一(yi)個很小的(de)功(gong)能,但(dan)組(zu)成集群之后可以實現非常有意思的(de)狀態。
通(tong)過(guo)上圖來做(zuo)一(yi)些簡(jian)單的解釋(shi)。
假設上(shang)面(mian)的(de)(de)(de)每(mei)(mei)一(yi)個(ge)(ge)圓都是一(yi)個(ge)(ge)服(fu)(fu)務器,超節點(dian)是由若干個(ge)(ge)服(fu)(fu)務器組成(cheng)的(de)(de)(de)。正(zheng)常狀態下,第一(yi)行每(mei)(mei)4個(ge)(ge)服(fu)(fu)務器(32卡)組成(cheng)一(yi)個(ge)(ge)超節點(dian),我們可以通(tong)過光互連(lian)把前(qian)面(mian)12個(ge)(ge)服(fu)(fu)務器組成(cheng)三個(ge)(ge)超節點(dian),并給到兩個(ge)(ge)備份的(de)(de)(de)服(fu)(fu)務器。同時(shi),因(yin)為我們在光互連(lian)出口(kou)的(de)(de)(de)地方提供了交換功能(neng),因(yin)此(ci)可以做靈活(huo)的(de)(de)(de)拓(tuo)撲(pu)切換。
假設因(yin)為某些(xie)原因(yin)兩(liang)個(ge)服(fu)(fu)務器(qi)(qi)出了問題,當系統檢測到(dao)異常時(shi),分布式光交(jiao)換可(ke)以跳過(guo)一個(ge)服(fu)(fu)務器(qi)(qi)重(zhong)組超節點。比(bi)如圖中第(di)二行(xing),跳過(guo)第(di)4個(ge)壞的(de)服(fu)(fu)務器(qi)(qi),然后(hou)把(ba)(ba)兩(liang)個(ge)備份服(fu)(fu)務器(qi)(qi)拉進來(lai),重(zhong)新(xin)把(ba)(ba)好的(de)服(fu)(fu)務器(qi)(qi)用(yong)起(qi)來(lai),壞的(de)服(fu)(fu)務器(qi)(qi)下線。
這樣冗(rong)(rong)余備災的(de)顆粒度就不(bu)是整個(ge)超(chao)節(jie)點了(le),只是一個(ge)服務器(qi)。對于冗(rong)(rong)余來講,能(neng)夠在(zai)很大程度上的(de)緩解壓力,因為用來冗(rong)(rong)余備災的(de)服務器(qi)是不(bu)再賺錢的(de)服務器(qi)。
我們(men)肯定希望系統在保持(chi)整個集群效率的(de)(de)前(qian)提下(xia),能用更(geng)小的(de)(de)冗余度保證整體運營是最好的(de)(de),這樣的(de)(de)靈活度對于(yu)大集群來說是非常(chang)有(you)價值的(de)(de)。
從另一個方向來說,靈活的(de)拓撲切換可(ke)以(yi)被用來構建不同尺(chi)寸的(de)超(chao)節(jie)點(dian)。很(hen)多時候,超(chao)節(jie)點(dian)的(de)尺(chi)寸并(bing)不是越高越好。
假設一(yi)個(ge)(ge)(ge)GPU出口帶寬總數一(yi)致(zhi),對于比(bi)(bi)較大(da)的(de)(de)模(mo)型(xing)(xing)來說(shuo)會(hui)希望(wang)組建大(da)尺(chi)寸的(de)(de)超(chao)(chao)節點。但當某個(ge)(ge)(ge)時候(hou)要切換(huan)到相對小(xiao)一(yi)點的(de)(de)模(mo)型(xing)(xing)時,比(bi)(bi)如(ru)文生(sheng)圖模(mo)型(xing)(xing)比(bi)(bi)大(da)語言模(mo)型(xing)(xing)要小(xiao)很多,這種情況下,所謂(wei)最佳的(de)(de)超(chao)(chao)節點尺(chi)寸可能就變成(cheng)了兩個(ge)(ge)(ge)服務(wu)器(qi),或者有的(de)(de)時候(hou)需(xu)要六個(ge)(ge)(ge)服務(wu)器(qi)、八個(ge)(ge)(ge)服務(wu)器(qi),可以通過(guo)靈活的(de)(de)切換(huan),達到靈活改變超(chao)(chao)節點尺(chi)寸的(de)(de)效果。
當然(ran)把所有(you)(you)的(de)(de)服務器接上所有(you)(you)的(de)(de)交換機也(ye)可以實(shi)現,但其(qi)成(cheng)本、系統的(de)(de)復雜度,和(he)這樣的(de)(de)超節點解決(jue)方案就(jiu)不在一個層次(ci)了。
這(zhe)里(li)展示(shi)的是(shi)我們實(shi)現這(zhe)一點(dian)所做的一些工作,總體來說就是(shi)集成的光電轉換。區(qu)別(bie)是(shi)我們在(zai)每一個光電轉換的出口處(chu),做了多路徑備份,由整個系統去控制它,在(zai)恰當的時候做恰當的切換,以(yi)實(shi)現拓撲的靈活調整。
使用分(fen)(fen)布式光(guang)交(jiao)換(huan),可以在各個(ge)情況下提升超(chao)節點集群(qun)算力的(de)(de)利用率。此外,我們知(zhi)道最(zui)大(da)、最(zui)先(xian)(xian)進的(de)(de)交(jiao)換(huan)芯片其實也是(shi)非(fei)常依賴(lai)先(xian)(xian)進制(zhi)程和先(xian)(xian)進封裝技(ji)術的(de)(de),而分(fen)(fen)布式光(guang)交(jiao)換(huan)所依賴(lai)的(de)(de)供(gong)應鏈要簡單不少。光(guang)芯片不依賴(lai)先(xian)(xian)進制(zhi)程,并且(qie)相對來(lai)說國(guo)內(nei)水平和海外差距(ju)不大(da),這個(ge)可能(neng)是(shi)使用光(guang)交(jiao)換(huan),尤其是(shi)分(fen)(fen)布式光(guang)交(jiao)換(huan)的(de)(de)額外好處。
我今天(tian)的演講就到這里,謝謝大家(jia)!