智東西(公眾號:zhidxcom)
編譯 | Glu
編輯 | 李水青

智(zhi)東西(xi)6月27日消息,昨天下午(wu),騰訊(xun)云(yun)在(zai)(zai)北(bei)京(jing)舉辦了一場面(mian)向AI大模(mo)(mo)型(xing)的高性能(neng)網絡(luo)溝通(tong)會,在(zai)(zai)現(xian)場首次完整披露(lu)了其自研(yan)的星脈(mo)高性能(neng)計算網絡(luo)。據稱,星脈(mo)網絡(luo)具備3.2Tbps業界最高互聯帶寬,能(neng)提(ti)升40%的GPU利(li)用率,節省30%~60%的模(mo)(mo)型(xing)訓練成本,還讓AI大模(mo)(mo)型(xing)通(tong)信性能(neng)提(ti)升10倍。

同時(shi),基于(yu)騰(teng)訊云(yun)新一(yi)代算力(li)集群HCC,星脈網絡(luo)可支持10萬卡的(de)超大計算規模。

AI新時代(dai),大(da)(da)模(mo)型成為AI領域(yu)最(zui)火熱的話題,各大(da)(da)科技公司紛紛入局,騰訊公司也不例(li)外,繼6月19日公布其(qi)行(xing)業大(da)(da)模(mo)型研發(fa)進展(zhan)(zhan)后,騰訊云副總裁王(wang)亞晨、騰訊云數據(ju)中心網絡(luo)(luo)總監李翔于今日與智東西(xi)等(deng)媒體官(guan)宣(xuan)了“星(xing)脈網絡(luo)(luo)”實現(xian)全新升級,并分享了騰訊云網絡(luo)(luo)研究的發(fa)展(zhan)(zhan)歷(li)程。

王(wang)亞晨稱:“星脈(mo)網絡是為大模(mo)(mo)型(xing)而生。它所提供的(de)大帶寬、高(gao)(gao)利(li)用(yong)(yong)率以及零丟包的(de)高(gao)(gao)性能網絡服務(wu),將助力(li)算(suan)力(li)瓶頸的(de)突破,進一步釋放AI潛能,全面(mian)提升企業(ye)大模(mo)(mo)型(xing)的(de)訓練效率,在云上(shang)加(jia)速(su)大模(mo)(mo)型(xing)技術的(de)迭代升級和落地應(ying)用(yong)(yong)。”

助攻AI大模型,騰訊云星脈高性能計算網絡首次完整披露

▲演講(jiang)嘉賓:騰訊(xun)云副總裁王(wang)亞晨

助攻AI大模型,騰訊云星脈高性能計算網絡首次完整披露

▲演講(jiang)嘉賓:騰訊(xun)云數據中心網絡總(zong)監(jian)李(li)翔

一、AI大模型3大網絡需求:大帶寬、高利用率、無損網絡

目前(qian),AI大(da)模型的訓(xun)練參(can)數已飆(biao)升至萬(wan)億級(ji)別,如此(ci)龐大(da)的訓(xun)練任(ren)務(wu)(wu)無(wu)法由單個服(fu)務(wu)(wu)器完成(cheng),而需要大(da)量GPU服(fu)務(wu)(wu)器組成(cheng)算力集群,相互(hu)協作完成(cheng)任(ren)務(wu)(wu)。

這些服務器通過機(ji)間網絡(luo)相連接,不斷交換(huan)數(shu)據。因此,高性能網絡(luo)具有至關(guan)重要的地位,它有利于讓算力集(ji)群(qun)更加快(kuai)速、準確地完成大(da)規(gui)模(mo)的訓練任務。

大(da)集(ji)群不等于大(da)算(suan)力,相反,GPU集(ji)群規模(mo)的擴大(da)還(huan)會引發額外(wai)的通信(xin)開銷。因為傳(chuan)統(tong)網絡(luo)架構下,數據傳(chuan)輸時會通過多層協議棧(zhan),需要反復停下來(lai)檢(jian)查、分揀(jian)、打包,導致(zhi)通信(xin)效率低(di)下。

也就(jiu)是說,網(wang)絡層(ceng)級越多,致GPU集群通(tong)信性能將(jiang)越低。現(xian)在爆火(huo)的(de)生成式AI大(da)(da)模型需要(yao)運用千(qian)億、萬億參(can)數規模進行訓練,這個訓練過程中通(tong)信占比最(zui)大(da)(da)可達50%,而傳(chuan)統低速網(wang)絡的(de)帶寬(kuan)無法支(zhi)撐。

在這個(ge)問題的解決上,業界(jie)通常會引(yin)入RDMA技術(shu)(GPU之間(jian)直接通信(xin)),這是一種高性能、低延遲(chi)的網絡通信(xin)技術(shu),能夠允許計算節點之間(jian)直接進行(xing)數據傳輸(shu),減少中間(jian)環節。

但光(guang)靠(kao)RDMA技(ji)術還遠遠不夠,傳統(tong)網(wang)(wang)絡(luo)協議(yi)也(ye)將制(zhi)約(yue)GPU集群的運行效(xiao)率。傳統(tong)網(wang)(wang)絡(luo)協議(yi)也(ye)很(hen)容易導致(zhi)網(wang)(wang)絡(luo)擁塞、高延時(shi)和(he)丟包,而僅0.1%的網(wang)(wang)絡(luo)丟包就(jiu)可能(neng)導致(zhi)50%的算力損失,最終(zhong)造成算力資源的嚴重(zhong)浪(lang)費。

王(wang)亞晨幽默地將傳(chuan)統(tong)網絡協議喻為“交通管理系統(tong)”:“這讓所有人都(dou)在一條大馬路上行走,自然會導(dao)致交通堵塞。”

二、3.2Tbps帶寬,支持10萬卡集群組網

基于以上問(wen)題,騰訊云在交換機、通信協議、通信庫以及運營系統等軟硬(ying)件方面進行(xing)升級,推出了自研的大模型(xing)專屬(shu)高性(xing)能網絡“星脈(mo)”。

“帶寬”決定了(le)能夠同時傳輸的(de)(de)數據,“拓撲”是節點設備間的(de)(de)連接(jie)方式,決定了(le)組網(wang)規(gui)模的(de)(de)大小。在這兩項硬(ying)指標(biao)上,騰訊(xun)云稱星脈皆達到了(le)業(ye)界最高(gao)水平。

助攻AI大模型,騰訊云星脈高性能計算網絡首次完整披露

在硬(ying)件方面,星脈網(wang)絡(luo)自(zi)研(yan)白盒交(jiao)換機,這(zhe)是(shi)一種軟(ruan)硬(ying)件解(jie)耦的開放網(wang)絡(luo)設備,采用四層解(jie)耦體系,包括接入、轉發、路由、管控系統(tong);騰訊云(yun)還(huan)自(zi)研(yan)了網(wang)絡(luo)操作系統(tong),包括網(wang)絡(luo)OS與(yu)網(wang)管平臺,構建了互聯底(di)座,實現自(zi)動化部(bu)署和配置(zhi)。

在軟(ruan)件方(fang)面,騰訊云自(zi)研的TiTa網絡協(xie)議,能夠實(shi)時(shi)(shi)監(jian)測并調整網絡擁塞,TiTa網絡協(xie)議能夠提升(sheng)40%的帶寬負載,還能提供(gong)低延時(shi)(shi)無損(sun)網絡,實(shi)現高負載下的0丟包(bao),使(shi)集群通信效率達90%以上(shang)。

王亞晨將其與傳統網絡協議(yi)對比,稱(cheng):“這是讓有(you)不同(tong)需求的(de)人走不同(tong)的(de)路,就(jiu)不會導致(zhi)堵塞了。”

此外(wai),騰訊(xun)云還(huan)為(wei)星脈(mo)網絡(luo)設計了高性能(neng)集合(he)通(tong)信(xin)庫TCCL,融入定制化解決方案,使系統實現了微秒級(ji)感(gan)知網絡(luo)質(zhi)量。結合(he)動態調度機制合(he)理分配通(tong)信(xin)通(tong)道,可(ke)以避(bi)免因網絡(luo)問題導(dao)致的訓(xun)練中(zhong)斷等(deng)問題,讓通(tong)信(xin)時延降低40%。

王亞晨將(jiang)其(qi)比喻為(wei)“導(dao)航系統”,優化后的集(ji)合通(tong)信就像有(you)了導(dao)航一(yi)樣,可以快速找到最優路徑(jing)。

為確(que)保星脈(mo)網絡(luo)的(de)高可用(yong),騰訊云(yun)自研端(duan)(duan)(duan)到端(duan)(duan)(duan)全棧(zhan)網絡(luo)運營系(xi)統(tong)。它可以讓大模(mo)型訓練系(xi)統(tong)的(de)整體(ti)部署時間(jian)從19天(tian)縮減至(zhi)(zhi)4.5天(tian),保證基礎配置100%準確(que);通過端(duan)(duan)(duan)網立體(ti)化監控與智(zhi)能(neng)定位系(xi)統(tong),它可以進行(xing)離線故障(zhang)診斷、在線故障(zhang)實時告(gao)警,讓整體(ti)故障(zhang)的(de)排(pai)查時間(jian)由天(tian)級(ji)降低至(zhi)(zhi)分鐘級(ji);此(ci)外,它具有秒(miao)級(ji)的(de)故障(zhang)自愈能(neng)力,端(duan)(duan)(duan)側會主(zhu)動(dong)發起路徑選(xuan)擇,能(neng)夠(gou)極速恢復網絡(luo)故障(zhang)。

三、3代演進,17年耕耘,網絡硬軟件全自研

根據騰訊云官(guan)方數據,目前(qian),騰訊云在(zai)全(quan)球26個地理區域運營(ying)70個可用區,同時在(zai)70多(duo)個國(guo)家和地區部署了超過(guo)2800個CDN加(jia)速節點,全(quan)網帶寬(kuan)資源儲備(bei)超過(guo)200T。

而在星脈網(wang)絡(luo)技術(shu)(shu)升級的背后,是騰訊數據中心網(wang)絡(luo)歷經(jing)3代技術(shu)(shu)演進、17年耕耘的成果(guo)。

助攻AI大模型,騰訊云星脈高性能計算網絡首次完整披露

第(di)一代是(shi)互聯網驅(qu)動時(shi)期。數(shu)據(ju)中(zhong)心網絡(luo)(luo)(luo)流量主(zhu)要由用戶訪問數(shu)據(ju)中(zhong)心服(fu)務器的南北(bei)向流量構成,網絡(luo)(luo)(luo)架構以接入、匯(hui)聚(ju)、出(chu)口為主(zhu)。這一階段主(zhu)要使用了商(shang)用網絡(luo)(luo)(luo)設備,搭建(jian)標準化數(shu)據(ju)中(zhong)心網絡(luo)(luo)(luo),支撐QQ在線人數(shu)增長超過(guo)1億,服(fu)務器規模增長超10萬。

第二代是云服務(wu)驅動時(shi)期。隨著大數(shu)據和云計算的興起(qi),服務(wu)器之間的東西(xi)向(xiang)流量逐漸增多,云租戶對網(wang)絡(luo)產生了(le)(le)虛擬(ni)化和隔離的要(yao)求。數(shu)據中心(xin)網(wang)絡(luo)架(jia)構(gou)逐漸演變為同時(shi)承載南北向(xiang)和東西(xi)向(xiang)流量的云網(wang)絡(luo)架(jia)構(gou),騰訊(xun)云構(gou)建(jian)了(le)(le)全(quan)自研(yan)網(wang)絡(luo)設備與管理系統,打造超大規(gui)模(mo)數(shu)據中心(xin)網(wang)絡(luo),服務(wu)器規(gui)模(mo)近(jin)200萬臺(tai)。

第三(san)代是(shi)大(da)規(gui)模算力驅動時期(qi)。隨著AI大(da)模型的出(chu)(chu)現,騰訊(xun)云在(zai)國內率先推出(chu)(chu)高性能計算網絡,采用東西向(xiang)(xiang)、南北向(xiang)(xiang)流量的分離架(jia)構(gou)。構(gou)建了獨立的超大(da)帶寬、符合(he)(he)AI訓(xun)練流量特征的網絡架(jia)構(gou),并配合(he)(he)自研軟硬(ying)件設施,實現整套(tao)系統的自主可控(kong),滿足超強算力對(dui)網絡性能的新需求。

日前,騰訊云發布(bu)的新一代HCC高(gao)性(xing)能計(ji)算(suan)集群,正是基(ji)于星脈(mo)高(gao)性(xing)能網(wang)絡(luo)打造,可(ke)以實現3.2T超高(gao)互聯帶寬,算(suan)力性(xing)能較前代提升3倍,為(wei)AI大模型訓練構(gou)筑可(ke)靠的高(gao)性(xing)能網(wang)絡(luo)底(di)座。

結語:面向AI大模型,騰訊星脈網絡打助攻

參(can)數達到(dao)千億(yi)、萬(wan)億(yi)級別的(de)(de)AI大(da)模(mo)型(xing)尤(you)其(qi)看重網(wang)(wang)絡(luo)(luo)(luo)(luo)性(xing)能(neng),它需要大(da)帶寬、高(gao)(gao)利用(yong)率、無損的(de)(de)網(wang)(wang)絡(luo)(luo)(luo)(luo)來幫助它高(gao)(gao)效地完(wan)成訓練任務。以此為契機,騰(teng)訊云基于(yu)過往17年的(de)(de)網(wang)(wang)絡(luo)(luo)(luo)(luo)布局經驗(yan)與技術(shu)成果,研發了助攻AI大(da)模(mo)型(xing)的(de)(de)星脈(mo)網(wang)(wang)絡(luo)(luo)(luo)(luo)。星脈(mo)網(wang)(wang)絡(luo)(luo)(luo)(luo)具備3.2Tbps帶寬,可(ke)支持10萬(wan)卡集群(qun)組網(wang)(wang),能(neng)讓AI大(da)模(mo)型(xing)通信性(xing)提升10倍。

自OpenAI于去年推出ChatGPT后,各方(fang)勢力(li)(li)紛紛入局AI大模(mo)型,千模(mo)大戰一(yi)觸即發。騰(teng)訊公司(si)上周(zhou)了(le)公布其行業(ye)大模(mo)型的(de)研究進(jin)度,騰(teng)訊云(yun)不“卷”參(can)數,而聚焦到具體產業(ye)端,關(guan)注AI大模(mo)型的(de)落(luo)地。此外,他們積極(ji)構建(jian)高性能網絡(luo)以助攻AI大模(mo)型。此次溝通會中,王(wang)亞晨還透露騰(teng)訊云(yun)正在積極(ji)探(tan)索下(xia)一(yi)代高性能網絡(luo),致力(li)(li)于構建(jian)更強算力(li)(li)的(de)計算集群(qun)。