
智東西(公眾號:zhidxcom)
作者?|?香草
編輯?|?李水青
智(zhi)東西(xi)9月5日報道,今(jin)日,騰(teng)訊云在騰(teng)訊全球數字生態大會上發布AI Infra(AI基礎設施)品(pin)牌“騰(teng)訊云智(zhi)算(suan)”,將旗(qi)下高性(xing)能(neng)計算(suan)HCC、星脈網絡、AIGC云存儲等單項產品(pin)能(neng)力(li)整合(he),提供集(ji)算(suan)存網一(yi)體的高性(xing)能(neng)智(zhi)算(suan)底座。
騰(teng)訊云智(zhi)(zhi)算目前(qian)已(yi)服(fu)務了(le)90%的(de)國(guo)內大模(mo)型頭部用戶,包(bao)括(kuo)百川智(zhi)(zhi)能、智(zhi)(zhi)譜(pu)AI等。據騰(teng)訊公司副(fu)總(zong)裁(cai)、云與智(zhi)(zhi)慧產業(ye)(ye)事業(ye)(ye)群(qun)COO兼(jian)騰(teng)訊云總(zong)裁(cai)邱躍鵬(peng)介紹,騰(teng)訊云的(de)集(ji)群(qun)千卡單日故障數是(shi)行業(ye)(ye)水平的(de)1/3,數據讀寫效率(lv)是(shi)業(ye)(ye)界10倍,千卡集(ji)群(qun)通信(xin)時間是(shi)業(ye)(ye)界一半。
在大會(hui)之(zhi)前,智東西與少數媒(mei)體對(dui)話了騰(teng)訊云副總(zong)裁、云計算資深技術專(zhuan)家沙開波(bo),深入交(jiao)流了智算產業的市場趨勢、技術難點等。
談及(ji)AI對(dui)云計算的影響,沙開波認(ren)為長期來看,生成式AI的發(fa)展是具有(you)確定性(xing)的,大(da)模型對(dui)智算產(chan)業來說是一塊很大(da)的增量,未來一定會有(you)一個比較大(da)的爆發(fa)節點(dian)。
之所(suo)以選擇在這(zhe)時成立(li)騰訊(xun)云智算(suan)的(de)(de)品牌,也與客戶需(xu)求有很大的(de)(de)關(guan)系。另一(yi)方面,大模(mo)型計算(suan)、推理等場景對云基(ji)礎(chu)設施(shi)提出(chu)高要求,騰訊(xun)云作(zuo)為解決(jue)方案提供方需(xu)要不斷打磨產品能力,從(cong)而(er)更好地支持這(zhe)一(yi)類客戶的(de)(de)業(ye)務(wu)需(xu)求。
一、集算存網一體,從設備上架到啟動訓練僅1天
整體來看,騰訊(xun)云(yun)智(zhi)算(suan)(suan)是一個集(ji)算(suan)(suan)、存、網于一體的(de)高(gao)性能(neng)智(zhi)算(suan)(suan)底座,整合了騰訊(xun)云(yun)高(gao)性能(neng)計算(suan)(suan)HCC、高(gao)性能(neng)網絡IHN星(xing)脈、高(gao)性能(neng)云(yun)存儲、加速(su)框架、容器、向(xiang)量數據庫、智(zhi)算(suan)(suan)套(tao)件等產品,提供性能(neng)領先(xian)、多芯兼容、靈活部(bu)署的(de)智(zhi)算(suan)(suan)產品能(neng)力。
互聯網企(qi)業(ye)、大模(mo)型(xing)廠商、本地(di)智算IDC、金融(rong)企(qi)業(ye)等是騰(teng)訊云智算現階段的主要客戶,具體(ti)到場景(jing)中除了公有(you)(you)云,還有(you)(you)私有(you)(you)云、專有(you)(you)云的一些應用,其中大模(mo)型(xing)廠商是最(zui)主要的客戶之一。
騰訊(xun)云智算在訓(xun)練啟動時效上大幅提升(sheng),從設備到(dao)位到(dao)開始訓(xun)練,相較(jiao)業界平均的30天時間縮小到(dao)僅1天。
在集(ji)群(qun)穩定性方(fang)面,騰(teng)訊(xun)云智算千卡(ka)單日(ri)故障卡(ka)數(shu)0.08,只(zhi)有業界(jie)的(de)1/6;數(shu)據讀(du)寫(xie)效率(lv)上(shang),Checkpoint聚(ju)合(he)寫(xie)入的(de)峰值性達到業界(jie)10倍以上(shang),1分(fen)鐘就能完(wan)成萬(wan)卡(ka)Checkpoint讀(du)寫(xie);網絡(luo)交(jiao)換效率(lv)方(fang)面,通(tong)過服務器、網絡(luo)端、交(jiao)換機和通(tong)訊(xun)庫的(de)整體自研優化,千卡(ka)集(ji)群(qun)的(de)通(tong)信(xin)時間占(zhan)(zhan)比(bi)為6%,是業界(jie)平均時間占(zhan)(zhan)比(bi)12%的(de)一半。
▲騰訊云智算(suan)訓練(lian)效率
隨著市面(mian)上的(de)大模型(xing)參數不斷增長,從(cong)百(bai)億(yi)、千(qian)億(yi),逐漸(jian)擴展到(dao)萬億(yi),模型(xing)訓(xun)練對(dui)底層(ceng)算力集(ji)群(qun)的(de)要求也(ye)不斷提升。騰訊云(yun)是如何破解集(ji)群(qun)升級難點的(de)?
沙(sha)開(kai)波談道,大(da)規模計算集群的(de)打(da)造也(ye)是騰(teng)訊云智算產品(pin)矩陣最想解決的(de)問題。其中,HCC高(gao)性(xing)能(neng)計算產品(pin)是專門用(yong)于高(gao)性(xing)能(neng)、穩定、大(da)規模計算集群的(de)構建,而(er)如何將GPU等(deng)算力高(gao)效利(li)用(yong)起(qi)來,則用(yong)到星(xing)脈(mo)網絡來提供卡之間的(de)高(gao)效互聯,模型訓練過(guo)程中的(de)Checkpoints高(gao)效讀寫對應(ying)的(de)是高(gao)性(xing)能(neng)存儲產品(pin)。
基于這些(xie)產品(pin)整體(ti)構建的計算存儲網絡(luo)全棧解決(jue)方案,才能幫助(zhu)客戶實(shi)現大(da)規模集群(qun)的高(gao)效利用(yong)。
二、4天訓完萬億參數模型,網絡故障5分鐘解決
具體來看騰(teng)訊云智算的(de)產品(pin)矩陣,包括高(gao)性(xing)能計(ji)算、網絡、存儲產品(pin),加速框架、向量(liang)數據(ju)庫以及智算套件等(deng)。
▲騰訊(xun)云智算解決方案
騰訊云HCC高性能計算集(ji)群發布于(yu)去年4月,是行業最早發布的面向(xiang)大模型訓練、推理的算力集(ji)群。
HCC底層(ceng)采用騰訊云自(zi)研星星海服務器,可以提(ti)供3.2T的超高(gao)互聯(lian)帶寬,算力性能(neng)比上一代提(ti)升3倍(bei)。萬億參數的混元NLP大模型訓(xun)練(lian),最快4天就能(neng)訓(xun)練(lian)完成。在穩(wen)定性方面,HCC千卡(ka)單日故(gu)障卡(ka)數為0.08,無中斷訓(xun)練(lian)時(shi)長達到300小時(shi),是業界平均市(shi)場50小時(shi)的6倍(bei)。
騰訊(xun)云星脈網(wang)(wang)絡是(shi)其自研的高(gao)性能計(ji)算(suan)網(wang)(wang)絡IHN,支持超10萬卡大(da)規(gui)模組網(wang)(wang)、多型號異(yi)構(gou)GPU接入(ru),網(wang)(wang)絡通信效率(lv)比上(shang)一代提升(sheng)(sheng)60%,大(da)模型訓練(lian)效率(lv)提升(sheng)(sheng)20%。
星脈網絡(luo)具備高效(xiao)的故(gu)障處理能(neng)力,在萬卡集群下,網絡(luo)故(gu)障可實現(xian)1分(fen)(fen)鐘(zhong)發現(xian),3分(fen)(fen)鐘(zhong)定位,5分(fen)(fen)鐘(zhong)解決(jue)。
據(ju)沙(sha)開波介紹,這(zhe)是因為星脈網(wang)絡通過一(yi)些(xie)流量和拓撲的(de)自動感(gan)知,進(jin)行(xing)流量替換中(zhong)心的(de)調度,從而提升整個網(wang)絡的(de)吞吐,并在發現(xian)故障的(de)時候迅速定位到是哪個鏈路出的(de)問題,對鏈路進(jin)行(xing)調度、異常處理,讓整個訓練可以(yi)不中(zhong)斷或(huo)者(zhe)少中(zhong)斷。
騰訊云的AIGC云存儲解決方案包括CFS Turbo、對(dui)象存儲COS、數(shu)據(ju)加速(su)器GooseFS以及數(shu)據(ju)處理(li)(li)CI等(deng),針對(dui)AI大(da)模型數(shu)據(ju)采集清(qing)洗(xi)、訓(xun)練(lian)、推理(li)(li)、數(shu)據(ju)智理(li)(li)全(quan)流程,提(ti)供(gong)全(quan)面高效(xiao)的云存儲支持,可將(jiang)大(da)模型的數(shu)據(ju)清(qing)洗(xi)和訓(xun)練(lian)效(xiao)率提(ti)升一倍(bei)。
三、千卡集群每年降本2000萬,助力傳統企業AI轉型
目前,騰(teng)訊云(yun)(yun)智算可以(yi)靈活地支持公有(you)云(yun)(yun)、私(si)有(you)云(yun)(yun)以(yi)及分(fen)布式云(yun)(yun)的輸(shu)出(chu),成為了國內90%頭(tou)部大(da)模型(xing)廠(chang)商的選擇,也幫助一大(da)批(pi)IDC廠(chang)商實現了AIDC轉型(xing)。
沙開波解讀了(le)騰訊云(yun)智算(suan)具體的(de)落地案(an)例,公(gong)有(you)云(yun)的(de)一些大(da)模(mo)型的(de)客戶在使用其完整的(de)智算(suan)解決方(fang)案(an)后,一個千卡集(ji)群每年的(de)成本相比過(guo)去傳統的(de)方(fang)式可以降(jiang)低2000萬(wan)。
例如某社區電(dian)商的(de)(de)企業(ye),在評論分析、圖像分類等OCR、CV業(ye)務上(shang)應用(yong)(yong)騰訊云智算解決方案,在去年(nian)下半年(nian)從海外的(de)(de)芯片更換成(cheng)了騰訊云公有云上(shang)的(de)(de)國(guo)產芯片。在主要業(ye)務指標不變(bian)的(de)(de)前提下,只用(yong)(yong)了21天就完成(cheng)了替換,其中兩(liang)周左(zuo)右(you)用(yong)(yong)來(lai)適(shi)配模型,一周左(zuo)右(you)改造推理框架,對不同芯片的(de)(de)適(shi)配非常高效靈(ling)活。
▲騰訊云智算(suan)客戶價值
在私有云(yun)的落地(di)上,騰訊云(yun)智算主要的客戶是(shi)(shi)傳統的IDC公司,它們原本具有機房(fang)、硬件、網絡優勢,但(dan)是(shi)(shi)缺少云(yun)、軟件解(jie)決方(fang)案。
具體案例是,某(mou)傳統IDC企業通(tong)過(guo)與騰訊云(yun)智(zhi)(zhi)算合作,組建(jian)新(xin)一(yi)代具備AI Infra基礎能力的智(zhi)(zhi)算平(ping)臺,并(bing)通(tong)過(guo)租(zu)戶(hu)、計費管理等能力,為終端用(yong)戶(hu)提(ti)供一(yi)站式自主用(yong)云(yun)服務,實(shi)現(xian)到AIDC的轉型(xing)。該客戶(hu)還獲得了(le)今年的可信云(yun)大(da)會用(yong)戶(hu)最佳實(shi)踐獎。
四、談智算產業五大趨勢,保持兼容、開放、公私一體
縱觀(guan)整(zheng)個智算(suan)產業(ye),正處于快速發展(zhan)的(de)階段,從(cong)產業(ye)規模、應(ying)用場景到技(ji)術創(chuang)新都在不斷拓展(zhan)。沙開波與(yu)我們分享了騰訊云對(dui)未來趨(qu)勢的(de)看法,主要有五(wu)個層面(mian)。
首先是大(da)模(mo)型(xing)的規模(mo)仍在(zai)持續增加,這對AI Infra要求也(ye)越(yue)來越(yue)高,需要更大(da)的算(suan)力集(ji)(ji)群(qun),如何在(zai)更大(da)集(ji)(ji)群(qun)下確保穩定性(xing)、應用(yong)性(xing)可以滿足要求是主要命(ming)題。
其次是多(duo)芯(xin)的(de)能力(li)。多(duo)芯(xin)一方面來源(yuan)于供(gong)給端(duan)的(de)挑戰(zhan),需要AI Infra產(chan)品(pin)去(qu)適(shi)配各(ge)種(zhong)芯(xin)片的(de)能力(li),比如金融(rong)等行(xing)業的(de)一些央國(guo)企會有國(guo)產(chan)化(hua)訴求,需要云廠商去(qu)兼(jian)容(rong)、適(shi)配國(guo)產(chan)化(hua)的(de)芯(xin)片。
第三(san)是現在(zai)整體AI應(ying)用(yong),處于一個快速發展的階段,在(zai)應(ying)用(yong)落地層面仍處于前(qian)期,未來(lai)可(ke)能會越來(lai)越快。從這個角度看,未來(lai)的推(tui)理比重可(ke)能也會逐步增加。
第(di)四是(shi)AI場景變得越來(lai)越廣泛,很多行業還在(zai)探索的階(jie)段(duan)。從騰訊云(yun)智(zhi)算和很多客戶的交(jiao)流(liu)中,可以(yi)看(kan)出他(ta)們(men)在(zai)這方面都有很強的訴求,未來(lai)肯(ken)定會有一些(xie)創新的業務應用(yong)落(luo)地(di)。
最后是對(dui)數據安全(quan)的需求(qiu)強烈。對(dui)很(hen)多國內企業(ye)來(lai)說(shuo),用于訓練推理的業(ye)務數據,只能在自己的機(ji)房里(li)面(mian)完成(cheng),這(zhe)對(dui)產品能力(li)的部(bu)署提(ti)出比(bi)較(jiao)多訴求(qiu)。
談及(ji)騰(teng)訊云(yun)智算(suan)的(de)整(zheng)體戰(zhan)略(lve)目(mu)標,沙開波稱(cheng)騰(teng)訊云(yun)從ChatGPT出現(xian)后(hou)就(jiu)一直在(zai)打(da)磨(mo)產品,在(zai)原(yuan)來(lai)的(de)通用計(ji)算(suan)、云(yun)上去演進,讓原(yuan)有的(de)云(yun)基礎設施能更加(jia)滿足大模型時代對訓練(lian)、推理(li)場(chang)景的(de)訴求(qiu)。
此次發布騰訊(xun)云(yun)智(zhi)算(suan)品牌(pai),主要還是出于(yu)把過去(qu)一系列的工作組合起來,變成一個整(zheng)體解決方案(an)對(dui)外提供(gong),向行業傳遞更(geng)準確、更(geng)完整(zheng)的信息(xi)。
相較其他(ta)友(you)商,騰訊云(yun)智算品牌的(de)(de)主要戰略是整體(ti)的(de)(de)兼容性、開放性,以及(ji)公私一體(ti)。
結語:生成式AI推動智算產業飛速發展
憑(ping)借集算(suan)(suan)存網一體(ti)的(de)高性能(neng)智(zhi)算(suan)(suan)底座,騰(teng)訊云智(zhi)算(suan)(suan)整合了多項優勢產(chan)品,展(zhan)現了在智(zhi)算(suan)(suan)領(ling)域的(de)技(ji)術能(neng)力和潛力。
隨著(zhu)生成式AI的(de)持(chi)續發展,智算(suan)產業也許(xu)會(hui)乘(cheng)著(zhu)這股大(da)(da)模型(xing)(xing)的(de)風“起飛”。騰訊云(yun)智算(suan)以(yi)其兼容(rong)性、開放性以(yi)及公(gong)私一體的(de)戰略,不僅(jin)靈活地(di)支持(chi)公(gong)有(you)云(yun)、私有(you)云(yun)以(yi)及分布式云(yun)的(de)輸出,同(tong)時(shi)也成為了國內大(da)(da)量大(da)(da)模型(xing)(xing)廠商(shang)的(de)選擇,幫助(zhu)一大(da)(da)批(pi)IDC廠商(shang)實(shi)現向(xiang)AIDC的(de)轉型(xing)(xing)。