
12月(yue)5-6日(ri),由智(zhi)(zhi)猩猩與智(zhi)(zhi)東西(xi)聯合主(zhu)辦的2024中國生成式AI大會(上(shang)海(hai)站)在上(shang)海(hai)圓滿收官。在第二日(ri)的「AI Infra峰會」上(shang),GMI Cloud亞太區總裁King Cui發表了主(zhu)題為《全球化布局(ju):AI企業如何補齊算(suan)力短板(ban),保障GPU集群(qun)穩定性》的演講(jiang)。
GMI Cloud成立于2023年,是一家AI Native Cloud服務商,旨在(zai)為企業(ye)AI應用提供最(zui)新、最(zui)優的(de)GPU資源,為全球新創公司、研究機構和大型企業(ye)提供穩定安全、高(gao)效經濟的(de)AI云服務(wu)解決方案。其(qi)研發團(tuan)隊主(zhu)要來自谷歌X Lab,具備豐富的(de)AI領域(yu)專(zhuan)業(ye)知識(shi)。King Cui是云計算(suan)領域(yu)資深專(zhuan)家,已有十幾年(nian)從業(ye)經驗(yan),今(jin)年(nian)正式(shi)加入GMI Cloud。
本次演講中,King Cui分享道,“目前中國AI出海處于加速期,算力作為其中的核心生產資料正發揮重要作用。構建高穩定性的GPU集群(qun)是實現(xian)AI出海降本增效(xiao)的必由之路,可以幫(bang)助企業在AI全球(qiu)化浪潮中取勝。”
在確保GPU集群的高穩定性方面,GMI Cloud除了擁有穩定的尖端GPU芯片優勢以外,其還自主研發了Cluster Engine,整合了對GPU卡、GPU節點、高速存儲以及高速網絡的控制,為客戶提供三種核心服務形態:裸機、虛擬機、容器。這些服務在不同的層面上支持AI機器學習、基礎平臺設施以及HPC高性能運算。此外,作為Nvidia全球Top10 NCP,GMI Cloud在交付前會進行嚴格的(de)驗證(zheng)流程。
GMI Cloud還與IDC協作,擁有充足的備件,提供及時的維修,在更短的交付時間,確保停機時間最小化。另外值得一(yi)提的是,他們靈活的選型方案符合各類AI出海(hai)企業需求,King Cui在大會現場進行演(yan)講時引起眾人(ren)關注(zhu)。
以下為King Cui的演講實錄:
今天給大家分(fen)享的(de)主(zhu)題(ti)是,在AI全球(qiu)化(hua)的(de)布局下,AI企業如何在海外(wai)補(bu)齊高(gao)端(duan)GPU的(de)算力短板(ban),并且保證整個GPU集群(qun)的(de)穩定性。
一、快速了解一下GMI Cloud
首先我們來快速認識下GMI Cloud。GMI Cloud是一家AI Native Cloud公司,我們專門做AI時代的GPU Cloud。關于(yu)我(wo)們公(gong)司,主(zhu)要(yao)有三點:
1.我們是全球Top10的Nvidia Cloud Partner,也是Nvidia Preferred Partner,可以提供英偉達全套最(zui)新(xin)最(zui)強(qiang)的GPU云服務。
2.我們(men)與英偉達(da)是(shi)戰略合作伙伴關系,同時獲(huo)得了(le)全球頂級(ji)GPU ODM廠商(shang)的(de)投(tou)資(zi),在(zai)亞太區有GPU的(de)優先分配權,能在(zai)最短時間拿到最新(xin)最強的(de)GPU。現在(zai)亞太很多云(yun)廠商(shang)還(huan)沒有提供(gong)H200的(de)服(fu)務,但我們(men)已經在(zai)今年八月份就向客(ke)戶提供(gong)H200云(yun)服(fu)務,目(mu)前具備幾(ji)千卡的(de)H200集群。
3.我們致力于為所(suo)有AI企業(ye)打造一套獨立的AI云(yun)原生平臺,不(bu)做(zuo)貿易,只做(zuo)AI Cloud。我們希(xi)望為所(suo)有企業(ye)提供(gong)具(ju)備(bei)高穩(wen)定性的GPU集群云(yun)服(fu)務。
我們致力于為所有企業(ye)提供(gong)一套穩定、高效(xiao)、安全(quan)(quan)、好用的(de)GPU Cloud,鑄就(jiu)全(quan)(quan)球領先的(de)AI Cloud。目前我們在美國(guo)、中國(guo)臺灣、泰(tai)國(guo)、馬(ma)來西亞(ya)等多個國(guo)家和地區提供(gong)云服務(wu),主要提供(gong)H100和H200,集群總規模接近萬卡規模。今年十月份(fen),GMI Cloud剛剛完成8200萬美金的(de)A輪融資(zi),這(zhe)筆(bi)資(zi)金將(jiang)也將(jiang)用于GMI Cloud在全(quan)(quan)球AI算力服務(wu)方面的(de)布局。
二、中國AI出海是大勢所趨,算力需求和GPU集群穩定性是核心痛點
介紹(shao)完公司,我(wo)們(men)(men)來講(jiang)第二部分,AI出(chu)海的趨(qu)勢和算力的挑戰。我(wo)們(men)(men)為(wei)什(shen)么要做一(yi)家出(chu)海的云(yun)服(fu)務公司呢?在分析(xi)這(zhe)點(dian)之前,我(wo)們(men)(men)要首先回顧過去中國30多年(nian)經濟高速發展的2個核心(xin)底(di)層因素。
第一是人口紅(hong)利和城鎮(zhen)化的高(gao)速(su)發(fa)展,這個底(di)層因素(su)帶動(dong)了產業(ye)高(gao)速(su)發(fa)展,推(tui)動(dong)了中(zhong)國經(jing)濟(ji)GDP高(gao)速(su)增長(chang)。
第(di)二(er)個底層驅動(dong)的(de)核心因素(su)是(shi)通信(xin)基礎設(she)施的(de)發展(zhan)。從2G到(dao)3G到(dao)4G到(dao)5G,通信(xin)基礎設(she)施的(de)發展(zhan)使(shi)得(de)人機交互的(de)信(xin)息(xi)傳(chuan)輸媒(mei)介發生了從文字(zi)、圖片、視頻的(de)演進。移動(dong)互聯網(wang)的(de)高速發展(zhan)催生了很多新創公司(si),也使(shi)得(de)國內幾(ji)個頭部云計算(suan)廠(chang)商實現了幾(ji)百億人民幣市值的(de)躍(yue)遷。
但到(dao)今天,這兩個核心因素已經(jing)(jing)進入失速(su)期。中國的城鎮化率已經(jing)(jing)高達66%,中國移動網民用戶數量接(jie)近11億,AI時代正式(shi)來臨,出(chu)海(hai)(hai)趨勢比較(jiao)明晰了,所以我們一定要做出(chu)海(hai)(hai)。
從技術的發展來看,我們這代人是非常幸運的,我們經歷了整個互聯網時代的發展和移動互聯網時代的演進,目前正在進入AI時代。從1990年到2010年的20年是互聯網時代,從2005年到2020年的15年是移動互聯網時代,但這兩個時代都已經進入技術普惠點,不再有高速增長的機會。從2022年開始,AI時代興起,就像1995年的互聯網時代一樣,未來會有巨大的機會。它的發展速度會比以前每個時代都更加猛烈,所以我們要抓住這波人工智能浪潮。
當前(qian)行業的(de)(de)發(fa)展趨勢(shi)是(shi),做(zuo)AI就一(yi)(yi)定要做(zuo)出海。我相信所有(you)企業在做(zuo)AI的(de)(de)同(tong)時,一(yi)(yi)定要立足于全球(qiu),一(yi)(yi)定要做(zuo)全球(qiu)化的(de)(de)生意。截止到(dao)今年8月(yue)份(fen),全球(qiu)AI產(chan)品(pin)總量大概(gai)有(you)1717個,其(qi)中(zhong)中(zhong)國相關的(de)(de)AI產(chan)品(pin)有(you)280個,出海相關的(de)(de)接近95個,超過三(san)分之一(yi)(yi)。
我截取(qu)了(le)(le)AI產(chan)品榜前(qian)30名的APP,中國AI出海的APP前(qian)9個月(yue)的時(shi)間,整(zheng)體MAU(月(yue)度活(huo)躍用戶(hu))已經翻了(le)(le)一(yi)(yi)倍,并且還在高速增(zeng)長。但從MAU角(jiao)度來看,相比第一(yi)(yi)名的ChatGPT,中國企業還有很大(da)的增(zeng)長空間。
AI出海趨勢的底層是中國的產品力競爭。AI有三要素:算法、數據和算力,算(suan)力(li)是非常核(he)心的生(sheng)產資料。那我們出海時如何解決算(suan)力(li)問題?
中(zhong)國(guo)的(de)國(guo)產GPU很強(qiang),但相比(bi)高(gao)端GPU來(lai)講還有一定差距。因為各種原(yuan)因,我們國(guo)內在高(gao)端優先(xian)的(de)頂尖GPU儲備量不(bu)夠。同時(shi),AI時(shi)代的(de)發展時(shi)間(jian)不(bu)長,大家對(dui)于推(tui)理穩定性的(de)運維經驗也不(bu)足。
所以(yi)(yi),我(wo)們(men)在海外(wai)時(shi)發現,所有的(de)IDC、服務器、能(neng)源(yuan)等(deng)供應商,他們(men)的(de)標準化和穩(wen)定(ding)性的(de)考量(liang)也不(bu)充分。所以(yi)(yi),目(mu)前在海外(wai)做AI推理面(mian)臨的(de)最大挑戰(zhan)就是(shi)穩(wen)定(ding)性問題。
這個圖(下圖)大家并不陌生,Meta了公布Llama 3-405B大模型用了16000張H100的卡,訓練了54天,總共出現了466次故障中斷,其中419次是意外發生的,而GPU相關的高達200多次。Meta是全球頂尖的互聯網公司,他們有非常強大的推理能力,但大部分廠商在面對這么高故障率的GPU集群時,是難以應對的,所以選擇一個非常穩定的GPU服務提供商是十分關鍵的。
GPU集群的(de)穩(wen)(wen)定性與公司付出(chu)的(de)經濟成(cheng)本(ben)(含研發成(cheng)本(ben))有(you)直接聯系,在出(chu)海時有(you)人想(xiang)選擇(ze)最便宜的(de)GPU裸金屬服(fu)務提供方,這也(ye)許在GPU單價上節省(sheng)了10%-20%,但如果穩(wen)(wen)定性不(bu)夠,整個公司研發的(de)總成(cheng)本(ben)可(ke)能會成(cheng)倍增(zeng)長。
從(cong)公(gong)司總體成本來講,選擇一個(ge)具備高(gao)穩定性、安全高(gao)效(xiao)的GPU云服務(wu)提供方,總成本其實更低。所以無論是降(jiang)本還是增效(xiao),選擇高(gao)穩定性的GPU集群是最重要的。
三、Cluster Engine、NCP驗證體系、故障預防策略“三管齊下”,承諾99%SLA
GMI Cloud如(ru)何保(bao)證GPU集群的高穩定(ding)性,面對故(gu)障(zhang)時的應對措施(shi)又是怎樣的?
GMI Cloud致力于對外(wai)提供(gong)全棧(zhan)AI應用平臺(tai)。
- 最底層的硬件架構層,我們提供高性能的GPU服務器,包括大容量的存儲系統以及高帶寬的數據通道。
- IaaS層,我們完成了所有容器化的梳理,今年年底我們還會推出Serverless技術。同時我們對網絡和存儲都做了API的封裝,可以以API方式對外提供服務。IaaS層和GPU硬件架構層所有相關軟件技術完全由GMI Cloud自主研發和管控。
- 再往上是模型層。開發者或小微企業可以直接使用開源的大模型。這時我們可以提供更多便利性,支持一站式把開源大模型直接部署到我們的集群,不需要做任何代碼開發就可以直接上手使用。
具備(bei)技(ji)術實力的公(gong)司(si)可以在我們集群(qun)上部署自己的大(da)模(mo)型(xing)做fine-tuning,我們可以提供專家服務,幫(bang)助大(da)家把(ba)模(mo)型(xing)訓練(lian)得更好。
對于整個GPU集群的管理,我們自主研發了一套平臺,叫Cluster Engine,能夠實現所有資源的調度和管理。
在計算層面的資源調度,GMI Cloud提供裸金屬、虛擬機還有容器化等服務。在存儲層面,GMI Cloud提供基于NVME和RDMA的高性能分布式存儲,也包括冷熱分離。我們完成了所有形態的研發。在網絡層面,我(wo)們支持IB虛擬(ni)化,能夠幫(bang)助企業客戶使(shi)用(yong)更加(jia)高(gao)速穩定的(de)IB網絡。
這里舉個(ge)例子,這是一個(ge)萬卡(ka)集(ji)群(qun)的(de)(de)(de)IB網(wang)絡(luo)架(jia)構(gou)(見下圖),總共(gong)(gong)用了1280臺H100服務器(qi),總共(gong)(gong)有10264張(zhang)卡(ka),也是一個(ge)常見的(de)(de)(de)400G×8的(de)(de)(de)3.2T的(de)(de)(de)三層IB高(gao)速(su)網(wang)絡(luo)架(jia)構(gou)。這里面有一萬多張(zhang)H100的(de)(de)(de)GPU卡(ka),如(ru)果從(cong)正常的(de)(de)(de)SLA表現(xian)來看,可能每3-4個(ge)小時就會(hui)中斷一次。
目前我們公司是為數不多真正具備萬卡IB網(wang)絡集群(qun)運(yun)維實踐的(de)(de)(de)公司。在網絡虛擬化(hua)層(ceng)面,我們也做(zuo)了許多相關技(ji)術(shu),能(neng)(neng)夠(gou)最大化(hua)利用(yong)資源,具(ju)體有(you)三(san)個(ge)好(hao)處(chu):第(di)一,通過網絡虛擬化(hua),我們在資源管理上能(neng)(neng)做(zuo)到很好(hao)的(de)(de)(de)隔(ge)離,使不同(tong)用(yong)戶之間(jian)不會發生資源爭搶,提(ti)高整(zheng)個(ge)IB網絡的(de)(de)(de)使用(yong)效率;第(di)二,性能(neng)(neng)會有(you)提(ti)升;第(di)三(san),成本(ben)會優化(hua)。
通過虛擬化(hua)技術,我們提高了(le)現有集群的硬件(jian)使用效率(lv),從(cong)而(er)進一步優化(hua)整(zheng)體(ti)成本。基于(yu)IB網絡,我們實現了(le)VPC參考(kao)架(jia)構,這(zhe)個VPC與傳(chuan)統云計(ji)算的VPC沒有太大(da)差異,只(zhi)是(shi)每個VPC里面用的是(shi)IB網絡。比如在國外某所大(da)學(xue)的私有GPU集群里,我們提供了(le)IB網絡的VPC,可以把不(bu)同學(xue)院、不(bu)同教授(shou)的實驗(yan)分(fen)配到不(bu)同VPC中,各個之間不(bu)會(hui)發(fa)生資源隔離(li)和爭搶,這(zhe)對客戶來說是(shi)很好的體(ti)驗(yan)。
講完容器和網絡,我(wo)(wo)們(men)(men)再看(kan)存(cun)儲(chu)。我(wo)(wo)們(men)(men)基(ji)于(yu)不同場(chang)景做了(le)存(cun)儲(chu)分級。如果(guo)是(shi)做備份需(xu)求,我(wo)(wo)們(men)(men)可以(yi)提(ti)供(gong)成本(ben)較(jiao)優的(de)(de)SATA存(cun)儲(chu)。如果(guo)是(shi)對時效性要(yao)求高、吞吐較(jiao)高的(de)(de)場(chang)景,比如做模型訓練的(de)(de)Checkpoint存(cun)儲(chu),或者(zhe)自動(dong)駕(jia)駛數據加載(zai)的(de)(de)高性能讀(du)寫存(cun)儲(chu),我(wo)(wo)們(men)(men)提(ti)供(gong)了(le)基(ji)于(yu)NVME的(de)(de)GPFS存(cun)儲(chu)系(xi)統。根據不同場(chang)景需(xu)求,我(wo)(wo)們(men)(men)提(ti)供(gong)不同性價比的(de)(de)存(cun)儲(chu)產品。
對于大規模集群來說,可觀測性非常重要。我們(men)(men)提供(gong)了(le)主(zhu)動監(jian)(jian)控(kong)功(gong)能,通(tong)過自研(yan)平(ping)臺能夠實時(shi)監(jian)(jian)控(kong)和告警(jing),并(bing)且快速(su)定(ding)位(wei)問(wen)題(ti),在(zai)最短(duan)時(shi)間(jian)恢復集(ji)群。這(zhe)是我們(men)(men)集(ji)群目前(qian)提供(gong)的(de)端到(dao)端檢測、實時(shi)儀表盤、故障(zhang)告警(jing)通(tong)知及數據歷(li)史記錄監(jian)(jian)控(kong)(下圖),“端到(dao)端監(jian)(jian)測”是目前(qian)很多客戶反饋非常方便的(de)定(ding)位(wei)功(gong)能,我們(men)(men)可以發(fa)現是哪(na)個節點(dian)、哪(na)臺機(ji)器出了(le)問(wen)題(ti),快速(su)進行修復和調整(zheng)。
然后再講一講GMI Cloud的驗(yan)證體系。為(wei)(wei)了保證(zheng)集群的高穩定性,GMI Cloud有(you)兩套體系(xi):第一套是作為(wei)(wei)Nvidia Cloud Partner的Nvidia驗證(zheng)體系(xi),第二套是在真正交付給客戶之前的、GMI Cloud自有(you)穩定性驗證(zheng)測(ce)試體系(xi)。
Nvidia的NCP認(ren)證體(ti)系(xi)非常嚴格。首(shou)先要做整個(ge)集(ji)群方案設(she)計(ji),然后通過NCP評估,再(zai)做整個(ge)集(ji)群建設(she)。建設(she)完成后Nvidia會(hui)派人檢(jian)查(cha)和測試,最(zui)終才(cai)能獲(huo)得(de)資質許可(ke)。
此(ci)外,在交付之前的驗證,我們還會自己(ji)做(zuo)(zuo)硬件層面測(ce)(ce)試、系統配置(zhi)測(ce)(ce)試,對(dui)網絡和存儲做(zuo)(zuo)壓力測(ce)(ce)試,確保這套集(ji)群既能實(shi)現單機(ji)測(ce)(ce)試,也能實(shi)現整個跨(kua)集(ji)群分布式訓練需求。
第三部分,我們看看故障的預防策略和應對措施。沒有人能保證(zheng)集群穩定性達(da)到100%,難免會出現(xian)一些(xie)問題(ti),比(bi)如GPU硬(ying)件(jian)的掉(diao)卡或故(gu)障(zhang)。我(wo)們要(yao)在(zai)最(zui)短時間內實現(xian)硬(ying)件(jian)替(ti)換。GMI Cloud與(yu)IDC伙伴(ban)和ODM廠商保持深度緊密的合(he)作(zuo)關(guan)系。我(wo)們有3-5%的備(bei)機率(lv)和備(bei)件(jian)率(lv),能在(zai)硬(ying)件(jian)故(gu)障(zhang)時通過(guo)IDC本地伙伴(ban)快速更換。
通過(guo)問題源(yuan)頭追溯和SLA簽訂,我們能對(dui)外承(cheng)諾使用Cluster Engine的(de)GPU云(yun)(yun)服(fu)務可達到99%的(de)SLA。這是目前全球GPU云(yun)(yun)服(fu)務廠商(shang)中(zhong)為數不多能在合(he)同中(zhong)約定99%SLA的(de)廠商(shang)。同時我們提供7×24小時服(fu)務響(xiang)應及技術咨詢服(fu)務,確保快(kuai)速解決硬件故障,減少停機時間,為客戶保持高穩(wen)定性(xing)系(xi)統(tong)。
四、研發團隊來自谷歌X Lab,可提供私有、按需兩種方案
接下來,我想講講對AI Infra選型的思考,并(bing)結合兩個(ge)實際案(an)例進(jin)行分享。
在出海過程中,選型有幾個因素需要(yao)(yao)考慮。AI場景中,是(shi)長期(qi)租用(yong)還是(shi)短(duan)期(qi)租用(yong)?還要(yao)(yao)根據(ju)(ju)業務需求選擇是(shi)做推理還是(shi)訓練,同(tong)時也要(yao)(yao)根據(ju)(ju)經(jing)濟情況,選擇目前普遍(bian)使(shi)用(yong)的(de)(de)(de)H100,或(huo)性(xing)能更高(gao)的(de)(de)(de)H200,亦或(huo)未來會推出的(de)(de)(de)GB200。
綜合考慮,我們提供兩種方案:第一種是Private Cloud,可以根據客戶需求和地點選擇,在全球合法的國家和地區幫助選擇IDC,定制GPU服務器,提供長期穩定服務。第二種是On-Demand的標(biao)準產品,可以(yi)按卡時(shi)計費。客戶可能(neng)只需(xu)要使(shi)用一(yi)兩張卡,訓練一(yi)兩天就(jiu)釋放,不需(xu)要為短(duan)期GPU需(xu)求付(fu)出高昂的購機成本。
除了以上所講,我們還提供專業的AI顧問和咨詢服務。我們的(de)研發團隊(dui)主(zhu)要(yao)來自谷歌X Lab,在深(shen)度學習(xi)和機器學習(xi)領域積(ji)累(lei)了豐(feng)富經(jing)驗,可以為企業(ye)客(ke)戶提供專業(ye)化的AI咨詢和建議。
最后分享兩個案例。
第一個是某大型(xing)互(hu)聯網招(zhao)(zhao)聘平臺,他們在全球化(hua)過程中希望(wang)基(ji)于業務(wu)定(ding)制(zhi)招(zhao)(zhao)聘垂直場景的大模型(xing)。我們在海外幫他們構建私有(you)GPU集(ji)群,從IDC選址到(dao)GPU服務(wu)器(qi)定(ding)制(zhi),到(dao)云(yun)管理平臺組件,以及模型(xing)訓(xun)練建議,提供(gong)端到(dao)端解(jie)決方案。讓企業客(ke)戶可以專注業務(wu)研發,提高效率,加速模型(xing)訓(xun)練。
另一個是在線直播平臺,主要(yao)做主播與(yu)觀眾連(lian)麥。在涉及(ji)不同(tong)語言(yan)時(shi),以前(qian)的技術(shu)需要(yao)先語音轉文字(ASR),再文字轉語音(TTS),目(mu)前(qian)的端到端大(da)模(mo)(mo)型(xing),可以實(shi)現不同(tong)語言(yan)之間的無縫對(dui)話。這家(jia)公司基于開源大(da)模(mo)(mo)型(xing)做fine-tuning,不需要(yao)長(chang)期(qi)租用大(da)集群,只需在fine-tuning時(shi)使用幾(ji)臺服務器再訓(xun)練幾(ji)天或一周。他(ta)們采購(gou)了(le)GMI Cloud的On-Demand服務來(lai)完(wan)成模(mo)(mo)型(xing)fine-tuning和調優。
五、結語
總(zong)結一(yi)下(xia),今天(tian)我們從GPU云服務提(ti)供商角度分享了(le)在AI全球(qiu)化視(shi)角下(xia)如何提(ti)供高穩定(ding)性GPU云集群。
在集(ji)群(qun)(qun)穩定(ding)性方(fang)面通過(guo)三個(ge)方(fang)式,具備主動(dong)監(jian)控(kong)的Cluster Engine云(yun)平臺、英偉(wei)達驗證體(ti)系和交付測試(shi)體(ti)系、主動(dong)運維監(jian)控(kong)策略(lve),通過(guo)這三個(ge)維度保證GPU集(ji)群(qun)(qun)穩定(ding)性。最(zui)后結(jie)合兩個(ge)實際案例分享(xiang)了AI Infra選型的思(si)考,希望可以給大家的業務發(fa)展帶(dai)來幫助(zhu)。
最后(hou)祝所有AI企(qi)業在全(quan)球化過程中業務蓬(peng)勃發展,謝謝大家。