
4月(yue)1日-2日,以“大拐點 新征(zheng)程”為主(zhu)題的(de)2025中國生成式(shi)AI大會(北(bei)京(jing)站)隆(long)重舉行。
在這場匯聚了50余(yu)位產學研嘉賓、1500名觀(guan)眾的(de)盛會上,GMI Cloud?亞太區總裁?King Cui發表了主題(ti)為《AI推(tui)理的(de)全球算力革(ge)命:從單點(dian)爆發到全球擴容(rong)》的(de)演講。
其(qi)提到,GMI Cloud的核心價值在(zai)于:通(tong)過頂級生態協作獲取高端硬件資源,依托(tuo)自(zi)研Cluster Engine云平臺和Inference Engine推(tui)理引擎云平臺實現算力(li)的全球化智能調度、擴容與(yu)極(ji)致性(xing)能釋放(fang)。
在目前這個AI推理(li)的時代,重(zhong)構AI算力(li)的成本(ben)效益模型,為AI應用(yong)的研發提供(gong)“隨需而變”的全球化算力(li)底座,助力(li)企業在用(yong)戶激增(zeng)、競爭激烈(lie)的全球市(shi)場中,以算力(li)優(you)勢(shi)構筑商業壁壘,推動“全球AGI”從技術可能邁向(xiang)商業必然。
隨著(zhu)DeepSeek等國(guo)產大模型改寫全球(qiu)商業(ye)競爭格局,AI應用出海(hai)浪潮席卷全球(qiu)。King?在演講中(zhong)(zhong)分享了一個數據(ju):“中(zhong)(zhong)國(guo)AI應用下載量年增(zeng)速超100%,但(dan)算力(li)穩定性與成本效率仍是核心(xin)瓶頸。”在全球(qiu)AI應用爆發(fa)式增(zeng)長的產業(ye)變革(ge)期,算力(li)已成為驅動技術落地與商業(ye)擴(kuo)張的核心(xin)生產要素。
作為(wei)NVIDIA全球TOP10?NCP,GMI?Cloud?目前(qian)已在北美(mei)、歐洲、亞(ya)太部(bu)署12座數據中心,幫(bang)助企(qi)業(ye)(ye)實現全球算力調(diao)(diao)度與(yu)擴容。GMI Cloud深(shen)耕AI全球化(hua)(hua)的算力基(ji)礎(chu)設施領域,以(yi)“技(ji)術縱(zong)深(shen)+全球布局”雙輪(lun)驅動,構(gou)建起(qi)覆蓋硬件(jian)適配、彈性調(diao)(diao)度、性能優化(hua)(hua)與(yu)穩定保障的全棧解決方案,破解企(qi)業(ye)(ye)出(chu)海面臨的算力部(bu)署難題。
以下為King Cui的演講實錄精華:
大家下午好(hao)!我是來(lai)自GMI Cloud的(de)King Cui,今天為大家分享的(de)主(zhu)題是《AI推理的(de)全(quan)球(qiu)算力(li)革(ge)命:從(cong)(cong)單點(dian)爆發(fa)到全(quan)球(qiu)擴容》。從(cong)(cong)GMI?Cloud的(de)角(jiao)度出發(fa),我們探討如何(he)幫助企(qi)業實現全(quan)球(qiu)化的(de)推理云服務。
一、GMI?Cloud:從GPU硬件架構到頂層應用,建立全棧AI基礎設施平臺
在今天正式(shi)演講之前,我首先快速(su)地(di)和大家(jia)再介紹一下GMI?Cloud,我們是一家(jia)AI Native Cloud公司,致力(li)于為全球化AI應用提供(gong)英偉達最新的(de)(de)GPU云(yun)服務(wu)。作為NVIDIA全球TOP 10的(de)(de)NVIDIA Cloud Partner(NCP),GMI Cloud與(yu)NVIDIA保(bao)持密切(qie)合作,定期進行技術交流(liu),以幫(bang)助我們將AI應用做的(de)(de)更完善。同時,得益于投資者的(de)(de)支持,GMI?Cloud在亞(ya)太地(di)區擁有最新的(de)(de)GPU分配權,能夠快速(su)獲(huo)取最新、最強的(de)(de)GPU云(yun)服務(wu)。
我們推(tui)(tui)出了“Cluster Engine自研云平(ping)臺”,專(zhuan)注(zhu)于為從(cong)事大語言模型、文(wen)生圖、文(wen)生視頻模型的(de)公司提供訓練云平(ping)臺的(de)支持(chi)。同時,因為GMI Cloud相信(xin),未(wei)來的(de)AI應用將(jiang)快速(su)遍布(bu)全球,未(wei)來將(jiang)是一個全新的(de)“推(tui)(tui)理(li)世(shi)界(jie)”,Token changes?the world,因此(ci)GMI Cloud面向(xiang)全球打造了AI推(tui)(tui)理(li)引擎平(ping)臺“Inference?Engine”。
(上圖)從(cong)技術架構來(lai)看,GMI Cloud提供從(cong)底層GPU硬件到支持應用(yong)層的(de)全棧服務:
第一,底層(ceng)提供(gong)(gong)NVIDIA生態體(ti)系內最(zui)新、最(zui)強的GPU云資(zi)源,同(tong)時也提供(gong)(gong)適(shi)合AI存(cun)(cun)儲(chu)的云服(fu)務,支持NVMe高(gao)速(su)存(cun)(cun)儲(chu)和普通存(cun)(cun)儲(chu),適(shi)配不同(tong)場(chang)景的存(cun)(cun)儲(chu)介質(zhi),提供(gong)(gong)不同(tong)的云服(fu)務。在網絡(luo)層(ceng)面(mian),我們提供(gong)(gong)高(gao)速(su)帶寬的數據(ju)通道,確保AI應用(yong)的高(gao)效(xiao)運行。再往(wang)上就是MaaS( Model as a Service)模型的推理(li),同(tong)時我們集成了大量已(yi)經(jing)開源的大模型,并且基于(yu)自己的技(ji)術自研了Inference Engine推理(li)引(yin)擎平臺。
第二(er),GMI Cloud研發了一套計算(suan)存(cun)儲網(wang)絡,具備laaS能力。在(zai)計算(suan)資源方面,提供裸金屬服(fu)務器(qi)、云主機、K8s云服(fu)務等多種計算(suan)形(xing)態。
第三,MaaS(Model as a Service)層集成了大(da)量開源(yuan)大(da)模型,并基于Inference Engine自(zi)研推理引擎平臺,將英偉達H100、H200或更先進的(de)B200進行(xing)適配,以提升(sheng)模型的(de)token吞(tun)吐速度。同時(shi),我們具備端(duan)到端(duan)的(de)監控能力,幫助企業快速發現、定位(wei)和解決(jue)問題。
第(di)四,應(ying)用層得益(yi)于各(ge)行業(ye)(ye)企業(ye)(ye)的實踐。特(te)別強調(diao)的是(shi),IaaS層和MaaS層均為GMI Cloud自主研(yan)發,MaaS層還支持所有B2B服務企業(ye)(ye)接(jie)入,以MarketPlace的方式為企業(ye)(ye)提供(gong)更好的MaaS服務。
二、AI 應用全球化服務趨勢下,推理服務的及時性、擴展性、穩定性是核心挑戰
自2022年(nian)底(di)OpenAI發(fa)布ChatGPT以(yi)來,AI產業在算力和(he)模(mo)型方面投入巨大,每(mei)隔三到六個月,大模(mo)型能力便提升(sheng)一個臺階(jie)。
如今,多模(mo)態大模(mo)型的(de)(de)(de)生成內容質量(liang)更高,同時,如今的(de)(de)(de)大模(mo)型對物(wu)理(li)世界(jie)的(de)(de)(de)理(li)解及生成質量(liang)的(de)(de)(de)可控性也更強(qiang),而且許多公司都(dou)已經具備(bei)這(zhe)些能力,在(zai)產業層面(mian),這(zhe)為應(ying)用(yong)層的(de)(de)(de)爆(bao)發(fa)提供了很大基礎。可以說,AI的(de)(de)(de)應(ying)用(yong)爆(bao)發(fa)具備(bei)了技(ji)術條(tiao)件。
2024年(nian),全球(qiu)AI應用(yong)產品已(yi)(yi)有1890個,其中(zhong)中(zhong)國相關產品有356個,出(chu)(chu)海(hai)產品有143個。從訪問量(liang)來看,2024年(nian)初為30多億,年(nian)底(di)已(yi)(yi)超(chao)過140億,增(zeng)速超(chao)過300%。AI下載的應用(yong)數量(liang)也(ye)比以前有所增(zeng)加,中(zhong)國AI應用(yong)出(chu)(chu)海(hai)在大(da)規(gui)模高速增(zeng)長。
所以如果大家要做出海,就需(xu)要了(le)解在就近國家是(shi)否(fou)有相應(ying)的(de)應(ying)用算力提(ti)供服務。我們摘取了(le)中國頭部應(ying)用出海的(de)下載量情況(如圖):
中國(guo)(guo)AI應用出(chu)海主(zhu)要(yao)集(ji)中在美(mei)國(guo)(guo)、印度、亞(ya)太、德(de)國(guo)(guo)和(he)歐洲等地區。收入方面,美(mei)國(guo)(guo)付費意愿較強(qiang),亞(ya)太地區則以東北亞(ya)和(he)東南亞(ya)部分地區為主(zhu)。
中(zhong)國(guo)(guo)(guo)頭部出(chu)海AI產品(pin)的下載主要集中(zhong)在(zai)印度、亞太、德(de)國(guo)(guo)(guo)和歐洲地(di)區(qu)。從收入角度來看(kan),美國(guo)(guo)(guo)的付費意愿相對較強。
從(cong)全球化角度(du)分析,中國的AI應(ying)用(yong)(yong)已經得到(dao)了(le)全世界的廣(guang)泛認可,大(da)家的出海在商業化層(ceng)面已經邁出了(le)一大(da)步(bu)。這(zhe)里有(you)幾個例子(zi),首先是Manus,前(qian)段時間非常(chang)火(huo)爆,發(fa)布7天之內達(da)到(dao)了(le)200萬的等待清單,原因是后(hou)端(duan)的算力(li)和(he)Web Service不足以支撐那么(me)多(duo)(duo)用(yong)(yong)戶(hu)的請求(qiu)。Deepseek在春(chun)節前(qian)也(ye)非常(chang)火(huo)爆。它(ta)創造了(le)全球所有(you)應(ying)用(yong)(yong)獲(huo)取用(yong)(yong)戶(hu)從(cong)0~1億的最(zui)快速(su)度(du),7天達(da)到(dao)1億。當(dang)時大(da)家用(yong)(yong)時發(fa)現很(hen)多(duo)(duo)服(fu)務不被響應(ying),這(zhe)也(ye)是因為(wei)后(hou)端(duan)算力(li)不足以支撐這(zhe)么(me)多(duo)(duo)請求(qiu)量。當(dang)大(da)量用(yong)(yong)戶(hu)涌入(ru)時,如果后(hou)端(duan)的推(tui)理云服(fu)務算力(li)能夠及時跟上(shang),整個服(fu)務的穩(wen)定性和(he)響應(ying)及時性將顯著提升,從(cong)而幫(bang)助提高用(yong)(yong)戶(hu)留存率。
從這(zhe)兩個(ge)案例中,我們發現(xian)在AI全(quan)球化服(fu)務浪潮下(xia),推理服(fu)務的及時(shi)性(xing)、可(ke)擴展性(xing)和穩定性(xing)是提高用戶留存的核心(xin)。
總結一下就(jiu)是,當(dang)AI應(ying)用(yong)選擇出海,它將(jiang)會分(fen)布在歐(ou)洲、美洲、東南(nan)亞(ya)、東北亞(ya)以(yi)及拉美等各個地(di)區(qu)(qu),因此大家需(xu)(xu)要找到在不(bu)同地(di)區(qu)(qu)提(ti)供(gong)就(jiu)近的(de)推(tui)理(li)算力服(fu)務商,以(yi)響應(ying)AI應(ying)用(yong)請求。當(dang)用(yong)戶增長爆(bao)發時,推(tui)理(li)相關的(de)算力彈性還需(xu)(xu)要提(ti)高才能滿足客戶需(xu)(xu)求,這意味(wei)著云廠商的(de)推(tui)理(li)服(fu)務需(xu)(xu)要具備自動擴容能力。
在(zai)具(ju)備大規模(mo)用戶在(zai)線時,我(wo)們要考慮如何保障AI應用的穩定性和(he)可靠性。
三、Inference Engine四大核心能力破解AI應用全球化難題
GMI Cloud推(tui)(tui)出(chu)的推(tui)(tui)理(li)(li)服務能(neng)夠(gou)有效應對上(shang)述挑戰(zhan)。在英偉達技術(shu)峰會GTC上(shang),我們發(fa)布了GMI Cloud?Inference Engine。這套Inference Engine部(bu)署在我們自己(ji)研發(fa)的Cluster Engine上(shang),Cluster Engine專注于做(zuo)云管平臺,目前整(zheng)個中(zhong)間態部(bu)分,這是一套自己(ji)研發(fa)GM I云推(tui)(tui)理(li)(li)引(yin)擎(qing)的全(quan)(quan)球調度策略(lve),能(neng)夠(gou)幫助(zhu)企業(ye)客戶在全(quan)(quan)球范圍內(nei)就近調度所(suo)需要的GPU云服務。
為(wei)了應對AI應用的推(tui)理需求(qiu),Inference Engine主要(yao)包括四個特(te)性(xing):
01?彈性伸縮,跨集群自動擴容
AI應用(yong)的全球用(yong)戶分布廣泛,資源靠近用(yong)戶可顯著降(jiang)低(di)延遲(chi),而(er)在推理過程(cheng)中,資源越(yue)遠,用(yong)戶推理請求的延時(shi)(shi)就越(yue)高(gao)。當用(yong)戶量快速增長時(shi)(shi),系(xi)統需快速彈性擴容(rong),提供大量GPU云服務。在CPU云時(shi)(shi)代,大家都知道ECS的CPU云服務速度非(fei)常快,每(mei)分鐘(zhong)可以談論幾十萬(wan)核,而(er)在GPU時(shi)(shi)代,對資源的可控性和調度準確性要(yao)求非(fei)常高(gao)。
根據不同客戶的需求(qiu),我們的服(fu)務(wu)節(jie)點主(zhu)要(yao)分布在歐(ou)洲、美洲和(he)亞洲(尤其(qi)是東(dong)北亞和(he)東(dong)南(nan)亞地區),Inference Engine能夠動態(tai)感知用戶網絡壓力(li)負(fu)載(zai),根據負(fu)載(zai)變化調整負(fu)載(zai)均(jun)衡;基于不同IP請求(qiu)調度(du)到不同地區,并且利用不同地區的資(zi)源提供inference服(fu)務(wu)。同時,我們的調度(du)服(fu)務(wu)也支(zhi)持與(yu)企業(ye)內部(bu)自(zi)建的GPU集群之(zhi)間進行打(da)通,實(shi)現(xian)統一調度(du)。
02?可視化部署工作流,快速高效部署
對于AI應(ying)來(lai)說,部署(shu)分布式推理集群(qun)雖然不難,但整個流(liu)程較為復雜。首先需準備對應(ying)資(zi)源(yuan),然后下載模(mo)型(xing)服務,進行資(zi)源(yuan)配置,最后進行軟(ruan)硬件(jian)調優。這整個流(liu)程耗費企業的(de)Inference團隊人力資(zi)源(yuan)。
針對熱門開源模型(如DeepSeek、通義千問(wen)和(he)Llama等),GMI?Cloud已(yi)完成(cheng)高端GPU云(yun)資源的(de)(de)適配,企業(ye)可(ke)直接在(zai)Marketplace上部(bu)署;針對自研(yan)模型,Inference?Engine提供可(ke)視(shi)化工(gong)作臺,支持從部(bu)署鏡(jing)像構建到推理(li)服務上線的(de)(de)全流(liu)程可(ke)視(shi)化操作、零代碼操作。
03?集成最先進的高性能GPU,提供高效推理性能
Inference Engine已集成(cheng)(cheng)(cheng)英(ying)偉達(da)最先(xian)進的(de)(de)(de)(de)高性能GPU服務。根據英(ying)偉達(da)提供的(de)(de)(de)(de)DeepSeek-FP4版(ban)本報(bao)告,優化后的(de)(de)(de)(de)H200的(de)(de)(de)(de)token吞(tun)吐(tu)量是H100的(de)(de)(de)(de)6倍(bei),B200的(de)(de)(de)(de)token吞(tun)吐(tu)量更是達(da)到H100的(de)(de)(de)(de)25倍(bei)。從效(xiao)率和經(jing)濟成(cheng)(cheng)(cheng)本來看,使(shi)用更先(xian)進、更高性能的(de)(de)(de)(de)GPU,實際(ji)上綜合成(cheng)(cheng)(cheng)本會下(xia)降。黃教主說,”The More You Buy,The More You Save“。
04 主動監控:自動容錯+故障診斷+極速恢復
大家(jia)都知道提(ti)供目前的云服(fu)務不可能(neng)是(shi)SLA?Service 100%,但GMI Cloud盡(jin)可能(neng)提(ti)供主動監控功能(neng),幫助所(suo)有企業用(yong)戶及時(shi)發(fa)現問題。
GMI?Cloud擁(yong)有(you)一個可(ke)視(shi)化的(de)云推理監控服務平臺,可(ke)以(yi)看到(dao)整個IP請求從(cong)進來到(dao)落到(dao)每臺服務器上,以(yi)及整個網絡鏈路上出現擁(yong)塞。我們可(ke)以(yi)精準定位問題、找到(dao)問題原因并以(yi)最短的(de)停機時間快速修復。所有(you)流(liu)程都可(ke)以(yi)在Inference?Engine控制(zhi)臺上實(shi)現可(ke)視(shi)化。同時GMI?Cloud可(ke)以(yi)將API暴露(lu)給所有(you)企(qi)業(ye),幫助企(qi)業(ye)提升自己的(de)監控管理平臺。
結語:一朵云+兩個引擎,高效穩定的云服務架構
GMI Cloud致(zhi)力于提供全棧AI基礎設施,包括一朵云和兩個(ge)引擎(qing)(Cluster Engine和Inference Engine),Cluster Engine為企業客(ke)戶(hu)提供高穩定性的模(mo)型訓練(lian)服務,Inference Engine則為企業客(ke)戶(hu)提供走向全球化(hua)應(ying)用的AI推理(li)服務。
感謝大家的關注,希望大家的AI應用出(chu)海越(yue)來越(yue)順利!