GMI Cloud King Cui：AI应用落地全球化加速，AI推理从单点爆发到全球扩容丨GenAICon 2025

4月(yue)1日-2日，以“大拐點新征(zheng)程”為主(zhu)題的(de)2025中國生成式(shi)AI大會（北(bei)京(jing)站）隆(long)重舉行。

在這場匯聚了50余(yu)位產學研嘉賓、1500名觀(guan)眾的(de)盛會上，GMI Cloud?亞太區總裁?King Cui發表了主題(ti)為《AI推(tui)理的(de)全球算力革(ge)命：從單點(dian)爆發到全球擴容(rong)》的(de)演講。

其(qi)提到，GMI Cloud的核心價值在(zai)于：通(tong)過頂級生態協作獲取高端硬件資源，依托(tuo)自(zi)研Cluster Engine云平臺和Inference Engine推(tui)理引擎云平臺實現算力(li)的全球化智能調度、擴容與(yu)極(ji)致性(xing)能釋放(fang)。

在目前這個AI推理(li)的時代，重(zhong)構AI算力(li)的成本(ben)效益模型，為AI應用(yong)的研發提供(gong)“隨需而變”的全球化算力(li)底座，助力(li)企業在用(yong)戶激增(zeng)、競爭激烈(lie)的全球市(shi)場中，以算力(li)優(you)勢(shi)構筑商業壁壘，推動“全球AGI”從技術可能邁向(xiang)商業必然。

隨著(zhu)DeepSeek等國(guo)產大模型改寫全球(qiu)商業(ye)競爭格局，AI應用出海(hai)浪潮席卷全球(qiu)。King?在演講中(zhong)(zhong)分享了一個數據(ju)：“中(zhong)(zhong)國(guo)AI應用下載量年增(zeng)速超100%，但(dan)算力(li)穩定性與成本效率仍是核心(xin)瓶頸。”在全球(qiu)AI應用爆發(fa)式增(zeng)長的產業(ye)變革(ge)期，算力(li)已成為驅動技術落地與商業(ye)擴(kuo)張的核心(xin)生產要素。

作為(wei)NVIDIA全球TOP10?NCP，GMI?Cloud?目前(qian)已在北美(mei)、歐洲、亞(ya)太部(bu)署12座數據中心，幫(bang)助企(qi)業(ye)(ye)實現全球算力調(diao)(diao)度與(yu)擴容。GMI Cloud深(shen)耕AI全球化(hua)(hua)的算力基(ji)礎(chu)設施領域，以(yi)“技(ji)術縱(zong)深(shen)+全球布局”雙輪(lun)驅動，構(gou)建起(qi)覆蓋硬件(jian)適配、彈性調(diao)(diao)度、性能優化(hua)(hua)與(yu)穩定保障的全棧解決方案，破解企(qi)業(ye)(ye)出(chu)海面臨的算力部(bu)署難題。

以下為King Cui的演講實錄精華：

大家下午好(hao)！我是來(lai)自GMI Cloud的(de)King Cui，今天為大家分享的(de)主(zhu)題是《AI推理的(de)全(quan)球(qiu)算力(li)革(ge)命：從(cong)(cong)單點(dian)爆發(fa)到全(quan)球(qiu)擴容》。從(cong)(cong)GMI?Cloud的(de)角(jiao)度出發(fa)，我們探討如何(he)幫助企(qi)業實現全(quan)球(qiu)化的(de)推理云服務。

一、GMI?Cloud：從GPU硬件架構到頂層應用，建立全棧AI基礎設施平臺

在今天正式(shi)演講之前，我首先快速(su)地(di)和大家(jia)再介紹一下GMI?Cloud，我們是一家(jia)AI Native Cloud公司，致力(li)于為全球化AI應用提供(gong)英偉達最新的(de)(de)GPU云(yun)服務(wu)。作為NVIDIA全球TOP 10的(de)(de)NVIDIA Cloud Partner（NCP），GMI Cloud與(yu)NVIDIA保(bao)持密切(qie)合作，定期進行技術交流(liu)，以幫(bang)助我們將AI應用做的(de)(de)更完善。同時，得益于投資者的(de)(de)支持，GMI?Cloud在亞(ya)太地(di)區擁有最新的(de)(de)GPU分配權，能夠快速(su)獲(huo)取最新、最強的(de)(de)GPU云(yun)服務(wu)。

我們推(tui)(tui)出了“Cluster Engine自研云平(ping)臺”，專(zhuan)注(zhu)于為從(cong)事大語言模型、文(wen)生圖、文(wen)生視頻模型的(de)公司提供訓練云平(ping)臺的(de)支持(chi)。同時，因為GMI Cloud相信(xin)，未(wei)來的(de)AI應用將(jiang)快速(su)遍布(bu)全球，未(wei)來將(jiang)是一個全新的(de)“推(tui)(tui)理(li)世(shi)界(jie)”，Token changes?the world，因此(ci)GMI Cloud面向(xiang)全球打造了AI推(tui)(tui)理(li)引擎平(ping)臺“Inference?Engine”。

GMI Cloud King Cui：AI應用落地全球化加速，AI推理從單點爆發到全球擴容丨GenAICon 2025

(上圖）從(cong)技術架構來(lai)看，GMI Cloud提供從(cong)底層GPU硬件到支持應用(yong)層的(de)全棧服務：

第一，底層(ceng)提供(gong)(gong)NVIDIA生態體(ti)系內最(zui)新、最(zui)強的GPU云資(zi)源，同(tong)時也提供(gong)(gong)適(shi)合AI存(cun)(cun)儲(chu)的云服(fu)務，支持NVMe高(gao)速(su)存(cun)(cun)儲(chu)和普通存(cun)(cun)儲(chu)，適(shi)配不同(tong)場(chang)景的存(cun)(cun)儲(chu)介質(zhi)，提供(gong)(gong)不同(tong)的云服(fu)務。在網絡(luo)層(ceng)面(mian)，我們提供(gong)(gong)高(gao)速(su)帶寬的數據(ju)通道，確保AI應用(yong)的高(gao)效(xiao)運行。再往(wang)上就是MaaS( Model as a Service)模型的推理(li)，同(tong)時我們集成了大量已(yi)經(jing)開源的大模型，并且基于(yu)自己的技(ji)術自研了Inference Engine推理(li)引(yin)擎平臺。

第二(er)，GMI Cloud研發了一套計算(suan)存(cun)儲網(wang)絡，具備laaS能力。在(zai)計算(suan)資源方面，提供裸金屬服(fu)務器(qi)、云主機、K8s云服(fu)務等多種計算(suan)形(xing)態。

第三，MaaS（Model as a Service）層集成了大(da)量開源(yuan)大(da)模型，并基于Inference Engine自(zi)研推理引擎平臺，將英偉達H100、H200或更先進的(de)B200進行(xing)適配，以提升(sheng)模型的(de)token吞(tun)吐速度。同時(shi)，我們具備端(duan)到端(duan)的(de)監控能力，幫助企業快速發現、定位(wei)和解決(jue)問題。

第(di)四，應(ying)用層得益(yi)于各(ge)行業(ye)(ye)企業(ye)(ye)的實踐。特(te)別強調(diao)的是(shi)，IaaS層和MaaS層均為GMI Cloud自主研(yan)發，MaaS層還支持所有B2B服務企業(ye)(ye)接(jie)入，以MarketPlace的方式為企業(ye)(ye)提供(gong)更好的MaaS服務。

二、AI 應用全球化服務趨勢下，推理服務的及時性、擴展性、穩定性是核心挑戰

自2022年(nian)底(di)OpenAI發(fa)布ChatGPT以(yi)來，AI產業在算力和(he)模(mo)型方面投入巨大，每(mei)隔三到六個月，大模(mo)型能力便提升(sheng)一個臺階(jie)。

如今，多模(mo)態大模(mo)型的(de)(de)(de)生成內容質量(liang)更高，同時，如今的(de)(de)(de)大模(mo)型對物(wu)理(li)世界(jie)的(de)(de)(de)理(li)解及生成質量(liang)的(de)(de)(de)可控性也更強(qiang)，而且許多公司都(dou)已經具備(bei)這(zhe)些能力，在(zai)產業層面(mian)，這(zhe)為應(ying)用(yong)層的(de)(de)(de)爆(bao)發(fa)提供了很大基礎。可以說，AI的(de)(de)(de)應(ying)用(yong)爆(bao)發(fa)具備(bei)了技(ji)術條(tiao)件。

2024年(nian)，全球(qiu)AI應用(yong)產品已(yi)(yi)有1890個，其中(zhong)中(zhong)國相關產品有356個，出(chu)(chu)海(hai)產品有143個。從訪問量(liang)來看，2024年(nian)初為30多億，年(nian)底(di)已(yi)(yi)超(chao)過140億，增(zeng)速超(chao)過300%。AI下載的應用(yong)數量(liang)也(ye)比以前有所增(zeng)加，中(zhong)國AI應用(yong)出(chu)(chu)海(hai)在大(da)規(gui)模高速增(zeng)長。

所以如果大家要做出海，就需(xu)要了(le)解在就近國家是(shi)否(fou)有相應(ying)的(de)應(ying)用算力提(ti)供服務。我們摘取了(le)中國頭部應(ying)用出海的(de)下載量情況（如圖）：

GMI Cloud King Cui：AI應用落地全球化加速，AI推理從單點爆發到全球擴容丨GenAICon 2025

中國(guo)(guo)AI應用出(chu)海主(zhu)要(yao)集(ji)中在美(mei)國(guo)(guo)、印度、亞(ya)太、德(de)國(guo)(guo)和(he)歐洲等地區。收入方面，美(mei)國(guo)(guo)付費意愿較強(qiang)，亞(ya)太地區則以東北亞(ya)和(he)東南亞(ya)部分地區為主(zhu)。

中(zhong)國(guo)(guo)(guo)頭部出(chu)海AI產品(pin)的下載主要集中(zhong)在(zai)印度、亞太、德(de)國(guo)(guo)(guo)和歐洲地(di)區(qu)。從收入角度來看(kan)，美國(guo)(guo)(guo)的付費意愿相對較強。

從(cong)全球化角度(du)分析，中國的AI應(ying)用(yong)(yong)已經得到(dao)了(le)全世界的廣(guang)泛認可，大(da)家的出海在商業化層(ceng)面已經邁出了(le)一大(da)步(bu)。這(zhe)里有(you)幾個例子(zi)，首先是Manus，前(qian)段時間非常(chang)火(huo)爆，發(fa)布7天之內達(da)到(dao)了(le)200萬的等待清單，原因是后(hou)端(duan)的算力(li)和(he)Web Service不足以支撐那么(me)多(duo)(duo)用(yong)(yong)戶(hu)的請求(qiu)。Deepseek在春(chun)節前(qian)也(ye)非常(chang)火(huo)爆。它(ta)創造了(le)全球所有(you)應(ying)用(yong)(yong)獲(huo)取用(yong)(yong)戶(hu)從(cong)0~1億的最(zui)快速(su)度(du)，7天達(da)到(dao)1億。當(dang)時大(da)家用(yong)(yong)時發(fa)現很(hen)多(duo)(duo)服(fu)務不被響應(ying)，這(zhe)也(ye)是因為(wei)后(hou)端(duan)算力(li)不足以支撐這(zhe)么(me)多(duo)(duo)請求(qiu)量。當(dang)大(da)量用(yong)(yong)戶(hu)涌入(ru)時，如果后(hou)端(duan)的推(tui)理云服(fu)務算力(li)能夠及時跟上(shang)，整個服(fu)務的穩(wen)定性和(he)響應(ying)及時性將顯著提升，從(cong)而幫(bang)助提高用(yong)(yong)戶(hu)留存率。

從這(zhe)兩個(ge)案例中，我們發現(xian)在AI全(quan)球化服(fu)務浪潮下(xia)，推理服(fu)務的及時(shi)性(xing)、可(ke)擴展性(xing)和穩定性(xing)是提高用戶留存的核心(xin)。

總結一下就(jiu)是，當(dang)AI應(ying)用(yong)選擇出海，它將(jiang)會分(fen)布在歐(ou)洲、美洲、東南(nan)亞(ya)、東北亞(ya)以(yi)及拉美等各個地(di)區(qu)(qu)，因此大家需(xu)(xu)要找到在不(bu)同地(di)區(qu)(qu)提(ti)供(gong)就(jiu)近的(de)推(tui)理(li)算力服(fu)務商，以(yi)響應(ying)AI應(ying)用(yong)請求。當(dang)用(yong)戶增長爆(bao)發時，推(tui)理(li)相關的(de)算力彈性還需(xu)(xu)要提(ti)高才能滿足客戶需(xu)(xu)求，這意味(wei)著云廠商的(de)推(tui)理(li)服(fu)務需(xu)(xu)要具備自動擴容能力。

在(zai)具(ju)備大規模(mo)用戶在(zai)線時，我(wo)們要考慮如何保障AI應用的穩定性和(he)可靠性。

GMI Cloud King Cui：AI應用落地全球化加速，AI推理從單點爆發到全球擴容丨GenAICon 2025

三、Inference Engine四大核心能力破解AI應用全球化難題

GMI Cloud推(tui)(tui)出(chu)的推(tui)(tui)理(li)(li)服務能(neng)夠(gou)有效應對上(shang)述挑戰(zhan)。在英偉達技術(shu)峰會GTC上(shang)，我們發(fa)布了GMI Cloud?Inference Engine。這套Inference Engine部(bu)署在我們自己(ji)研發(fa)的Cluster Engine上(shang)，Cluster Engine專注于做(zuo)云管平臺，目前整(zheng)個中(zhong)間態部(bu)分，這是一套自己(ji)研發(fa)GM I云推(tui)(tui)理(li)(li)引(yin)擎(qing)的全(quan)(quan)球調度策略(lve)，能(neng)夠(gou)幫助(zhu)企業(ye)客戶在全(quan)(quan)球范圍內(nei)就近調度所(suo)需要的GPU云服務。

GMI Cloud King Cui：AI應用落地全球化加速，AI推理從單點爆發到全球擴容丨GenAICon 2025

為(wei)了應對AI應用的推(tui)理需求(qiu)，Inference Engine主要(yao)包括四個特(te)性(xing)：

01?彈性伸縮，跨集群自動擴容

AI應用(yong)的全球用(yong)戶分布廣泛，資源靠近用(yong)戶可顯著降(jiang)低(di)延遲(chi)，而(er)在推理過程(cheng)中，資源越(yue)遠，用(yong)戶推理請求的延時(shi)(shi)就越(yue)高(gao)。當用(yong)戶量快速增長時(shi)(shi)，系(xi)統需快速彈性擴容(rong)，提供大量GPU云服務。在CPU云時(shi)(shi)代，大家都知道ECS的CPU云服務速度非(fei)常快，每(mei)分鐘(zhong)可以談論幾十萬(wan)核，而(er)在GPU時(shi)(shi)代，對資源的可控性和調度準確性要(yao)求非(fei)常高(gao)。

根據不同客戶的需求(qiu)，我們的服(fu)務(wu)節(jie)點主(zhu)要(yao)分布在歐(ou)洲、美洲和(he)亞洲（尤其(qi)是東(dong)北亞和(he)東(dong)南(nan)亞地區），Inference Engine能夠動態(tai)感知用戶網絡壓力(li)負(fu)載(zai)，根據負(fu)載(zai)變化調整負(fu)載(zai)均(jun)衡；基于不同IP請求(qiu)調度(du)到不同地區，并且利用不同地區的資(zi)源提供inference服(fu)務(wu)。同時，我們的調度(du)服(fu)務(wu)也支(zhi)持與(yu)企業(ye)內部(bu)自(zi)建的GPU集群之(zhi)間進行打(da)通，實(shi)現(xian)統一調度(du)。

GMI Cloud King Cui：AI應用落地全球化加速，AI推理從單點爆發到全球擴容丨GenAICon 2025

02?可視化部署工作流，快速高效部署

對于AI應(ying)來(lai)說，部署(shu)分布式推理集群(qun)雖然不難，但整個流(liu)程較為復雜。首先需準備對應(ying)資(zi)源(yuan)，然后下載模(mo)型(xing)服務，進行資(zi)源(yuan)配置，最后進行軟(ruan)硬件(jian)調優。這整個流(liu)程耗費企業的(de)Inference團隊人力資(zi)源(yuan)。

針對熱門開源模型（如DeepSeek、通義千問(wen)和(he)Llama等），GMI?Cloud已(yi)完成(cheng)高端GPU云(yun)資源的(de)(de)適配，企業(ye)可(ke)直接在(zai)Marketplace上部(bu)署；針對自研(yan)模型，Inference?Engine提供可(ke)視(shi)化工(gong)作臺，支持從部(bu)署鏡(jing)像構建到推理(li)服務上線的(de)(de)全流(liu)程可(ke)視(shi)化操作、零代碼操作。

GMI Cloud King Cui：AI應用落地全球化加速，AI推理從單點爆發到全球擴容丨GenAICon 2025

03?集成最先進的高性能GPU，提供高效推理性能

Inference Engine已集成(cheng)(cheng)(cheng)英(ying)偉達(da)最先(xian)進的(de)(de)(de)(de)高性能GPU服務。根據英(ying)偉達(da)提供的(de)(de)(de)(de)DeepSeek-FP4版(ban)本報(bao)告，優化后的(de)(de)(de)(de)H200的(de)(de)(de)(de)token吞(tun)吐(tu)量是H100的(de)(de)(de)(de)6倍(bei)，B200的(de)(de)(de)(de)token吞(tun)吐(tu)量更是達(da)到H100的(de)(de)(de)(de)25倍(bei)。從效(xiao)率和經(jing)濟成(cheng)(cheng)(cheng)本來看，使(shi)用更先(xian)進、更高性能的(de)(de)(de)(de)GPU，實際(ji)上綜合成(cheng)(cheng)(cheng)本會下(xia)降。黃教主說，”The More You Buy，The More You Save“。

04 主動監控：自動容錯+故障診斷+極速恢復

大家(jia)都知道提(ti)供目前的云服(fu)務不可能(neng)是(shi)SLA?Service 100%，但GMI Cloud盡(jin)可能(neng)提(ti)供主動監控功能(neng)，幫助所(suo)有企業用(yong)戶及時(shi)發(fa)現問題。

GMI?Cloud擁(yong)有(you)一個可(ke)視(shi)化的(de)云推理監控服務平臺，可(ke)以(yi)看到(dao)整個IP請求從(cong)進來到(dao)落到(dao)每臺服務器上，以(yi)及整個網絡鏈路上出現擁(yong)塞。我們可(ke)以(yi)精準定位問題、找到(dao)問題原因并以(yi)最短的(de)停機時間快速修復。所有(you)流(liu)程都可(ke)以(yi)在Inference?Engine控制(zhi)臺上實(shi)現可(ke)視(shi)化。同時GMI?Cloud可(ke)以(yi)將API暴露(lu)給所有(you)企(qi)業(ye)，幫助企(qi)業(ye)提升自己的(de)監控管理平臺。

GMI Cloud King Cui：AI應用落地全球化加速，AI推理從單點爆發到全球擴容丨GenAICon 2025

結語：一朵云+兩個引擎，高效穩定的云服務架構

GMI Cloud致(zhi)力于提供全棧AI基礎設施，包括一朵云和兩個(ge)引擎(qing)（Cluster Engine和Inference Engine），Cluster Engine為企業客(ke)戶(hu)提供高穩定性的模(mo)型訓練(lian)服務，Inference Engine則為企業客(ke)戶(hu)提供走向全球化(hua)應(ying)用的AI推理(li)服務。

GMI Cloud King Cui：AI應用落地全球化加速，AI推理從單點爆發到全球擴容丨GenAICon 2025

感謝大家的關注，希望大家的AI應用出(chu)海越(yue)來越(yue)順利！

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、GMI?Cloud：從GPU硬件架構到頂層應用，建立全棧AI基礎設施平臺

二、AI 應用全球化服務趨勢下，推理服務的及時性、擴展性、穩定性是核心挑戰

三、Inference Engine四大核心能力破解AI應用全球化難題

結語：一朵云+兩個引擎，高效穩定的云服務架構

相關推薦