
智東西(公眾號:zhidxcom)
編輯 | GACS
9月14日-15日,2023全球AI芯片峰會(GACS 2023)在深圳市南山區圓滿舉行。在第二天舉行的智算中心算力與網絡高峰論壇上,來自商湯科技、中國移動研究院、浪潮信息、科華數據、首都在線、趨動科技、中科馭數等7家企業(ye)或(huo)機構的技(ji)術(shu)決策者及高管(guan)分(fen)(fen)別發表主(zhu)題演講,分(fen)(fen)享有(you)關智算中心(xin)的探(tan)索(suo)與實踐。
算(suan)(suan)力(li)(li)是(shi)集信息計(ji)算(suan)(suan)力(li)(li)、網絡(luo)運載力(li)(li)、數據存儲(chu)力(li)(li)于一體的新型(xing)生(sheng)產力(li)(li),主要通(tong)過(guo)算(suan)(suan)力(li)(li)中心等算(suan)(suan)力(li)(li)基礎(chu)(chu)設施向(xiang)社會提(ti)(ti)供服務。10月8日,工業(ye)和(he)信息化部(bu)、中央網信辦、教育部(bu)、國家衛生(sheng)健康委、中國人民銀行、國務院國資委等6部(bu)門聯合印(yin)發(fa)《算(suan)(suan)力(li)(li)基礎(chu)(chu)設施高質量(liang)發(fa)展(zhan)行動計(ji)劃》,提(ti)(ti)出到2025年算(suan)(suan)力(li)(li)規(gui)模超過(guo)300EFLOPS,智能算(suan)(suan)力(li)(li)占(zhan)比達到35%,足見(jian)對智能計(ji)算(suan)(suan)中心發(fa)展(zhan)的高度重視。
當前,新一輪科技革(ge)命和產(chan)業變(bian)革(ge)正在向縱深演進(jin),算(suan)力基礎設(she)施的(de)重要(yao)性(xing)不斷(duan)提(ti)升。聚焦生成(cheng)式(shi)AI與大模(mo)(mo)型浪(lang)潮(chao)帶(dai)來的(de)算(suan)力機遇、挑戰與創新,7位行(xing)業嘉賓(bin)分(fen)別從智算(suan)中心(xin)技術瓶頸與優(you)化(hua)方(fang)(fang)向、大模(mo)(mo)型工程實踐(jian)經(jing)驗(yan)、模(mo)(mo)塊化(hua)液冷(leng)解決(jue)方(fang)(fang)案、包含DPU的(de)異(yi)構計算(suan)、GPU資源池化(hua)等方(fang)(fang)面,對智算(suan)中心(xin)如何進(jin)一步突破算(suan)力天花(hua)板、達成(cheng)“雙碳”目標進(jin)行(xing)分(fen)享和解讀。
以(yi)下是(shi)此次論壇的核心干貨:
一、商湯科技楊帆:AI基礎設施是核心戰略,三要素規模化可降低邊際成本
商湯科技(ji)聯合(he)創(chuang)始人、大裝置事業(ye)(ye)群總裁楊帆指出AI行業(ye)(ye)的場(chang)景碎片化問(wen)題,強調行業(ye)(ye)場(chang)景極(ji)度細分(fen),導致邊際(ji)成(cheng)本(ben)高,使得AI公司難以盈(ying)利。而解決(jue)之道是通(tong)過AI基礎設施(shi),達到算力(li)、數據、算法等核心要素(su)協同的最(zui)佳(jia)實踐,提供給行業(ye)(ye)低成(cheng)本(ben)、高效益的AI基礎能力(li)。
商湯認為,未來5年(nian),AI基礎設(she)施可能會是(shi)行(xing)業的真(zhen)正發展路徑,是解決AI目前創造巨(ju)大價(jia)值(zhi)但行業自身不盈利的困局,最有可能的方向之一(yi),因此商(shang)湯科技也將其作為核心戰略之一(yi)。
▲商湯科(ke)技聯(lian)合創(chuang)始人(ren)、大裝置事(shi)業群(qun)總裁(cai)楊帆(fan)
隨(sui)著AI技(ji)術的進步,智算逐漸(jian)成為一(yi)個獨立的概念。
算力方面,商湯的臨港智算中心AIDC截至今年8月底,線上(shang)算力超過6000P,可以(yi)(yi)在單一的網(wang)絡(luo)訓練中聚集(ji)4000以(yi)(yi)上(shang)的GPU卡,可支持20個千億級別超大(da)模(mo)型同時訓練。
數據方面,商(shang)湯認(ren)為數(shu)據要素是產業智能化發展中(zhong)最(zui)寶貴的(de)(de)(de)資(zi)源(yuan)。商(shang)湯大模型(xing)(xing)數(shu)據專家團(tuan)隊通(tong)過對世(shi)界上(shang)最(zui)大的(de)(de)(de)公開爬取數(shu)據集之(zhi)(zhi)一Common Crawl中(zhong),3PB+的(de)(de)(de)原始數(shu)據進行(xing)清洗、去重、有(you)害信息消除(chu)、質量過濾(lv)等處理動作,生成約30TB的(de)(de)(de)有(you)效(xiao)數(shu)據用于大模型(xing)(xing)訓練(lian),可極大降低AI技術研發之(zhi)(zhi)中(zhong)的(de)(de)(de)成本。
算法方面,改進的方向主要(yao)集中于優(you)化性能和優(you)化推(tui)理過程,用更低(di)成(cheng)本的推(tui)理去達到同(tong)樣的效果。
把算力、數據、算法這三要素中基礎的核心沉淀出來,更加規模化地向外提供,降低邊際成本,擴大邊際效益,這是商湯科技認為AI產業發展的方向。
二、中國移動陳佳媛:定義NICC新型智算中心技術體系,從五個方面進行系統性重構
中國(guo)移動(dong)研(yan)究(jiu)院網絡與IT技(ji)術研(yan)究(jiu)所技(ji)術經理、主任(ren)研(yan)究(jiu)員陳佳媛分(fen)享了中國(guo)移動(dong)的NICC(New Intelligent Computing Center)新(xin)型(xing)智算中心(xin)技(ji)術體系(xi)。
根據信通院發布的中國綜合算力指數預測,到2025年,智能算力在全國的占比將從今年的25.4%上升到85%。中國移動研究院將智算中心的發展分為兩個階段,一是2025年之(zhi)前(qian)的集群(qun)時期(qi),主要面向百億或者是千億規模的大模型發展;其次是2025年之后的超級池化時期,將面向萬億級(ji)的大(da)模型(xing)進行革(ge)新。
基于這個預判,中國移動定義了新型智算中心的技術體系,并從互聯、算效、存儲、平臺、節能等五(wu)個(ge)方面進行(xing)系統性重構,牽引行(xing)業在多個(ge)技術領域形成共識,加快相關技術成熟。
▲中國移動研究院網(wang)絡(luo)與IT技術研究所技術經理主任研究員陳佳媛
陳佳媛認為,在新互聯方面,為(wei)支撐更大規(gui)模(mo)的(de)(de)模(mo)型訓練,構建更大規(gui)模(mo)的(de)(de)卡間高(gao)(gao)速通信能力(li),產業應(ying)共同打造(zao)統(tong)一的(de)(de)計(ji)算總線協(xie)議,聯(lian)合AI芯(xin)片、交換芯(xin)片、服務器等上下(xia)游(you)企業共同推動國內高(gao)(gao)速互聯(lian)技(ji)術(shu)生態成熟;對于更大規(gui)模(mo)的(de)(de)網(wang)絡互聯(lian),中(zhong)國移動已經創新(xin)(xin)性提出全調度以(yi)太(tai)網(wang)技(ji)術(shu)(GSE),革新(xin)(xin)以(yi)太(tai)網(wang)底層轉發(fa)機(ji)制(zhi),實現三大核心(xin)機(ji)制(zhi)轉變,打造(zao)無(wu)阻(zu)塞、高(gao)(gao)帶寬、低(di)時延(yan)、自動化的(de)(de)新(xin)(xin)型智算中(zhong)心(xin)網(wang)絡,希(xi)望更多伙伴(ban)加入,加速落地應(ying)用的(de)(de)過程。
在新存儲方面,為突破GPU顯(xian)存容量的限制,簡化AI模型開發,行業應共同(tong)加速內(nei)存池(chi)技術的成熟,使得CPU、GPU/AI加速卡等(deng)異構設(she)備共享統一內(nei)存,為大模型海量數據(ju)的高效處理奠定(ding)基(ji)礎。
在新算效方面,陳佳(jia)媛談到(dao),產業在聚焦GPU能力升(sheng)級、探索(suo)存(cun)算一體等新型芯片的同(tong)時(shi),更要關(guan)注CPU,GPU、DPU三大芯片協同(tong),加快驗證DPU在智算中心(xin)的場景(jing)應(ying)用,整體提(ti)升(sheng)智算中心(xin)海量數據的處理能力。
在新平臺方面,中國移(yi)(yi)動(dong)原創提出算(suan)力原生技術,打造“芯合(he)”算(suan)力原生跨架(jia)(jia)構(gou)(gou)平臺,目標是打破“框(kuang)架(jia)(jia)+工(gong)具(ju)鏈+硬(ying)件(jian)”緊耦合(he)的(de)智算(suan)生態,屏蔽底層硬(ying)件(jian)差異,實現(xian)智算(suan)應(ying)用(yong)的(de)跨架(jia)(jia)構(gou)(gou)遷(qian)移(yi)(yi)部署,目前(qian)中國移(yi)(yi)動(dong)已經實現(xian)至少三家芯片的(de)跨架(jia)(jia)構(gou)(gou)遷(qian)移(yi)(yi),希望(wang)未來能有更(geng)多AI芯片加入,構(gou)(gou)建算(suan)力原生的(de)產(chan)業生態。
在新節能方面,針對智算中心不斷攀升(sheng)的(de)能(neng)耗需求(qiu),產業標準(zhun)(zhun)化(hua)程度較低的(de)問題,中國移動堅(jian)定(ding)推進液(ye)冷技(ji)術(shu)成熟,通過制(zhi)定(ding)五(wu)大統(tong)一標準(zhun)(zhun),在智算中心建設項目中大規模(mo)引入(ru),實現極(ji)致能(neng)效、極(ji)高密度、極(ji)簡運維的(de)三(san)“極(ji)”目標。
大模型時代(dai),新型智(zhi)算中心(xin)的(de)相關技(ji)(ji)術(shu)受到國內外(wai)高度關注(zhu),但是目前產(chan)業(ye)存在多(duo)種解決方(fang)案,技(ji)(ji)術(shu)路線也尚未統一,希望產(chan)業(ye)凝聚力量,形(xing)成共識,共同(tong)推動智(zhi)算關鍵技(ji)(ji)術(shu)成熟,共同(tong)繁榮國內AI生態發展。
三、浪潮信息Stephen Zhang:應對AIGC時代算力挑戰,開放系統、多元算力是關鍵
AI算(suan)(suan)(suan)力(li)(li)是驅動大(da)模型(xing)發展(zhan)的核心(xin)引擎,但當前算(suan)(suan)(suan)力(li)(li)荒、算(suan)(suan)(suan)力(li)(li)貴的供(gong)給(gei)情況,恰(qia)恰(qia)成為了(le)制約(yue)大(da)模型(xing)發展(zhan)的關鍵因素。浪潮(chao)信(xin)息開放(fang)加速計算(suan)(suan)(suan)產品(pin)總監Stephen Zhang從(cong)開放(fang)AI算(suan)(suan)(suan)力(li)(li)平臺(tai)創(chuang)(chuang)新、促進多元(yuan)算(suan)(suan)(suan)力(li)(li)融合發展(zhan)、助推多元(yuan)算(suan)(suan)(suan)力(li)(li)產業化(hua)應用等方面(mian)解讀(du)了(le)生成式AI時代下算(suan)(suan)(suan)力(li)(li)的挑戰與創(chuang)(chuang)新。
當前,多樣化的(de)(de)技術路(lu)線(xian)帶來了AI算力多元(yuan)化的(de)(de)需(xu)求,但由于缺乏統(tong)一的(de)(de)業界(jie)規(gui)范,不(bu)同廠商的(de)(de)AI加速芯(xin)片存在顯著差異,需(xu)要(yao)(yao)定制化的(de)(de)系統(tong)硬(ying)件平臺承(cheng)載,帶來了更(geng)(geng)高(gao)(gao)的(de)(de)開(kai)發(fa)成本和(he)更(geng)(geng)長的(de)(de)開(kai)發(fa)周期。同時,大(da)模型訓練需(xu)要(yao)(yao)更(geng)(geng)高(gao)(gao)性能、高(gao)(gao)互聯、強擴展的(de)(de)大(da)規(gui)模AI算力集群支(zhi)撐。因此,在芯(xin)片技術創新突破(po)的(de)(de)同時,產業界(jie)也需(xu)要(yao)(yao)從更(geng)(geng)高(gao)(gao)的(de)(de)系統(tong)層面共同應對大(da)模型時代(dai)的(de)(de)算力挑戰。
▲浪(lang)潮信息開放加速計(ji)算(suan)產品總監Stephen Zhang
浪潮信息基(ji)于(yu)開(kai)放的算力系(xi)統研發和大(da)模型工程實踐經驗,發布(bu)了《開(kai)放加速規范AI服(fu)務(wu)器設計指南(nan)》,面(mian)向AIGC應用(yong)(yong)場(chang)景,細化完(wan)善了從(cong)節點到集(ji)群間的AI芯片應用(yong)(yong)部署全棧(zhan)設計參考(kao),并(bing)提(ti)(ti)供系(xi)統測試(shi)指導和性(xing)能評測調(diao)優方法。AI芯片廠商可(ke)以基(ji)于(yu)《指南(nan)》快速將符合開(kai)放加速規范的AI芯片落地(di)成高(gao)可(ke)用(yong)(yong)高(gao)可(ke)靠(kao)高(gao)性(xing)能的大(da)模型算力系(xi)統,提(ti)(ti)高(gao)系(xi)統適配和集(ji)群部署效(xiao)率(lv)。
開放(fang)加速(su)計算(suan)架構具(ju)有大(da)算(suan)力(li)、高(gao)互聯和強擴展的(de)特點,天然適用于超大(da)規模(mo)神(shen)經網(wang)絡并行訓(xun)練,近年來已經取得豐富的(de)產(chan)業實(shi)(shi)踐成果。基于此,浪潮信息已經發布(bu)了(le)三代AI服務器(qi)產(chan)品(pin),和10余家芯片伙伴實(shi)(shi)現多(duo)(duo)元AI計算(suan)產(chan)品(pin)落地,并推出AIStation平(ping)臺,可高(gao)效調度30余款AI芯片,充分釋放(fang)多(duo)(duo)元算(suan)力(li)價值。
同(tong)時,面(mian)向復(fu)雜的大(da)(da)模(mo)(mo)型訓練工程,浪(lang)潮信息(xi)最新推出了OGAI大(da)(da)模(mo)(mo)型智算(suan)(suan)軟件(jian)棧,能(neng)夠為大(da)(da)模(mo)(mo)型業務(wu)提供AI算(suan)(suan)力系(xi)統環境部署、算(suan)(suan)力調度及開發(fa)管(guan)理能(neng)力的完整軟件(jian)棧和工具鏈,高效釋放算(suan)(suan)力系(xi)統性能(neng),加速(su)生成式AI產(chan)業創(chuang)新步伐。
四、科華數據魏芳偉:模塊化液冷一站式方案,助攻智算中心雙碳目標
芯片的功耗在持續上升,單顆芯片功耗的逐漸增大。英特爾2023年第一季度發布的Max9462處理器,TDP達350W;英偉達2023年第一季度發布的HGX Grace Hopper Superchip Platform,其TDP高達1000W。如用風冷技術,將很難降低CPU、GPU表面溫度。此外基于雙碳要求,工信部于2021年發布新型數據中心發展行動計劃,要求到2023年底,新建大型及以上數據中心PUE值降低到1.3以下,嚴寒和寒冷地區力爭降低到1.25以下。
科華數據智慧溫控制拓展部副總監魏芳偉談道,目前主要的散熱方式有6種,包括傳統風冷、自然冷源風冷、冷板式液冷、噴淋式液冷、單相浸沒式液冷以及兩相浸沒式液冷。其中,使用最多的是冷板式液冷和單相浸沒式液冷。魏(wei)芳偉(wei)說(shuo),冷板式液冷適(shi)合絕大多數客(ke)戶使用,優勢是(shi)高性(xing)(xing)價比,低改造、低建設難度;浸(jin)沒相變式液冷適(shi)合極致性(xing)(xing)能客(ke)戶使用,特點是(shi)高性(xing)(xing)能、高投資。
▲科(ke)華(hua)數據智(zhi)慧(hui)溫(wen)控制拓展部副總監魏芳(fang)偉
魏芳偉解讀了科華的模塊化液冷一站式解決方案,主要包括三大類產品,包括主要應用在大型互聯網IDC和超算中心的液冷微模塊,應用在邊緣計算領域的液冷集裝箱,以及應用在挖潛和老舊機房改造的是液冷一體機。
液冷微模塊的特點是高(gao)度(du)集成,集成電源、配電、風(feng)冷空調、液冷CDU、二次側管道等。每(mei)一個液冷項目具備特殊性(xing),但是可(ke)以采用(yong)模(mo)組形式(shi)搭建多樣(yang)化的適配載體(ti),提高(gao)通用(yong)性(xing)。
液冷集裝箱由各個模(mo)(mo)(mo)塊(kuai)(kuai)(kuai)(kuai)組(zu)成(cheng),IT模(mo)(mo)(mo)塊(kuai)(kuai)(kuai)(kuai)、電(dian)(dian)(dian)力模(mo)(mo)(mo)塊(kuai)(kuai)(kuai)(kuai)、電(dian)(dian)(dian)池模(mo)(mo)(mo)塊(kuai)(kuai)(kuai)(kuai)、消防模(mo)(mo)(mo)塊(kuai)(kuai)(kuai)(kuai)、綜合布線、液(ye)冷模(mo)(mo)(mo)塊(kuai)(kuai)(kuai)(kuai)等可以(yi)根據單(dan)機柜功(gong)率(lv)、總(zong)功(gong)率(lv)、配電(dian)(dian)(dian)架構(gou)和(he)占(zhan)地面積等因素(su)綜合評(ping)估、選擇(ze)、確定各模(mo)(mo)(mo)塊(kuai)(kuai)(kuai)(kuai)配置數量(liang),拼裝組(zu)成(cheng)數據中心。
五、首都在線牛繼賓:解決智能算力平臺建設痛點,已有幾十個大模型客戶成功案例
首都在線副總裁牛繼賓談道,構建新一代智能算力平臺或是智算中心有很多痛點。一是英偉達高端算力供應鏈的問題,二是國產算力芯片的可用性問題,三是建成以后找不到足夠多的運行客戶。一個智算(suan)中心,如(ru)果解決不(bu)了以上幾個問(wen)題,就建(jian)造不(bu)起(qi)來或者出現運營虧損。此外大規模(mo)內網互聯(lian)、存(cun)儲高(gao)速吞吐、模(mo)型優化服務、平臺(tai)生態服務等技術(shu)因素也造成智算(suan)平臺(tai)建(jian)設(she)的(de)技術(shu)瓶頸。
首都在線提出的解決方案是建設大規模異構智能算力平臺。該平(ping)(ping)臺擁有異構(gou)算(suan)力(li)的(de)(de)(de)資(zi)源池,以(yi)英偉達算(suan)力(li)為主(zhu),以(yi)國(guo)(guo)產(chan)算(suan)力(li)為輔,實現上做(zuo)了從內(nei)網互連(lian)到(dao)公網的(de)(de)(de)調(diao)優,模型的(de)(de)(de)適(shi)配(pei)調(diao)優,并基于此提供GPU裸金屬、GPU云主(zhu)機、高速存儲、數(shu)據庫等(deng)多方(fang)面的(de)(de)(de)云服(fu)務。經過一年半左右時間(jian)的(de)(de)(de)迭代(dai),首(shou)都在線打(da)通了智算(suan)IaaS到(dao)智算(suan)MaaS,再到(dao)到(dao)客(ke)戶的(de)(de)(de)端(duan)到(dao)端(duan)應(ying)用(yong)場景,提供一套(tao)從生(sheng)產(chan)到(dao)業務的(de)(de)(de)端(duan)到(dao)端(duan)模型適(shi)配(pei)與(yu)服(fu)務平(ping)(ping)臺,目前的(de)(de)(de)客(ke)戶包括國(guo)(guo)內(nei)數(shu)家TOP大模型客(ke)戶以(yi)及終端(duan)的(de)(de)(de)應(ying)用(yong)客(ke)戶等(deng)。
▲首(shou)都在(zai)線(xian)副(fu)總裁牛繼賓
牛繼賓談道,大模型的推理如果用8卡的機器,是嚴重浪費的,首都在線最早和國內大模型客戶的在線推理業務合作,能夠將千億模型做到在兩張24G顯存、月成本只有千元左右的GPU云主機進行部署,而一(yi)臺8卡A100成本得四五萬元左右,相(xiang)當于超(chao)過一(yi)個數量級的(de)降(jiang)低。“這樣才(cai)能讓(rang)最終(zhong)(zhong)的(de)大模型應用走到(dao)每一(yi)個終(zhong)(zhong)端上。”
據他分享,首都在線目前已在搭建有商用級的千卡高端訓練集群,能夠直接響應大模型用戶訓練需求,同時建設了萬卡的推理集群,目前已有數十個大模型客戶案例、也有成功的將大模(mo)型服(fu)務轉售給垂直場景用(yong)(yong)戶的多個案(an)例。國(guo)內依托于(yu)東(dong)輸西(xi)算的業務形態進行部署(shu),加快用(yong)(yong)戶的響應,降低用(yong)(yong)戶的研(yan)發與線上服(fu)務成本;海外在東(dong)南亞正在部署(shu)H100集(ji)群,在美(mei)國(guo)也上線了比(bi)較(jiao)大的推理資源(yuan)池。這就相當于(yu)打通了全球(qiu)的訓練、推理、網絡(luo)。
六、中科馭數張宇:AI大模型需要新型算力底座,包含DPU的異構計算成主流
DPU是數據專(zhuan)用處理器,被(bei)稱為繼CPU、GPU之后數據中(zhong)心(xin)的(de)(de)“第三(san)塊主(zhu)力(li)芯片”。DPU能夠提供智算中(zhong)心(xin)所必(bi)須的(de)(de)大(da)帶寬(kuan)和低時(shi)延能力(li),使(shi)更(geng)多的(de)(de)CPU、GPU算力(li)可以真(zhen)正服務(wu)于業務(wu),從(cong)而為新型(xing)智算中(zhong)心(xin)提供更(geng)高效的(de)(de)算力(li)底座,成為智算中(zhong)心(xin)必(bi)備(bei)的(de)(de)核心(xin)組件。
中科馭數高級副總裁張宇強調了DPU和普惠算力在數智系統中的重要性。隨著大模型和智能計算的崛起,傳統的算力底座已不再滿足需求成為瓶頸,AI大模型應用需要新型算力底座進行支撐。硬件架構突破以CPU為中心的體系,應用維度從芯片內、節點內向系統級分布式異構延伸,CPU+GPU+DPU+FPGA的異構計算成為主流趨勢。在新的算(suan)力架構中,云、邊、端共同構成(cheng)了多層立體(ti)的泛在計(ji)算(suan)架構,通過與DPU的深度(du)融(rong)合,構成(cheng)新型算(suan)力底座。
▲中(zhong)科馭數(shu)高(gao)級(ji)副總裁(cai)張(zhang)宇(yu)
張宇談道,大帶寬、低時延,已成為AI大模型算力底座的核心訴求,而DPU可以提供這兩項必須的能力,異構算力、三U一體成為算力底座主流的趨勢。他認為對于所有的算力芯片而言,上層軟件生態是最重(zhong)(zhong)要(yao)的,有時(shi)甚至(zhi)會超出芯片本身(shen)設計的重(zhong)(zhong)要(yao)性(xing)。
中科(ke)馭數(shu)踐行“IaaS on DPU”,從標(biao)準(zhun)化的基礎設施到客制化的業務應用均(jun)進行產品布(bu)局,歷時五年打磨了開(kai)放DPU軟件(jian)開(kai)發平(ping)臺HADOS,具備豐(feng)富(fu)的算(suan)力(li)能力(li)接(jie)口,接(jie)口數(shu)量超過2000個,具有完備的生態兼容(rong)能力(li)、多種開(kai)發維護工具,支持豐(feng)富(fu)的應用場景。
七、趨動科技劉渝:在業界率先提出GPU資源池化,軟件定義優化AI算力供給
在AI大模型時代,英偉達的高端先進芯片難以采購,價格也是水漲船高。在巨大需求和AI算力供不應求情況下,趨動科技華南區技術總監劉渝認為應該優化GPU,也就是AI芯片和AI算力的供給模式。
傳統的(de)供(gong)給(gei)(gei)模式(shi)是物理卡(ka)掛載(zai)給(gei)(gei)AI應(ying)用(yong)(yong)使用(yong)(yong),無論是基于(yu)物理機(ji)、容器或(huo)虛擬(ni)機(ji),通過軟件(jian)對GPU做簡單的(de)虛擬(ni)化切分,沒有辦法使算力(li)資(zi)源動態滿足不同(tong)AI應(ying)用(yong)(yong)的(de)彈性(xing)需(xu)求。AI開發、訓練、推理,這些不同(tong)的(de)工(gong)作(zuo)任務對于(yu)GPU資(zi)源的(de)需(xu)求是不一樣的(de)。
▲趨動科技華南區技術總監劉渝(yu)
軟件定義AI算力的解決方案,總體來說包含了六大典型應用場景:1、“隔空取物”,進行(xing)(xing)vGPU資源的(de)(de)遠程調用;2、“化零為(wei)整”,通過軟件進行(xing)(xing)GPU資源的(de)(de)聚(ju)合(he),節省(sheng)算法人員的(de)(de)時間;3、“化整為(wei)零”,將GPU切(qie)分為(wei)多(duo)(duo)份,讓多(duo)(duo)個AI任(ren)務疊加使(shi)用,比如推理場(chang)景;4、“顯(xian)存擴展”,調用內(nei)存補(bu)顯(xian)存;5、“隨需(xu)應變(bian)”,通過軟件進行(xing)(xing)資源動態伸縮,無需(xu)重啟;6、“動態超(chao)賣(mai)”,資源高效輪轉使(shi)用。
劉渝稱,趨動科技在業界首提GPU資源池化的定義。趨動科技的OrionX GPU池化(GPU Pooling)軟件處在驅動程序以上,屬于標準化軟件;對于AI應用和框架來說,不需要修改任何代碼,就可以使用OrionX池化之后的GPU,對于用戶來說也不需要改變任何的使用習慣。OrionX對GPU資源進行池化后共享,每人按需動態進行GPU掛載和釋放,GPU硬件采購成本平均節省70%以上,GPU綜合利用率平均提升4倍以上。
結語:算力結構變化催生新型智算中心
正如智(zhi)一科技(ji)聯合(he)創始人、CEO龔倫常作為(wei)主辦方在(zai)致辭中所言,在(zai)人工(gong)智(zhi)能進入新階段之后,全球對算(suan)力的(de)需求(qiu)與日(ri)俱(ju)增。隨著社(she)會(hui)智(zhi)能化(hua)、數字化(hua)快(kuai)速演(yan)進,未來,每(mei)個大一點的(de)企業都需要智(zhi)算(suan)中心。
▲智一科技聯合創始人、CEO龔倫(lun)常
一(yi)方(fang)(fang)面(mian),大模型(xing)時代下,傳統(tong)的算力中(zhong)心面(mian)臨(lin)著與(yu)大模型(xing)匹(pi)配度較低、缺(que)乏(fa)(fa)行(xing)業統(tong)一(yi)標準、豎井(jing)式發展、缺(que)乏(fa)(fa)全局(ju)協(xie)同(tong)等多(duo)方(fang)(fang)面(mian)的挑(tiao)戰。另一(yi)方(fang)(fang)面(mian),國內企(qi)業已經發起沖(chong)鋒,從基(ji)礎設施、液冷技(ji)術(shu)、芯片協(xie)同(tong)等方(fang)(fang)面(mian),重新定義新型(xing)智算中(zhong)心,為構建(jian)更加健康、高效和可(ke)持續的AI生態(tai)系統(tong)鋪設了(le)道路(lu)。