
智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影
AI時代,存儲不僅是(shi)數據的(de)棲息之地,更是(shi)AI模型訓練、落地過程(cheng)中的(de)堅實底(di)座。
在AI開啟的存儲行業新周期中,眾多廠商已將帶寬等性能指標卷至新的高度。然而,這種追求似乎將AI這一復雜應用場景簡單地“存儲化”了。
實際上,AI對存儲的需求遠不止于性能這一維度本身,更需要讓存儲“AI化”,關(guan)(guan)注整體存儲解決方案與(yu)AI應用(yong)場(chang)景的(de)契合(he)度。這(zhe)一點,也是全球唯一的(de)AI/ML存儲基準(zhun)測試(shi)——MLPerf所(suo)關(guan)(guan)注的(de)本(ben)質(zhi)。
MLPerf存儲基準測試面向AI/ML用戶的痛點,即存儲和計算的平衡及兩者的有效利用。然而測(ce)試中存(cun)(cun)儲(chu)架構(gou)的多樣(yang)與存(cun)(cun)算節點(dian)的非(fei)標準化,導(dao)致(zhi)性能數據(ju)本(ben)身(shen)的參(can)考價(jia)值有所下降。
在(zai)性能數據之外,有(you)無另(ling)一指標(biao)可以(yi)更為(wei)準確地反映存儲系(xi)統在(zai)AI場(chang)景的表現呢?MLPerf存儲基準測試(shi)要求加速器利用率(lv)需達到90%或70%,在(zai)這一區間內考(kao)核節點所能支持的最大加速卡數,測試(shi)其能否盡可能跑滿每個客戶端(duan)的理論帶(dai)寬(kuan),以(yi)實現最佳存儲性能。
在MLPerf存儲基準測試中,由于理論帶寬是統一的,因此所有廠商的解決方案均可歸一化到網絡利用率這一指標上,進行相對客觀的評估。網絡利用率的提高意味著成本的降低,算力潛能的更充分釋放,存(cun)儲(chu)與AI應用(yong)場景(jing)的契合度也(ye)越高(gao)。
今年9月,新一輪(lun)MLPerf存儲基準測試(shi)成績(ji)(ji)發(fa)布,其中(zhong),中(zhong)國企(qi)業浪(lang)潮信息(xi)的(de)分布式存儲平臺AS13000G7,在圖像分割(ge)模型3D-UNet和天文學模型CosmoFlow共計8項(xiang)測試(shi)中(zhong)斬獲5項(xiang)最(zui)佳(jia)成績(ji)(ji)。這一平臺在網絡利用率(lv)上展現出20%左右的(de)優勢,斷層領先(xian)。
值(zhi)得一提(ti)的是,本次MLPerf存儲基準(zhun)測試(shi)已升級(ji)至1.0版(ban)本,這一升級(ji)提(ti)出(chu)了哪些新(xin)的要求,浪潮信息又是如何(he)憑(ping)借其技術積淀與整體(ti)解決方案,獲得新(xin)版(ban)測試(shi)中的多項最佳成績的呢?
一、MLPerf測試迎升級,存儲助力AI算天文分圖像
2018年,圖靈獎得主大衛·帕特森(David Patterson)聯合(he)斯坦(tan)福、哈佛等(deng)頂尖學術機構和谷歌、百(bai)度等(deng)AI行業頭(tou)部(bu)企業,共同(tong)(tong)發起了MLCommons協(xie)會,同(tong)(tong)年推出(chu)首款測試套件MLPerf,目前,該測試是影響力(li)最廣的國際AI性(xing)能基準(zhun)評測之一。
▲圖靈獎得(de)主(zhu)大(da)衛·帕(pa)特(te)森(圖源:ACM)
MLPerf系列測試套件得到學界和產業界的廣泛認可。其中,MLPerf存儲基準測試是專門用于AI復雜負載下存儲系統性能的測試套件,最大程度地模擬了AI任務的真實負載,數據訪問的pipeline、架構、軟件棧均與實際訓練程序無異,已成為AI/ML模型開發者選擇存儲解決方案的權威參考依據。
▲浪潮信息是MLCommons的創始成員(yuan)之一(圖源:MLCommons官網)
本次MLPerf存儲(chu)基準測試(shi)1.0版(ban)本測試(shi)吸引了全球13家領先存儲(chu)廠(chang)商和研究(jiu)機構(gou)的(de)參(can)與,測試(shi)內容(rong)也(ye)迎來重大升級(ji),回應了當(dang)下復雜AI應用場(chang)景對存儲(chu)提出的(de)新需求。
一方面,存儲系統的帶寬峰值處理能力迎來新的(de)(de)(de)(de)挑戰,測試特別關注了(le)在高性(xing)能GPU達到一定使(shi)用率(lv)的(de)(de)(de)(de)情況(kuang)下(xia),存儲系統能為AI集群提(ti)供的(de)(de)(de)(de)整體帶寬和單個節點的(de)(de)(de)(de)帶寬。
另一方面,測試還強化了對分布式訓練的考察,特別關注(zhu)每個存(cun)儲節點能(neng)夠支持的GPU數量,以此來衡量用戶(hu)在AI存(cun)儲方面的投資效益。
在(zai)本次(ci)測試中,浪(lang)潮(chao)信息使用3臺AS13000G7平臺搭建分布式存儲集群,并配備ICFS自研分布式文件系統,參(can)與(yu)了3D-UNet和CosmoFlow兩個(ge)單項的測試。
作為圖像分割領域最具影響力的AI模型,3D-UNet模型的測試中使用了海量的圖像類非結構化數據,要求存儲平臺具備高帶寬、低時延的特點,才能保證GPU的高效利用。CosmoFlow宇宙學分析模型參數量僅有10萬-20萬,如此之小的模型對時延提出了更高的要求。二者都是典型的數據密集型應用。
在3D-UNet多(duo)客(ke)戶端2評測任務中(zhong),浪潮(chao)信息(xi)的(de)(de)存儲(chu)平臺服(fu)務于10個客(ke)戶端264個加(jia)速器(qi),集群聚(ju)合帶寬達到360GB/s,單(dan)個存儲(chu)節點的(de)(de)帶寬高達120GB/s。
在宇宙學分析CosmoFlow單客戶端2和多客戶端2評測任務中,浪潮信息的存儲平臺分別提供了18 GB/s和52 GB/s的帶寬最佳成績。
二、契合AI使用場景,兼顧性能、效率、韌性
浪潮(chao)信息多項(xiang)最(zui)佳成績的(de)背后,是其面向AI時代(dai),提升(sheng)存儲平臺性能(neng)、效率(lv)和(he)韌性的(de)努(nu)力。
性能層面,浪潮自研分布式軟件棧中的全新數控分離架構解決了分布式存儲數據流在節點間流轉的轉發問題,減少東西向(節點間)數據轉發量80%。這(zhe)一性能的(de)提升(sheng)能幫助(zhu)客戶節(jie)省(sheng)大量的(de)存儲成(cheng)本,系統性價比也相應改善。
效率層面,浪潮信息通(tong)過多協議數據(ju)融合技術,解決(jue)了AI應(ying)用(yong)場(chang)景(jing)使用(yong)多種數據(ju)接入(ru)協議造(zao)成的(de)存(cun)(cun)儲效率問題,最高可節省(sheng)50%的(de)數據(ju)存(cun)(cun)儲空間。
韌性層面,為滿足AI業務對持續性的要求,浪潮信息的可靠性主動管理技術、AIOps系統故障預測算法和勒索軟件檢測技術,有效預防了設備故障和數據安全問題的出現。相關技術對硬盤故障的預測準確率達到98%,對勒索軟件的檢測漏報率僅有0.029%。
如何(he)將技術整合落地,將技術指標轉化為實際(ji)效(xiao)果,最(zui)終形成完整且適(shi)配AI場景的(de)解決(jue)方案,則是真正(zheng)造(zao)福AI行業客戶(hu)的(de)關鍵。
浪潮信息與AI場景緊密契合,憑借其產品場景化定制能力與成熟的AI場(chang)景解(jie)決(jue)方案能力,打(da)造(zao)出了真正貼合(he)AI需(xu)求的存儲產品,為AI場景構(gou)建堅實的數(shu)據支(zhi)撐平臺。
以本次測試中3D-UNet加速器H多客戶端下的測試結果為例,浪潮信息的多路并發透傳技術有效減少了I/O操作中頻繁的上下文切換,降低單次I/O時延50%。本次測試的3D-UNet場景中,3節點存儲支撐了1430個高并發讀線程,計算節點網絡利用率達到了72%。
網絡利(li)用率(lv)的提高有效降低了網絡資源的浪(lang)費。在客戶端配置(zhi)雙網卡情況下,部(bu)分(fen)參賽解決方案(an)僅有50%的網絡利(li)用率(lv),意味著整套方案(an)實質上浪(lang)費了近乎一整張網卡資源,大(da)大(da)增加了總體(ti)成本。
若在大模型訓(xun)練的(de)萬卡集群下,低(di)網絡利用率造(zao)成(cheng)(cheng)的(de)網卡資源的(de)浪費可能高達數(shu)千萬級別,更不(bu)必說設(she)備擴容所引發的(de)算(suan)力利用率下降、連接線增加、運維(wei)復雜度提升等連鎖成(cheng)(cheng)本(ben)效應。
對于本就成本高昂的AI基礎設施而言,任何可以削減的開支都顯得尤為關鍵。浪潮信息存儲解決方案在網絡利用率上的明顯優勢,證明(ming)了(le)相關方案對AI場景(jing)的高度適配(pei)。
在(zai)實(shi)踐(jian)中,浪(lang)潮信息(xi)的存儲(chu)解決方案已(yi)經(jing)在(zai)互聯網企業大模型(xing)訓(xun)練推理場景、大型(xing)AI算力中心與某國家重點實(shi)驗室(shi)中落地(di)。
例如,在大模型場景訓練中,浪潮信息通過增加全閃存儲幫助客戶實現效率提升,將斷電續訓時間降低到分鐘級別。新增20臺全閃存儲提升的效率,相當于新增了10多臺GPU服務器,從投資角度上來看,每100萬存儲投資相當于300萬的GPU服務器投資。
而(er)針對大(da)模型推理場景中多文件(jian)協議特點,浪潮信息的(de)融(rong)合存(cun)儲方案讓客戶(hu)節省(sheng)了協議轉化(hua)的(de)時間,使得數據匯集準(zhun)備時間節省(sheng)30%,存(cun)儲空(kong)間也大(da)幅節省(sheng)。
結語:生成式AI步入下半場,存儲成AI向實關鍵
據工信部測算,到2035年,中國生(sheng)(sheng)成(cheng)式(shi)AI的(de)(de)市(shi)場規模將突(tu)破(po)30萬億元,制造業、醫療(liao)健康、電信行(xing)業和零售(shou)業對生(sheng)(sheng)成(cheng)式(shi)AI技術(shu)的(de)(de)采(cai)用率迎來較快增長。
2024年,生成式AI正以前(qian)所未有(you)的速度走入千(qian)行百業。AI行業已經由百模大戰(zhan)時期的“卷模型”,轉變(bian)為“卷場景、卷應用”,或將迎來下(xia)半(ban)場的角逐。
在AI向(xiang)實發(fa)展的(de)進程中,數(shu)據(ju)是連接物理世(shi)界與(yu)數(shu)字世(shi)界的(de)重要橋(qiao)梁(liang),而存(cun)儲作為數(shu)據(ju)的(de)載體,持續在AI落地的(de)實踐(jian)中發(fa)揮(hui)關鍵作用(yong)。