▲頭圖由AI生成

智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影

城市大模型正處于爆發前夕,數據很可能成為一只“攔路虎”。

當下,北京、上海、深圳等多地都推出了AI新政策,提出“在城市大腦建設中應用大模型”、“構建開放式城市大模型服務平臺”等明確指示。沉睡的城市數據成為大模型的“養料”,同時數量巨大、種類異構等特征也加大了大模型落地的難度

數據存儲是數據價值挖掘的第一關口,大模型正倒逼產業進化。過去一年多,包括曙光、華為等(deng)基礎設(she)施(shi)龍頭(tou),以及阿(a)里云、騰訊云、百度智能云等(deng)云廠商都面向(xiang)大模型進行了(le)數據存儲產品優(you)化,動輒達(da)數倍(bei)模型訓練效率提升。

曙光存儲運營總監石靜告訴智東西:“從過去一年多次與客戶的溝通情況來看,大家從早期直接要PB級的存儲容量,到咨詢存儲如何讓GPU發揮更大效能,到現在則更加關注契合應用需求的變化,這都(dou)推動曙光存(cun)儲(chu)產(chan)品不斷(duan)進化。”

據悉,目前,曙光ParaStor分布式存儲產品能將AI整體表現提升20倍,已落地(di)了北京、泉州、中國(guo)移動等多個AI智(zhi)(zhi)能化項目(mu),并在大(da)模型、具身(shen)智(zhi)(zhi)能機器人、自動駕駛、智(zhi)(zhi)算中心等各個領域(yu)落地(di),打造了AI大(da)模型應用標桿案例(li)。

從AI城市體到千行百業,曙光跑出數字山河間的中國速度

▲曙光ParaStor分布式全(quan)閃系列(lie)產品

隨著算力、模型的價格降低,數據(ju)成為AI產業落地(di)的(de)“牛鼻(bi)子”如何挖掘城市中的海量數據價值,讓AI助力城市智能化發展,進而滲透到千行百業?從存儲環節來看,整個AI落地的成本壓縮邏輯是什么樣的?

通(tong)過對(dui)話曙光存儲(chu)運營總監(jian)石(shi)靜(jing),沿(yan)著曙光AI數據存儲(chu)落(luo)地(di)的(de)足(zu)跡(ji),我(wo)們對(dui)這些問題(ti)有了深(shen)入了解。

一、AI城市大腦進化時,向數據存儲要成本和效率

當下,城(cheng)市已成(cheng)為AI落地的第一站,數(shu)據(ju)存儲成(cheng)為不容忽視的短板(ban)環節。

北京、上海、廣東等一線城市及省份均發布了將大模型與城市治理相結合的相關政策。比如《北京市(shi)推動(dong)“人(ren)工智(zhi)(zhi)能(neng)+”行(xing)動(dong)計劃(2024-2025年)》提(ti)出(chu)“構建(jian)開放式城(cheng)(cheng)(cheng)市(shi)大模型服務(wu)平臺,打造智(zhi)(zhi)慧(hui)城(cheng)(cheng)(cheng)市(shi)大腦(nao)(nao)”;《廣東(dong)省(sheng)加快數字(zi)政府領域通用人(ren)工智(zhi)(zhi)能(neng)應用工作方案》提(ti)出(chu)“探(tan)索人(ren)工智(zhi)(zhi)能(neng)與城(cheng)(cheng)(cheng)市(shi)大腦(nao)(nao)等場景創新”。各地都在加速(su)推動(dong)AI與城(cheng)(cheng)(cheng)市(shi)智(zhi)(zhi)能(neng)化建(jian)設融合(he)發(fa)展,落地城(cheng)(cheng)(cheng)市(shi)治理、數字(zi)政務(wu)、智(zhi)(zhi)慧(hui)交(jiao)通、智(zhi)(zhi)能(neng)制造、商(shang)業等各個領域。

從AI城市體到千行百業,曙光跑出數字山河間的中國速度 從AI城市體到千行百業,曙光跑出數字山河間的中國速度 從AI城市體到千行百業,曙光跑出數字山河間的中國速度 從AI城市體到千行百業,曙光跑出數字山河間的中國速度從AI城市體到千行百業,曙光跑出數字山河間的中國速度
▲城市智能化領(ling)域AI及(ji)大(da)模型部分(fen)核心政策(智東西梳理)

石靜告訴智東西,在AI時代,城市智能化建設發生了較大變化。

此前,“城市大腦”更側重抓取城市數據去做智能分析,現在更主要的是借助大模型去輔助城市決策和管理;此前很多項目用CPU算力就行了,現在則更多考慮異構算力,GPU等(deng)AI算力(li)占比投入大大提升。

以泉州聯合曙光推進的智慧城市項目為例,項目(mu)涉及圖片、語(yu)音、視頻等多(duo)種業務(wu)數(shu)據,要(yao)(yao)將這些數(shu)據匯聚接(jie)入AI大模型,不僅對(dui)存(cun)儲性能和安全可靠(kao)提出更高(gao)要(yao)(yao)求,對(dui)異構數(shu)據的納管能力要(yao)(yao)求也很高(gao)。其在方(fang)案中兼顧(gu)了這些多(duo)方(fang)面需求,從而實現(xian)城(cheng)(cheng)市數(shu)據快(kuai)速互聯,支持城(cheng)(cheng)市大腦中樞決策。

再以智慧交通場景為例,此前各地主(zhu)要是將數據匯聚后來做(zuo)簡(jian)單分析,現在則是通(tong)過交通(tong)垂直(zhi)大(da)模(mo)型輔(fu)助決策。曙光存儲也跟業界專門做(zuo)交通(tong)大(da)模(mo)型的廠商(shang)做(zuo)了(le)相關適配(pei),以提供整個城市交通(tong)態(tai)勢掌控(kong)、更科學的交通(tong)調(diao)配(pei)等更多服(fu)務。

在這一過程中,忽略存儲是比較要命的。

石靜說:“算力越來越快,如果存儲跟不上,這很可能導致GPU算力空轉或等待,從而使資源效率難以發揮;如果忽略存儲,一些數據質量問題的出現,也可能導致大模型效果出現偏差。”

具體來說,當下城市智能化進程對數據存儲提出了以下新要求

1、存儲性能要更極致。只有足夠快的存儲,才能匹配上足夠快的GPU或者AI芯片。2、存儲更加契合用戶業務。從通用大模型到行業生產大模型需要針對性調優,要求存儲具有一定的可定制化能力。3、數據安全要求更高。大模型訓練若出現中斷往往損失慘重,保障數據安全可靠尤為關鍵。4、更強異構數據的納管能力。面向大模型,非(fei)結構化數據的(de)采集、匯聚、分析(xi)、處理能力提升。

“百模大戰”快速發展一年,得益于數據存儲技術進步,城市智能化項目的計算效率大幅提升

石靜告訴智東西,在帶寬指標方面,曙光存儲ParaStor分布式全(quan)閃(shan)單(dan)個節點已經做(zuo)到最高150GB/s帶寬,也就是(shi)一(yi)秒鐘可為用戶提供(gong)150G的(de)數(shu)據(ju)吞吐,這(zhe)個指(zhi)標還(huan)在(zai)快速提升中,早在(zai)兩(liang)個月前還(huan)是(shi)130GB/s。

在IOPS指標方面,智存ParaStor產品可以提供320萬IOPS/s,也就是一秒鐘可以處理320萬個I/O請求,相較于以前有了十倍以上的提升。而(er)同樣的硬(ying)件配(pei)置下,當前(qian)市場主流(liu)產品的單節點(dian)帶寬(kuan)能(neng)(neng)力(li)普遍在100GB/s以(yi)內,單節點(dian)的IOPS能(neng)(neng)力(li)基本(ben)在200萬(wan)以(yi)下。

從AI城市體到千行百業,曙光跑出數字山河間的中國速度

▲曙光ParaStor分(fen)布式全閃在相關(guan)指標情(qing)況

二、從城市體到千行百業,數據成AI落地的“牛鼻子”

眾所周知,AI大模(mo)型落地,受到算力(li)、算法和數據(ju)“三駕(jia)馬車”牽引。

石靜談道,在前期大家更多關心模型、算力如何,但隨著AI的發展,數據應該排到更靠前的位置。大模型能否很好地指導各行各業的發展?存儲所承載的數據質量非常關鍵。

今年(nian)(nian)1月(yue)4日,國家數(shu)據(ju)(ju)局等(deng)17部門聯合印發《“數(shu)據(ju)(ju)要素(su)×”三年(nian)(nian)行(xing)動(dong)計(ji)劃(2024—2026年(nian)(nian))》(簡(jian)稱(cheng):行(xing)動(dong)計(ji)劃),提(ti)出選取工業制(zhi)造、現代(dai)農業、商(shang)貿流(liu)通(tong)、交通(tong)運(yun)輸、金融(rong)服務等(deng)12個行(xing)業和領(ling)域,推(tui)動(dong)發揮(hui)數(shu)據(ju)(ju)要素(su)乘數(shu)效(xiao)應,釋放數(shu)據(ju)(ju)要素(su)價(jia)值。

從城市到千行百業,新一代智存技術已經在促進“數據要素x”發展。

在熱門的具身智能領域,“天才少年”稚輝君創辦的智元機器人剛剛在8月發布了第一代具身智能機器人遠征A1,號稱達200TOPS算力。基于曙光ParaStor分布式全閃存儲提供與算力匹配的高性能存儲池,智元機器人在大模型訓練中實現了存儲的低延時、高IO吞吐,從而釋放了強大的AI算力

在自動駕駛領域,國內知名造車新勢力通過模型模擬仿真,加速新車型從量產走向市場,曙光在2022~2024年連續為其提供超百PB的存儲資源,包括通過NVMe全閃產品提供單節點45GB/s帶寬和百萬級IOPS,最大化提升自動駕駛模型訓練效率;3天內幫助用戶從幾十個節點擴展到200+節點,應對擴展中的數據挑戰;存儲負載率長期維持在85%以上,保障數據的(de)完整性(xing)和可靠性(xing)。

在智算中心領域中國移動在2022年啟動了全球運營商最大單體智算中心,針對中心所需的海量非結構化數據承載、多協議互融等存儲需求,曙光ParaStor滿足了其對存儲靈活性的需求,順暢完成全局統一調度與管理,為項目未來(lai)超大規模(mo)模(mo)型(xing)跨地域、多中心并行訓練提供了(le)存力保障。

而聚焦AI大模型生產本身,曙光ParaStor分布式全閃存儲支持某AI大模型廠商億級文件數據訓練及推理,相比原系統提效50%,最終相隔兩月內即發布上線大模型新版本;支持某科技大模型廠商整體訓練效率提升50%以上

可以看到,從城市體到千行百業都在加速(su)智能化,當(dang)模型和(he)算力價格降低,數據正成為(wei)AI落地新的“牛鼻(bi)子”。

從AI城市體到千行百業,曙光跑出數字山河間的中國速度

▲曙光存儲產品全(quan)家(jia)福(fu)

三、強者恒存,曙光存儲跑出中國AI加速度

AI大模(mo)型(xing)飛(fei)速發展,也(ye)反(fan)過(guo)來倒(dao)逼存儲產業升級(ji)。

在過去一年多時間里,包括曙光、華為等基礎設施龍頭企業,以及阿里云、騰訊云、百度智能云等云廠商,都針對AI大模型研發與落地的全流程,對存儲產品進行了性能優化。各大廠商的存儲產品的優化方向具有一致性,都強調高性能、多協議、可定制、高安全等提升。

其中,作為深耕AI存儲多年的頭部玩家,曙光ParaStor分布式全閃存儲將AI整體表現提升了超20倍。這是如何實現的?

石靜告訴智東西,曙光是從兩大核心去解決的,可以總結成:最強的數據底座、最佳的AI應用加速套件

在數據底座方面,存(cun)儲(chu)(chu)就是要去(qu)(qu)發揮極致的硬(ying)件性(xing)能(neng),軟(ruan)件要把CPU、內存(cun)、網(wang)絡和(he)硬(ying)盤介質的性(xing)能(neng)發揮出來。在AI方(fang)面,現(xian)在大家(jia)都在通過高(gao)速(su)網(wang)絡,加上NVMe SSD閃存(cun)介質去(qu)(qu)實現(xian),存(cun)儲(chu)(chu)軟(ruan)件把高(gao)速(su)網(wang)絡跟(gen)NVMe介質的協同發揮出來,實現(xian)最高(gao)性(xing)能(neng)。

在AI應用加速套件方面,這需要結合AI方向特殊的一些應用模式做優化。曙光有五大加速技術方案,能夠通(tong)過分析AI整個的流(liu)程去(qu)盡量縮短整個I/O流(liu)程,讓GPU更加靠近存(cun)(cun)儲,或者說讓存(cun)(cun)儲更加靠近于顯存(cun)(cun)。

從AI城市體到千行百業,曙光跑出數字山河間的中國速度

▲曙光AI應用(yong)加(jia)速套件五(wu)級加(jia)速

具體(ti)展(zhan)開這五級(ji)加速(su),覆(fu)蓋了(le)數據流動到GPU服務器、網絡和存儲的整個階段:

1、本地內存加速。首先把計算節(jie)點本身的CPU對應內存利用起(qi)來,將一(yi)些(xie)關鍵的數據緩存在(zai)那里,做第(di)一(yi)層加速層,延時降至納秒級別。

2、BurstBuffer加速層。進(jin)一步(bu)把(ba)GPU服務(wu)器本(ben)(ben)地的NVMe盤(pan)利用起來,它相較本(ben)(ben)地內(nei)存容量大很多,把(ba)這些數(shu)據(ju)緩存起來以(yi)后(hou),就能夠(gou)保證海量數(shu)據(ju)不用跨網絡訪問存儲,把(ba)讀(du)取(qu)性能提(ti)高幾倍甚至(zhi)十倍以(yi)上。本(ben)(ben)地內(nei)存加速和BurstBuffer都是(shi)聚焦計(ji)算節(jie)點本(ben)(ben)身。

3、XDS雙棧兼容,減少CPU中斷。讓(rang)GPU去直通(tong)訪問(wen)存(cun)儲(chu),縮(suo)短整個I/O通(tong)路;不光實現(xian)GPU跟存(cun)儲(chu)的直接交互,還通(tong)過(guo)存(cun)儲(chu)技術讓(rang)AI智(zhi)能芯片跟存(cun)儲(chu)直接打(da)交道,從而減少(shao)CPU本身的損耗,降低延時。

4、網絡加速(RDMA-Based)。在網絡層,用RDMA技術等(deng)技術,不管是(shi)IB網絡還(huan)是(shi)在以太網里(li),RDMA或RoCE都能夠把網絡帶寬給跑滿,實現(xian)第三層加速(su)。

5、存儲節點高速層( NVMe SSD-Based )。最后是存(cun)儲本身,當(dang)下在AI應用最多的主要是NVMe全閃存(cun),把全閃存(cun)本身的性(xing)能充分(fen)發揮(hui)出來。

深耕存儲領域20年,曙光不僅在技術進化方面緊跟市場需求發展,還不斷推進存儲產業開放生態建設

石靜稱,目(mu)前(qian),曙光存(cun)儲在(zai)國產和非國產硬件(jian)上都充(chong)分開放(fang),通(tong)過軟硬件(jian)一體形態支持客戶(hu)搭建數據底座(zuo);存(cun)儲與多種前(qian)端應(ying)用(yong)計算節點平臺兼容,支持國內(nei)外AI芯片(pian)直通(tong)存(cun)儲;存(cun)儲兼容更(geng)多AI應(ying)用(yong),通(tong)過智能I/O分析工具輔助其(qi)存(cun)儲更(geng)好地契合應(ying)用(yong),做到應(ying)用(yong)開放(fang)。

強者恒存,曙光正跑出中國AI的加速度。

可以看到,大模型發展不僅推動國產存儲廠家不斷實現技術突破,還以更加開放的心態推動軟硬件兼容、計算平臺兼容及應用兼容,從而強化AI落地。

結語:從曙光的AI足跡,看到數字山河間的中國速度

隨(sui)著大模型落地各(ge)(ge)行各(ge)(ge)業(ye),加速已成(cheng)為AI數(shu)據存儲的核心需求。從(cong)曙光城市智能化(hua)到各(ge)(ge)行各(ge)(ge)業(ye)的AI落地案例來看,其存儲方案通(tong)過縮短數(shu)據讀寫(xie)時間(jian),大大提升了(le)AI大模型的訓(xun)練效率,減(jian)少算力的空(kong)轉等待時間(jian),從(cong)而(er)降低AI成(cheng)本。

20年篳路藍縷,曙光存儲伴隨著(zhu)中國(guo)信息化(hua)、數字化(hua)和智(zhi)能化(hua)轉(zhuan)型(xing)一路發展。當下,大模型(xing)成為全球科技競(jing)賽的(de)主賽場,以曙光為代表(biao)的(de)國(guo)產(chan)ICT龍(long)頭正通過更(geng)精尖的(de)技術、更(geng)貼近場景的(de)服務(wu)、更(geng)開放的(de)生態助力(li)國(guo)內大模型(xing)產(chan)業(ye)發展,跑出數字山(shan)河間的(de)中國(guo)速度。