智東西(公眾號:zhidxcom)
作者 | GenAICon 2024

2024中國生成式AI大(da)會于4月18-19日在北(bei)京舉行,在大(da)會第二天(tian)的(de)主會場(chang)AI Infra專場(chang)上(shang),焱融科技CTO張文濤(tao)以(yi)《多(duo)云環境下(xia)大(da)模型(xing)訓練和推理的(de)高效存儲》為題發表演講。

隨著(zhu)大模型(xing)訓(xun)練和(he)推理需要(yao)的算力越(yue)來越(yue)高(gao),單(dan)個數據中心(xin)已經(jing)無法滿足大模型(xing)訓(xun)練所需要(yao)的算力要(yao)求,需要(yao)多數據中心(xin)進行訓(xun)練和(he)推理。

多個數(shu)據中心存(cun)在多份數(shu)據拷貝的(de)成本越來(lai)越大,如何(he)在保證性能的(de)前(qian)提下(xia),讓數(shu)據按需跟(gen)隨(sui)算力進行流轉,成為(wei)大模型(xing)(xing)廠商和存(cun)儲廠商要(yao)解(jie)決的(de)難題(ti)。從數(shu)據加載、模型(xing)(xing)加載到(dao)Checkpoint保存(cun)等過程中,存(cun)在大量的(de)讀寫(xie)請求、元數(shu)據訪問和內存(cun)拷貝等操作。在此背景下(xia),張文濤解(jie)讀了存(cun)儲對大模型(xing)(xing)訓練和推理(li)的(de)重要(yao)性和一些可(ke)行方法。

對(dui)于多(duo)模(mo)態大(da)模(mo)型(xing),高性(xing)能存(cun)儲對(dui)訓練的(de)提升(sheng)效果更好,效率(lv)可提升(sheng)20-40%。針對(dui)訓練推(tui)理(li),焱融科(ke)技(ji)推(tui)出了(le)多(duo)云存(cun)儲解決方案。基于統一的(de)數(shu)據湖底座,通(tong)過(guo)數(shu)據編排將數(shu)據按需加(jia)載到(dao)數(shu)據中心,并異步將新增的(de)模(mo)型(xing)數(shu)據推(tui)到(dao)數(shu)據湖。數(shu)據加(jia)載支持對(dui)接(jie)OSS、COS、BOS等各(ge)大(da)主流對(dui)象存(cun)儲平臺。

以下為張文濤的演講實錄:

炎融科(ke)技專注于高(gao)性能分布式文件(jian)存(cun)(cun)儲(chu),是(shi)(shi)英偉達在中國的(de)合(he)作伙(huo)伴之一(yi)。在Gartner中國軟件(jian)定義存(cun)(cun)儲(chu)競爭格局(ju)報(bao)告(gao)中,我們是(shi)(shi)唯一(yi)一(yi)家專注于文件(jian)存(cun)(cun)儲(chu)的(de)廠商。

我們(men)曾參與過IO500測試,全球(qiu)排名第六,是國(guo)內首家進(jin)入云原生存儲領域的(de)公司。去年,焱融(rong)科技入選了賽迪中(zhong)國(guo)式存儲挑(tiao)戰者象限(xian),展現了我們(men)在(zai)行業中(zhong)的(de)競(jing)爭實力。焱融(rong)科技的(de)產品在(zai)AI和(he)智能汽車(che)行業占有領先地位。

接(jie)下來(lai),我(wo)們將分享(xiang)三(san)個(ge)主(zhu)要(yao)方面:第(di)(di)一,為什么存儲對大模(mo)型訓練和推理(li)很重(zhong)要(yao);第(di)(di)二,大模(mo)型推理(li)和訓練的解決方案;第(di)(di)三(san),在當前算力短(duan)缺的情況下,我(wo)們不得不采用多云方式進行訓練和推理(li),在此(ci)過程(cheng)中(zhong),將會遇(yu)到哪些(xie)問題,又該(gai)如何去解決?

一、大模型場景六大環節需要存儲,優秀方案能平衡性能與成本問題

大模型場景里有哪(na)些環(huan)(huan)節(jie),這(zhe)些環(huan)(huan)節(jie)里對存儲又有哪(na)些訴求?主要分(fen)為六個部分(fen)。

第一,數據采集。包括從(cong)第三(san)方(fang)購買(mai)數據(ju)、網絡(luo)爬(pa)取以及(ji)現(xian)場采集。由于(yu)采集方(fang)式(shi)各(ge)異,存儲(chu)(chu)訪問也(ye)需考慮(lv)多(duo)種(zhong)協(xie)議。采集的原始數據(ju)量(liang)較大,因此需要高(gao)(gao)容量(liang)、低成本的存儲(chu)(chu)方(fang)案。同(tong)時,我們(men)希望存儲(chu)(chu)能夠支持高(gao)(gao)并發(fa)、高(gao)(gao)帶寬(kuan)。

焱融科技張文濤:將大模型訓練效率提升40%!詳解多云架構下高效存儲策略丨GenAICon 2024

第二,數據預處理。包括清(qing)洗、篩選、格式轉換(huan)和集成(cheng)。這一(yi)過程涉及多(duo)個環節(jie),對存(cun)儲而(er)言需(xu)要支持多(duo)種協議,如NFS、SMB、S3、HCFS、POSIX等。在數(shu)據預處理中(zhong),需(xu)要進行大量(liang)的(de)(de)數(shu)據檢(jian)(jian)索,從各個維度提(ti)取(qu)數(shu)據,滿足不同的(de)(de)檢(jian)(jian)索需(xu)求。數(shu)據在此階段的(de)(de)特點是(shi)混亂的(de)(de),IO大小(xiao)和讀寫方式也是(shi)混合的(de)(de)。

第三,模型訓練。在(zai)存儲方面相對簡單,但也具(ju)有挑(tiao)戰性(xing)。在(zai)這(zhe)一(yi)階段,性(xing)能是(shi)關鍵,包括對讀取(qu)帶(dai)寬、讀取(qu)IOPS和寫入帶(dai)寬的(de)要求(qiu),以(yi)及整體低延遲的(de)需求(qiu)。

第四,模型驗證。這也是訓練(lian)過程的一部分。

第五,推理。推(tui)理本身并不需要頻繁訪問存(cun)儲,其(qi)主要對(dui)存(cun)儲的需求源自(zi)模型的部署(shu)(shu)和更(geng)新。在(zai)模型部署(shu)(shu)和更(geng)新時,要批量將模型加(jia)載(zai)到GPU中,這(zhe)可(ke)能(neng)引(yin)發(fa)類似啟動風(feng)暴(bao)的問題,需要瞬(shun)時加(jia)載(zai)大量數據,峰值瞬(shun)時流量可(ke)能(neng)達(da)數十TB。

第六,數據歸檔。隨(sui)著數(shu)(shu)據(ju)(ju)的(de)不斷(duan)增加(jia),涵蓋(gai)了模型(xing)數(shu)(shu)據(ju)(ju)、數(shu)(shu)據(ju)(ju)集(ji)以(yi)及原(yuan)始(shi)數(shu)(shu)據(ju)(ju),數(shu)(shu)據(ju)(ju)治理問題日益顯現。在存儲方面,我(wo)們(men)期望實現全生命(ming)周期的(de)數(shu)(shu)據(ju)(ju)管理,最(zui)好是基(ji)于時間維度的(de)方式。隨(sui)著數(shu)(shu)據(ju)(ju)訪問熱(re)度的(de)降低,我(wo)們(men)希(xi)望自動將冷數(shu)(shu)據(ju)(ju)轉移到(dao)低成本(ben)的(de)存儲介(jie)質上(shang),但同時保(bao)證當需要訪問時,數(shu)(shu)據(ju)(ju)能夠(gou)隨(sui)時可(ke)見。

這幾(ji)個環(huan)節對存儲的(de)(de)需求(qiu)很高,特別是(shi)在(zai)模型的(de)(de)訓練和推理階(jie)段(duan),這兩個環(huan)節尤為挑(tiao)戰性。

為(wei)何存(cun)儲在(zai)這兩個方面至(zhi)關重(zhong)要?主要有兩個原因(yin)。

首先,存儲直接影響了模型訓練的效率。在訓練(lian)過程中,需要從存(cun)儲(chu)加載(zai)模型和數據(ju),并定期將GPU內(nei)存(cun)中的數據(ju)保存(cun)到存(cun)儲(chu)中。在每(mei)個環節,存(cun)儲(chu)都(dou)必須提供最佳(jia)性能。

其次,推理業務上線時通常會同時啟動數十甚至上百個業務pod,需要瞬時提供幾十TB的流量。例如(ru),一個(ge)量化后的(de)(de)(de)模型可能有數(shu)十GB甚至(zhi)上百GB,幾十個(ge)業務pod同時(shi)啟動,會產生巨大(da)的(de)(de)(de)瞬時(shi)流量。由于模型更新頻繁(fan),業務上線的(de)(de)(de)延遲應控制在分鐘(zhong)級別,并(bing)且(qie)希(xi)望不(bu)受推理業務規模擴大(da)影響(xiang),以避(bi)免存(cun)儲帶寬峰值對模型下載延遲的(de)(de)(de)影響(xiang)。優秀(xiu)的(de)(de)(de)存(cun)儲解(jie)決方案(an)不(bu)僅能夠解(jie)決這些問(wen)題,還能平(ping)衡性能與成本。

二、高性能存儲如何影響訓練與推理?縮短多模態訓練時間可提升40%效率

接下來介紹一(yi)下存(cun)儲對于(yu)訓練的影響(xiang),在訓練過程當中,有(you)4個地(di)方會(hui)對存(cun)儲有(you)要(yao)求(qiu):

1、數據的預讀和訓練。我們(men)進(jin)行數(shu)據(ju)訓練(lian)時,需要將數(shu)據(ju)從存儲加載到GPU進(jin)行計算。在(zai)這個過程中,可(ke)能會(hui)采用預(yu)讀(du)機制或直接讀(du)取方式(shi)。特別是(shi)在(zai)Batch Size較小(xiao)時,會(hui)產生大(da)(da)(da)量(liang)小(xiao)的I/O操(cao)作。在(zai)多模態大(da)(da)(da)模型中,由于存在(zai)許多圖文對形式(shi)的小(xiao)文件(jian),因此會(hui)出現大(da)(da)(da)量(liang)小(xiao)文件(jian)訪問帶來(lai)的大(da)(da)(da)量(liang)元數(shu)據(ju)操(cao)作。

焱融科技張文濤:將大模型訓練效率提升40%!詳解多云架構下高效存儲策略丨GenAICon 2024

2、POSIX和GDS協議。盡管當前許多訓(xun)練任務(wu)都使用對(dui)象存(cun)儲,但在(zai)訓(xun)練階段,實(shi)際(ji)上(shang)還是(shi)通過文件接(jie)口進行(xing)訪問。只有文件接(jie)口能(neng)(neng)夠提供高性(xing)(xing)能(neng)(neng),并且(qie)具有最佳的(de)兼容(rong)性(xing)(xing)。隨著越來越多的(de)訓(xun)練任務(wu)面臨內(nei)存(cun)拷貝性(xing)(xing)能(neng)(neng)問題(ti),將數據從CPU內(nei)存(cun)拷貝到GPU內(nei)存(cun)時(shi),性(xing)(xing)能(neng)(neng)問題(ti)變得突出。目前,許多客戶(hu)開始(shi)嘗試使用GPU Direct技(ji)術來加速(su)性(xing)(xing)能(neng)(neng)。

3、模型的加載。當啟(qi)動(dong)新(xin)的(de)訓(xun)練任務(wu),或由于其他原(yuan)因需要(yao)重新(xin)啟(qi)動(dong)訓(xun)練時,需要(yao)將模型加載(zai)到GPU中。在這個過(guo)程會產生大量(liang)的(de)讀取I/O。英偉達在2021年(nian)發表了一篇論文,關于千卡規(gui)模,當時的(de)存儲峰值讀取帶寬(kuan)可(ke)達到1TB/秒(miao)。

4、Checkpoint的保存。在訓(xun)練(lian)過程(cheng)(cheng)(cheng)中,Checkpoint起著重要作用。由(you)于有大量GPU同(tong)(tong)時進(jin)行Checkpoint,且(qie)GPU的(de)故障率(lv)相對較高,因此需要定期保存Checkpoint。這個(ge)過程(cheng)(cheng)(cheng)本身就是(shi)保存一個(ge)模型(xing),保存過程(cheng)(cheng)(cheng)中,訓(xun)練(lian)狀態會暫停,并進(jin)行同(tong)(tong)步等待(dai)。保存過程(cheng)(cheng)(cheng)的(de)時長(chang)越短(duan),訓(xun)練(lian)的(de)GPU利用率(lv)就越高。

焱融科技張文濤:將大模型訓練效率提升40%!詳解多云架構下高效存儲策略丨GenAICon 2024

這個(ge)圖比(bi)較(jiao)直(zhi)觀,紅色表(biao)(biao)示(shi)數(shu)據加載,綠色表(biao)(biao)示(shi)訓練,黃色表(biao)(biao)示(shi)Checkpoint保存(cun)。

對于(yu)大語言模(mo)型(xing)而言,由于(yu)其(qi)訓練(lian)(lian)(lian)集較小,存儲(chu)(chu)訪問占(zhan)比(bi)并(bing)不會很高。但(dan)是對于(yu)多(duo)模(mo)態大模(mo)型(xing),尤其(qi)像Sora模(mo)型(xing),數據訪問占(zhan)比(bi)較大。對于(yu)訓練(lian)(lian)(lian)任務來說,普(pu)通(tong)存儲(chu)(chu)和(he)高性能(neng)存儲(chu)(chu)之(zhi)間的(de)差異會非常明顯(xian)。高性能(neng)存儲(chu)(chu)能(neng)夠大大壓縮(suo)存儲(chu)(chu)訪問時(shi)間。對于(yu)多(duo)模(mo)態任務來說,縮(suo)短訓練(lian)(lian)(lian)時(shi)間可以提升20%至40%的(de)效(xiao)率。

在英偉達的最佳實踐中,對于NLP任務,單臺GPU只需要4GBps的讀取帶寬。但對于多模態任務而言,單節點需要40GBps的讀取帶寬,基本上需要一張400Gb NDR的卡來處理。一個SuperPod需要500GBps的讀取帶寬,這個要求是相當高的

存儲對推理(li)的影響主要(yao)集中在模型加載(zai)和更新(xin)的過程。在啟動推理(li)業務時需要(yao)先加載(zai)模型文件,模型文件大(da)小在幾十(shi)G到(dao)上(shang)百GB之(zhi)間,而(er)一次性會啟動幾十(shi)個pod,因(yin)此(ci)整個數據量可達幾十(shi)到(dao)上(shang)百TB。

焱融科技張文濤:將大模型訓練效率提升40%!詳解多云架構下高效存儲策略丨GenAICon 2024

推理業務通(tong)常部署在邊緣(yuan)節(jie)點,其GPU配置(zhi)不(bu)如訓(xun)練集(ji)群(qun)那么高(gao)。在這樣的(de)(de)環境中,存儲和計算之間的(de)(de)網絡帶寬(kuan)通(tong)常也會(hui)受限,一般為25Gb的(de)(de)以太網絡。此時(shi)啟動(dong)整個推理業務時(shi)的(de)(de)延遲(chi)會(hui)很高(gao),在啟動(dong)和擴(kuo)容過程中會(hui)遇到嚴(yan)重的(de)(de)啟動(dong)風暴問題。

三、基于四大核心組件,精準部署存儲解決方案

我們(men)(men)的(de)大模(mo)型訓練和推理過程(cheng)的(de)存儲(chu)解決方案基(ji)于YRCloudFile系統,整體架構包含四個核心組件:1)集群管理服務(wu),采(cai)用一主多備的(de)高可用架構;2)元(yuan)數據服務(wu),支持海量小文(wen)件場景,我們(men)(men)的(de)元(yuan)數據集群能(neng)夠(gou)橫向(xiang)水(shui)平擴展;3)集群服務(wu),能(neng)夠(gou)水(shui)平擴展;4)客(ke)戶端。相比于基(ji)于FUSE的(de)用戶態私(si)有客(ke)戶端,它(ta)有更高的(de)性(xing)能(neng)。

焱融科技張文濤:將大模型訓練效率提升40%!詳解多云架構下高效存儲策略丨GenAICon 2024

在(zai)硬件方(fang)面,我們能夠支(zhi)持(chi)標(biao)準(zhun)x86架構,也支(zhi)持(chi)Arm架構的(de)(de)鯤鵬服務(wu)器(qi)(qi)、海光服務(wu)器(qi)(qi)和(he)飛騰(teng)服務(wu)器(qi)(qi);在(zai)數據冗余(yu)方(fang)面,支(zhi)持(chi)副本的(de)(de)方(fang)式,也可以(yi)支(zhi)持(chi)低成本的(de)(de)糾刪碼的(de)(de)方(fang)式;在(zai)網(wang)絡方(fang)面,支(zhi)持(chi)25Gb、100Gb、200Gb的(de)(de)以(yi)太(tai)網(wang),以(yi)及支(zhi)持(chi)200Gb、400Gb的(de)(de)Infiniband網(wang)絡,也支(zhi)持(chi)RoCE網(wang)絡;在(zai)協議層面,支(zhi)持(chi)標(biao)準(zhun)的(de)(de)NFS、SMB、S3、HCFS以(yi)及私有(you)的(de)(de)POSIX協議。

針對大模(mo)型(xing)(xing)訓練(lian)場景,我們提供了一(yi)系列功能和特性,以支持(chi)和加速模(mo)型(xing)(xing)的訓練(lian)過程。

焱融科技張文濤:將大模型訓練效率提升40%!詳解多云架構下高效存儲策略丨GenAICon 2024

其中包括Multi-Channel技術,支撐單節點(dian)提供超高性能帶寬(kuan)和IOPS的核心技術。

其次(ci)是GPU Direct Storage(GDS)技(ji)術。隨著客戶內存(cun)的(de)不斷增大,傳統(tong)的(de)緩存(cun)技(ji)術已經無法滿足數據集的(de)存(cun)儲需求,GDS技(ji)術應運而生(sheng)。

還有內核私有客戶端,能(neng)夠(gou)減少(shao)上下文的切換,能(neng)夠(gou)提供高帶寬和(he)IOPS。

第(di)四,能夠支持400Gb NDR的(de)網絡(luo),結(jie)合(he)Multi-Channel技術,在x86架構下,提供單節(jie)點90GBps的(de)帶寬,以及300萬IOPS的(de)性能。

針對多模(mo)態的(de)海(hai)量小文(wen)(wen)件場景(jing),我(wo)們(men)提供了分布式元數據(ju)(ju)集(ji)(ji)群,單(dan)個(ge)集(ji)(ji)群能夠(gou)支撐千億級的(de)文(wen)(wen)件數量。我(wo)們(men)線上最(zui)大的(de)單(dan)一(yi)集(ji)(ji)群包含接(jie)近400億文(wen)(wen)件,擁有(you)100多個(ge)元數據(ju)(ju)節(jie)點(dian),是(shi)目前線上最(zui)大的(de)單(dan)一(yi)元數據(ju)(ju)集(ji)(ji)群。

在功能(neng)層面,我們(men)提供(gong)了多種功能(neng)。

第一,智能分層。能夠有效地將數據下沉到對象存(cun)儲中,從而極(ji)大地降低成本。即便在提供高性能的情況下,也能夠實現低成本。

第二,目錄級Quota和QoS。為運維人員提供方便的管理工具(ju),同(tong)時提供了日審(shen)計和回收站功能,使運維同(tong)學能更好(hao)地(di)應對(dui)客戶的需求(qiu)和問題。

第三,協議網絡支持。近一年來(lai),對多協議網絡支持的需求急劇(ju)增(zeng)加。由于GPU卡供應緊張,數據中(zhong)心構(gou)建時(shi)出現了(le)異(yi)構(gou)網絡場景(jing),既有InfiniBand網絡,又有以太網。

在(zai)這(zhe)種情況(kuang)下,構建(jian)多套(tao)存儲是不(bu)現實的(de),因為存儲之間不(bu)互通,且會(hui)增加成本和(he)管理(li)復雜(za)度。我們提供(gong)了(le)多網絡協議支持,在(zai)同一(yi)個集群中可以(yi)同時(shi)支持InfiniBand和(he)以(yi)太(tai)網訪問,方便數據中心(xin)存儲設施(shi)的(de)構建(jian)和(he)管理(li)。

GDS技術(shu)的(de)最大優勢(shi)在于能夠有(you)(you)效減少(shao)CPU和CPU Memory的(de)使用,從而極(ji)大地降(jiang)低(di)了(le)CPU的(de)利用率。在沒有(you)(you)GDS技術(shu)時,數據(ju)的(de)傳輸路徑通常是從網卡(ka)拷(kao)(kao)(kao)貝(bei)到(dao)CPU Memory,涉及多次內(nei)存的(de)拷(kao)(kao)(kao)貝(bei)。而使用了(le)GDS技術(shu)后(hou),數據(ju)可以直接從網卡(ka)經由(you)DMI方式傳輸到(dao)GPU的(de)Memory里面,減少(shao)了(le)內(nei)存拷(kao)(kao)(kao)貝(bei)的(de)次數,有(you)(you)效降(jiang)低(di)了(le)CPU的(de)利用率。

接下(xia)來是一些我們在實驗環(huan)境和客戶(hu)現場測得(de)的數(shu)據。

我們(men)對比了(le)(le)(le)使用GDS和不使用GDS的情況,在(zai)(zai)帶(dai)寬(kuan)和延遲(chi)方面都取得了(le)(le)(le)顯著的性(xing)能(neng)(neng)提升(sheng)。具體來(lai)說(shuo),在(zai)(zai)帶(dai)寬(kuan)方面,使用了(le)(le)(le)GDS后,整體帶(dai)寬(kuan)性(xing)能(neng)(neng)提升(sheng)了(le)(le)(le)近40%;而在(zai)(zai)延遲(chi)方面,我們(men)觀察(cha)到有50%至60%的性(xing)能(neng)(neng)提升(sheng)。

當然,在(zai)低負載情(qing)況下,性能提(ti)升不太明(ming)顯,但(dan)在(zai)高負載情(qing)況下,其效果顯著(zhu)(zhu)。這與GDS的(de)作用(yong)相符合(he)。在(zai)CPU利(li)用(yong)率方面,我們可以看到(dao),在(zai)高并發(fa)量的(de)情(qing)況下,CPU負載顯著(zhu)(zhu)降低。使用(yong)了GDS后(hou),CPU的(de)利(li)用(yong)率基(ji)本上處(chu)于(yu)空閑狀態。

針對(dui)推理(li)環節的解(jie)決方案,主(zhu)要(yao)在于存(cun)儲(chu)(chu)和(he)計算之間的網絡(luo)(luo)瓶頸(jing)。由(you)于推理(li)集群通常采用25Gb以太網絡(luo)(luo),無法像訓練(lian)集群那樣(yang)構建200Gb或400Gb的IB網絡(luo)(luo),因此存(cun)儲(chu)(chu)和(he)計算之間的帶寬成為一(yi)個(ge)重要(yao)瓶頸(jing)。

我(wo)們(men)推(tui)出(chu)了(le)客戶(hu)端(duan)緩(huan)(huan)存(cun)(cun)池(chi)解決方(fang)案(an),該方(fang)案(an)在加載模(mo)型(xing)(xing)時(shi)充(chong)分(fen)利(li)用(yong)計(ji)算(suan)節點(dian)的(de)本地SSD形成一個(ge)大的(de)緩(huan)(huan)存(cun)(cun)池(chi)。當(dang)需(xu)要加載模(mo)型(xing)(xing)時(shi),我(wo)們(men)首先將模(mo)型(xing)(xing)并發加載到客戶(hu)端(duan)緩(huan)(huan)存(cun)(cun)池(chi)中(zhong),然后再由客戶(hu)端(duan)緩(huan)(huan)存(cun)(cun)池(chi)將模(mo)型(xing)(xing)加載到GPU中(zhong)。這(zhe)樣一來,我(wo)們(men)有(you)(you)效地解決了(le)啟(qi)(qi)動(dong)(dong)風(feng)暴(bao)的(de)問題。隨著(zhu)計(ji)算(suan)節點(dian)規(gui)模(mo)的(de)增加,緩(huan)(huan)存(cun)(cun)池(chi)的(de)性能也(ye)會相應(ying)(ying)提升,從(cong)而有(you)(you)效地應(ying)(ying)對啟(qi)(qi)動(dong)(dong)風(feng)暴(bao)的(de)挑(tiao)戰。

四、訓練推理無法在單一數據中心完成,多云方式帶來一系列挑戰

之前(qian)我們討論了(le)單一數據(ju)(ju)中心(xin)內的(de)解決方案,然而(er),由(you)于諸多因素的(de)影響(xiang),如卡的(de)采購、資源租賃等,訓練和推理往往無法在單一數據(ju)(ju)中心(xin)完成。

因此,我們不得不采(cai)用多(duo)云的方式,但這也帶來了一(yi)系列挑戰。

對(dui)于大模(mo)型(xing)廠商而言,通常會將所(suo)有數據存放(fang)在(zai)(zai)一(yi)個(ge)稱為(wei)“Source of Truth”的(de)數據中心(xin)內,而訓練集(ji)群和推理(li)集(ji)群則分布在(zai)(zai)多(duo)個(ge)云上,它們(men)之間(jian)通過公(gong)網或專網連接。

訓(xun)練集群通(tong)常需(xu)要共享(xiang)數據,而不是為每個集群提(ti)供一份全量數據,這樣做成本(ben)高且(qie)管理復雜。推理集群也需(xu)要共享(xiang)模(mo)型數據,以(yi)便靈活擴展推理業務。由于邊緣(yuan)數據中心的(de)存儲(chu)容量有(you)限,我們(men)的(de)訓(xun)練集群和推理集群都需(xu)要按(an)需(xu)加載數據。

我們面臨兩個主要特點:共享和按需。在(zai)這(zhe)種(zhong)情況(kuang)下,通常(chang)會有一個中(zhong)(zhong)心的“Source of Truth”數(shu)(shu)據(ju)湖(hu)提供對象存儲訪問(wen)。當我們(men)在(zai)邊緣數(shu)(shu)據(ju)中(zhong)(zhong)心進行訓練時,需要通過數(shu)(shu)據(ju)編排的方式將(jiang)數(shu)(shu)據(ju)集(ji)(ji)按需加(jia)載到數(shu)(shu)據(ju)中(zhong)(zhong)心。當訓練產生(sheng)模(mo)(mo)型(xing)(xing)數(shu)(shu)據(ju)或(huo)結(jie)束(shu)后,我們(men)可(ke)以將(jiang)模(mo)(mo)型(xing)(xing)數(shu)(shu)據(ju)導出到數(shu)(shu)據(ju)湖(hu)中(zhong)(zhong),而其他推理集(ji)(ji)群(qun)可(ke)以根據(ju)需要訂閱(yue)并拉(la)取這(zhe)些(xie)模(mo)(mo)型(xing)(xing)數(shu)(shu)據(ju)到各(ge)自的集(ji)(ji)群(qun)中(zhong)(zhong)。

整個架構的基本思路就是這樣,所有邊緣數據中心都能與數據湖進行連接,數據的流轉通過數據編排的方式按需拉取或導回到數據湖中

實現數據的靈活流轉,需要具備相應的功能支持。其中,數據加載功能可以讓數據在各個平臺之間靈活地流動;Dataload功能可以與主流的調度平臺對接起來進行數據編排,對接標準的S3,如公有云的OSS、COS、BOS以及開源的對象存儲,如Ceph、Minio等。Dataload功能能夠關(guan)聯(lian)對象(xiang)和文件,將對象(xiang)bucket或者(zhe)Prefix與文件路徑關(guan)聯(lian)起來,并(bing)支持多次導入導出;通過(guo)API方式,可以按需進行數(shu)據流(liu)轉。

焱融科技張文濤:將大模型訓練效率提升40%!詳解多云架構下高效存儲策略丨GenAICon 2024

為了方便管理員管理,我們提供了查看導入導出進度和歷史記錄的(de)功(gong)能。這些功(gong)能不(bu)會影(ying)響(xiang)業(ye)務對數據的(de)訪(fang)問,業(ye)務仍(reng)然(ran)可以通過標準的(de)NFS、SMB、POSIX、S3等接口進行訪(fang)問。

當數(shu)(shu)(shu)據(ju)發生(sheng)變(bian)化(hua)(hua)時,例(li)如A集(ji)群(qun)(qun)的數(shu)(shu)(shu)據(ju)推送到Source of Truth的數(shu)(shu)(shu)據(ju)湖(hu)中,其他集(ji)群(qun)(qun)可以(yi)通過(guo)訂閱方式(shi)實(shi)時感(gan)知這些數(shu)(shu)(shu)據(ju)的變(bian)化(hua)(hua)。這樣,我(wo)們(men)可以(yi)通過(guo)API制定策略,選(xuan)擇是否要更新本(ben)地數(shu)(shu)(shu)據(ju)。同時,我(wo)們(men)還適配了Fluid對數(shu)(shu)(shu)據(ju)集(ji)進行(xing)編排,使用(yong)戶的訪問更加靈(ling)活。

以上是張文濤演講內容的完整整理。