智東西(公眾號:zhidxcom
作者 | 香草
編輯 | 李水青

智東西4月8日報道,今日,騰訊云宣(xuan)布(bu)云存儲(chu)解(jie)決(jue)方案面向AIGC(生成式AI)場景全面升(sheng)級,針對AI大模型(xing)數(shu)(shu)據(ju)采(cai)集清洗、訓練、推理、數(shu)(shu)據(ju)治理全流(liu)程,提供全面高效的(de)云存儲(chu)支持。數(shu)(shu)據(ju)顯(xian)示,采(cai)用騰訊云AIGC云存儲(chu)解(jie)決(jue)方案,可(ke)將大模型(xing)的(de)數(shu)(shu)據(ju)清洗和訓練效率均提升(sheng)一(yi)倍,需要(yao)的(de)時間縮(suo)短一(yi)半。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲騰訊云存儲AIGC解決方案升級

據騰訊(xun)云存(cun)(cun)(cun)(cun)儲(chu)總經理馬文霜介紹,騰訊(xun)云AIGC云存(cun)(cun)(cun)(cun)儲(chu)解決(jue)方(fang)案主要由對象(xiang)存(cun)(cun)(cun)(cun)儲(chu)COS、高性能并行文件存(cun)(cun)(cun)(cun)儲(chu)CFS Turbo、數據加(jia)速器GooseFS和數據萬象(xiang)CI等(deng)產(chan)品組成,是國內首個實(shi)現存(cun)(cun)(cun)(cun)儲(chu)引擎全面自研(yan)的(de)云存(cun)(cun)(cun)(cun)儲(chu)解決(jue)方(fang)案。目(mu)前,已經有80%的(de)頭部大模型企業選擇了騰訊(xun)云AIGC云存(cun)(cun)(cun)(cun)儲(chu)解決(jue)方(fang)案,包括(kuo)百川智能、智譜AI、元(yuan)象(xiang)等(deng)。

此(ci)前,騰訊云已經(jing)面向AIGC場景推出了基于星(xing)脈(mo)網絡(luo)的大模(mo)型訓練集群HCC、向量數(shu)據庫、以及行業大模(mo)型服務MaaS等大模(mo)型全鏈路云服務。馬文霜強調,本次(ci)存儲(chu)方案“升級不加價”,價格方面沒有(you)任(ren)何(he)變化。

一、實現秒級Checkpoint寫入,端到端一條龍服務

大(da)模(mo)型(xing)的研發生產流程,分(fen)為數(shu)據采集與清洗、模(mo)型(xing)訓練、推理三大(da)環(huan)節(jie),其中每個環(huan)節(jie)都涉及海量(liang)的數(shu)據處(chu)理。尤其是目前大(da)模(mo)型(xing)的參數(shu)量(liang)越“卷”越大(da),從十億、百億一直到(dao)萬億級(ji),這對云(yun)基礎(chu)設(she)施(shi)提出了新要求。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲大模型對云基礎(chu)設施提出新要(yao)求

對此,騰訊云(yun)從每個環節分(fen)別入手,面(mian)向AIGC場景(jing)推出覆蓋全鏈路的(de)端到(dao)端解決方案升級(ji),實(shi)現了低延時、高OPS(每秒操作數)。

在數(shu)據(ju)(ju)采集(ji)環節,騰(teng)訊云COS(對象存儲(chu))支持單集(ji)群(qun)管(guan)理百(bai)EB級(ji)別存儲(chu)規模,提供便捷、高效的數(shu)據(ju)(ju)公網接入能力,并支持多種協議,充分(fen)支持大模型PB級(ji)別的海量數(shu)據(ju)(ju)采集(ji)。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲騰訊(xun)云全自研(yan)對象(xiang)存儲引擎

同時,隨著訓(xun)練數(shu)據(ju)和推理數(shu)據(ju)的(de)(de)增長,需要低成(cheng)本的(de)(de)存儲(chu)(chu)能(neng)力以減少(shao)存儲(chu)(chu)開銷(xiao)。對象(xiang)存儲(chu)(chu)服務提供了(le)12個9的(de)(de)數(shu)據(ju)持久性和99.995%的(de)(de)數(shu)據(ju)可(ke)用(yong)性,能(neng)夠為(wei)業務提供持續可(ke)用(yong)的(de)(de)存儲(chu)(chu)服務。

在數據清洗(xi)環節,大數據引擎(qing)需要快速地讀(du)取并過濾出有效數據,COS通過自研數據加速器GooseFS提升數據訪問(wen)性能,可實(shi)現高達數TBps的讀(du)取帶寬,單(dan)次清洗(xi)任務耗時減少一半(ban),單(dan)個文件(jian)讀(du)取速度提升10倍。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲騰(teng)訊(xun)云自(zi)研數據加速服(fu)務

在模(mo)型訓(xun)(xun)練環節(jie),由于大模(mo)型訓(xun)(xun)練時(shi)間一(yi)般長達(da)數周甚至(zhi)數月,在這期間,任何GPU出(chu)現故障(zhang)都會導致訓(xun)(xun)練終止,通常需要每2-4小時(shi)保存(cun)一(yi)次訓(xun)(xun)練成(cheng)果,以便能(neng)在GPU故障(zhang)時(shi)時(shi)能(neng)回滾。因此,快(kuai)速讀寫(xie)Checkpoint(檢查點)文件也(ye)成(cheng)了能(neng)否高效利(li)用(yong)算力資源(yuan)、提高訓(xun)(xun)練效率的關鍵。

騰訊云自主研(yan)發并行文件存儲(chu)CFS Turbo,面向AIGC訓練場景的(de)(de)進行了(le)專門優化,每(mei)秒(miao)(miao)總(zong)讀(du)寫吞吐達到TiB/s級別,每(mei)秒(miao)(miao)元數據性能高達百萬OPS,均為業界第一(yi)。面向3TB規模的(de)(de)Checkpoint,寫入時間(jian)從10分鐘縮短至10秒(miao)(miao)內(nei),樣本讀(du)取(qu)效率也提升50%。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲騰訊(xun)云自研(yan)并(bing)行文件(jian)存儲(chu)CFS Turbo

這一(yi)能(neng)力的(de)背(bei)后,是騰訊(xun)云自研的(de)文件存(cun)儲引擎Histor,這也是業(ye)內(nei)唯一(yi)云原生(sheng)自研并行文件存(cun)儲引擎,其單客(ke)戶端能(neng)力達10GiB/s,支持百萬計(ji)OPS、千(qian)億級文件擴(kuo)展。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲騰訊云自研文件(jian)存儲(chu)引擎Histor

在(zai)數(shu)據(ju)審核(he)階段,大(da)模型推理場(chang)景對(dui)數(shu)據(ju)安全與可追溯(su)性提(ti)出更高要求。騰訊云一站式內容(rong)智理平臺數(shu)據(ju)萬(wan)象CI推出圖片隱式水印、AIGC內容(rong)審核(he)、智能數(shu)據(ju)檢索(suo)MetaInsight等(deng)功能,為(wei)數(shu)據(ju)生產業務全流程(cheng)提(ti)供有力支撐。

其中,明暗水印(yin)為每(mei)個AI作品(pin)生成專(zhuan)屬ID,MetaInsight支持(chi)跨模態檢索,可(ke)文搜(sou)圖、文搜(sou)視(shi)頻、圖搜(sou)視(shi)頻等,內容審核延時降低50%,支持(chi)全媒體(ti)類型。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲騰訊云一站式內容智理平臺(tai)數據(ju)萬象

馬文霜透露,目前國內80%的頭部大(da)模型企業都在用騰訊云存儲服務,包括百(bai)川智能、智譜AI、元(yuan)象、右腦科技(ji)等(deng)。

騰訊云(yun)智能(neng)(neng)存儲(chu)產品(pin)總監葉嘉(jia)梁為我們演示了(le)MetaInsight的智能(neng)(neng)檢索功能(neng)(neng),如輸(shu)入一張紅(hong)裙舞者照片,右邊(bian)可以在對(dui)象存儲(chu)直接找到(dao)對(dui)應的圖片。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲MetaInsight智能檢(jian)索(suo)

通過自然語言(yan)輸入,MetaInsight同樣(yang)能在(zai)對(dui)象存儲空間中輸出符(fu)合描述的圖片。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲MetaInsight智能檢索

二、存儲引擎全面自研,四大核心技術實現高性能文件讀寫

騰訊云(yun)文件存(cun)儲(chu)總監陸志剛(gang)解讀了并(bing)行(xing)文件存(cun)儲(chu)CFS Turbo的(de)技術(shu)升級(ji)。據稱,這是(shi)國內目前唯一實現(xian)存(cun)儲(chu)引(yin)擎全面自研的(de)云(yun)存(cun)儲(chu)解決方案(an)。

CFS Turbo擁有(you)四(si)大核心技術(shu),分別是并行(xing)客戶端、智(zhi)能(neng)緩存技術(shu)、自適應(ying)條帶(dai)化以(yi)及(ji)分布式元數(shu)據。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲AIGC時代下(xia)的(de)文件存儲技(ji)術要素

并行客戶端支持一個客戶端同(tong)時和多個服務端通過多條(tiao)鏈路傳(chuan)輸,提(ti)升訪問速率。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲CFS Turbo總體架構

智能緩存(cun)技術(shu)在(zai)客戶(hu)端和服務(wu)端兩級采用分布式緩存(cun),元數(shu)(shu)據(ju)和數(shu)(shu)據(ju)之間采用獨立緩存(cun)機制,讀(du)寫(xie)操作可分別配置,讀(du)緩存(cun)加速重復(fu)數(shu)(shu)據(ju)的(de)(de)讀(du)取,寫(xie)緩存(cun)提升Checkpoint的(de)(de)保存(cun)速度。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲分布式緩存

自適應條(tiao)帶化通過智能分片,把大文件切割(ge)成小(xiao)文件同時(shi)并發(fa)寫入,提升吞(tun)吐(tu),單(dan)(dan)文件讀(du)寫吞(tun)吐(tu)可(ke)達5GB/s,集群讀(du)寫吞(tun)吐(tu)線(xian)性(xing)增長,1PB容量規模可(ke)達1TB/s讀(du)寫吞(tun)吐(tu),單(dan)(dan)客(ke)戶端文件讀(du)寫性(xing)能達10GB/s。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲文件動態條帶化

分(fen)布(bu)式元(yuan)數據(ju)對(dui)上(shang)億(yi)級(ji)別文件目(mu)錄(lu)分(fen)散處理,提升并發(fa)性(xing)能。傳統(tong)元(yuan)數據(ju)服務器是(shi)樹(shu)型,受單點制(zhi)約,而業(ye)內普遍的解決方式是(shi)采(cai)用(yong)聯(lian)邦式,但(dan)仍需要提前規劃(hua)文件和目(mu)錄(lu)分(fen)配。CFS Turbo采(cai)取的分(fen)布(bu)式,能使元(yuan)數據(ju)性(xing)能線性(xing)擴展(zhan)至十多倍,文件和目(mu)錄(lu)自動(dong)均衡分(fen)配。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲分布式元數據

在這些技(ji)術的(de)支(zhi)撐下(xia),騰(teng)訊云CFS Turbo能(neng)提供業(ye)界第一的(de)TiB/s級別(bie)總讀(du)寫(xie)吞吐(tu)和百萬OPS的(de)每秒(miao)元數(shu)據性能(neng),解決訓練文件讀(du)寫(xie)瓶(ping)頸(jing)。以3TB大小(xiao)的(de)Checkpoint為例,寫(xie)入能(neng)從10分鐘瞬間(jian)縮短至(zhi)10秒(miao)內。在GPU發生(sheng)故障時,能(neng)大幅降(jiang)低(di)對訓練時長的(de)影響。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲Checkpoint寫入效果

此外在數(shu)據推理階段(duan),CFS Turbo可實現字節粒(li)度強一(yi)致,在模型(xing)(xing)發(fa)布(bu)或修(xiu)改(gai)時,多客戶端可同時讀(du)寫同意模型(xing)(xing)文件,保證數(shu)據一(yi)致性。

升級不加價!騰訊云存儲面向AIGC全線升級,已服務80%頭部大模型企業

▲字節粒度強一致

基于自(zi)(zi)研分布式高性(xing)(xing)能(neng)存儲引(yin)擎Histor,CFS Turbo底層(ceng)通過自(zi)(zi)研用戶態協(xie)議(yi)棧和RDMA等技(ji)術,減少數據的多(duo)次拷貝與虛擬化(hua)消耗,大幅降低了(le)存儲時延、提升吞吐性(xing)(xing)能(neng);在應用側,CFS Turbo自(zi)(zi)研并行文件傳輸(shu)協(xie)議(yi),實(shi)現了(le)多(duo)鏈(lian)路并行訪問,大大提升了(le)吞吐效率。

除了(le)大模型(xing)企業(ye)以外,CFS Turbo也(ye)被廣(guang)泛(fan)應(ying)用于自(zi)動(dong)駕駛(shi)與工業(ye)仿真場景,包括博世(shi)汽車、蔚來(lai)等自(zi)動(dong)駕駛(shi)廠商,上海電氣(qi)、深勢等廠商的仿真場景,墨鏡天合、追光等企業(ye)的影視(shi)特效(xiao)場景。

結語:大模型倒逼云存儲升級,騰訊云樹立新標桿

今年1月,在沙利文聯合頭豹研究院發布的(de)(de)(de)《2023年中(zhong)國云存(cun)儲(chu)(chu)解決方案市場(chang)(chang)報告》中(zhong),騰訊(xun)云存(cun)儲(chu)(chu)入選“領(ling)導(dao)者(zhe)”陣營,位(wei)列第一。隨(sui)著大(da)模(mo)型時代來臨,AIGC場(chang)(chang)景對數據(ju)存(cun)儲(chu)(chu)和處理的(de)(de)(de)需求日益(yi)增長,騰訊(xun)云憑借(jie)其在云計算(suan)領(ling)域的(de)(de)(de)深厚積累,推出(chu)了全面升級的(de)(de)(de)AIGC云存(cun)儲(chu)(chu)解決方案,為AI大(da)模(mo)型提供更加高效、全面的(de)(de)(de)云存(cun)儲(chu)(chu)支持。

在(zai)(zai)數(shu)據采集(ji)、清洗(xi)、訓練、推理、數(shu)據治理等全流程中,騰訊(xun)云(yun)的(de)(de)AIGC云(yun)存(cun)儲解決方案展(zhan)現出(chu)了卓越的(de)(de)性(xing)能。通過自研的(de)(de)核(he)心技術和(he)產(chan)品,騰訊(xun)云(yun)不僅(jin)在(zai)(zai)性(xing)能上(shang)實現了質的(de)(de)飛(fei)躍,更在(zai)(zai)價格(ge)上(shang)保持了親(qin)民,成為眾多頭部(bu)大模型(xing)企(qi)業(ye)的(de)(de)首(shou)選(xuan)。