智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影

大模型正引發一波新的AI算力荒,從此(ci)前(qian)的芯片緊(jin)缺,上升為AI算力集群級的饑渴(ke)癥(zheng)。

根據產業(ye)鏈消息,參(can)數(shu)可能僅30億(yi)的(de)Sora用(yong)4200-10500塊H100訓練了1個月;最新出(chu)爐(lu)的(de)Llama 3 8B和70B的(de)訓練需(xu)要24000多塊H100組成的(de)集(ji)群;據稱有1.8萬億(yi)參(can)數(shu)的(de)GPT-4是(shi)在10000-25000張A100上完(wan)成了訓練……

OpenAI、Meta等都在用數千卡、甚至萬卡串(chuan)聯(lian),滿(man)足不(bu)斷攀升的大模型(xing)訓練需求,也給了(le)我國(guo)大模型(xing)企業一本可參考的算(suan)力賬(zhang)。

然而,多位GPU算力集群業內人士告訴智東西,當下我國智能算力處于嚴重的供不應求狀態。在GPU全球稀缺背景下,單卡性能已相對沒那么重要,通過集群互聯實現整體算力的最大化,成為解決AI算力荒的必要(yao)路徑。

政策也已經緊鑼密鼓地下發。4月24日,北京市經濟和信息化局、北京市通信管理局印發《北京市算力基礎設施建設實施方案(2024—2027年)》,方案提出,規劃建設支撐萬億級參數大模型訓練需求的超大規模智算集群,并對采購自主可控GPU芯片開展(zhan)智(zhi)能算力服務的企業(ye)予以支持。

產業這邊的動作也沒有落后。國內的頭部算力廠商都已加速布局大規模智算集群,比如云服務巨頭華為云打造了貴安、烏蘭察布、蕪湖3大AI云算力中心,頭部AI芯片公司摩爾線程過去四個月也已在南京、北京亦莊和北京密云完成3座全國產千卡智算中心的落地,助國產(chan)大模型(xing)產(chan)業(ye)發展提速。

大模型產(chan)業發展對(dui)智(zhi)算中心提出什么(me)新要求?國內(nei)大規模智(zhi)算中心建(jian)設的真實(shi)情況如何?如何讓拔地(di)而起(qi)的千卡甚至萬卡集群實(shi)現從“建(jian)起(qi)來”到(dao)“用起(qi)來”的跨越?本文試圖(tu)從摩爾線(xian)程(cheng)等公(gong)司(si)的實(shi)踐,對(dui)這(zhe)些問題進行探討。

一、從Sora到Llama 3,千卡集群成百模大戰標配

自(zi)2024年Sora、Claude 3、Llama 3等爆火模(mo)(mo)型(xing)推出以(yi)來,大模(mo)(mo)型(xing)的智能(neng)涌(yong)現態勢不減(jian)反增(zeng),推動國內大模(mo)(mo)型(xing)廠家加速追趕,對AI算力的需求也持續升級。

國產大模型玩家無論是要持續攀登Scaling Law(規模定律)高峰,還是走行業大模型的捷徑,都迫切需要更大規模算力;同時大模型向多模態方向發展,需要處理包括文本、圖像、聲音等多種類型的數據,亟需全功能的GPU;而行業大模型甚至需要算力廠商充當起“全棧式生態服務平臺”角色,服務大模型落地的“最后一公里”

在這些多樣化新需求驅動下,將芯片系統組合起來的新型千卡智算中心,成為滿足大模型產業落地的重要抓手,也成為大國AI較量的標配新基建

產業先鋒已經紛紛展開行動,國內頭部AI芯片公司摩爾線程在過去四個月里加速布局了三座千卡算力集群,通過自家夸娥(KUAE)智算中心解決方案為大(da)模型打造智算底座,開箱即用,助大(da)模型企業解決(jue)大(da)規模GPU算力(li)的(de)建設和運營管理問題。

基于夸娥打造的智算中心已經初見落地成效。目前,摩爾線程支持包括Llama、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各類主流大模型的訓練和微調。基于摩爾線程夸娥千卡集群,70B到130B參數的大模型訓練,線性加速比均可達到91%,算力(li)利(li)用率(lv)基本保持不(bu)變(bian)。

以2000億訓練數據量為例,智源研究院700億參(can)數Aquila2可在(zai)(zai)33天(tian)完(wan)成訓(xun)練(lian);1300億參(can)數規(gui)模(mo)的模(mo)型可在(zai)(zai)56天(tian)完(wan)成訓(xun)練(lian)。此(ci)外(wai),摩(mo)爾線程夸娥(e)千卡集群(qun)支持(chi)長時(shi)間連(lian)續穩定運行,支持(chi)斷點續訓(xun),異步Checkpoint少于(yu)2分鐘。

從傳統的“重硬輕軟”走向“軟硬一體化”,成為這批新智算集群的普遍特點。摩爾線程夸娥就是一個軟硬一體化的全棧解決方案,包括基礎設施集群管理平臺模型服務,據(ju)稱可全方位降低傳(chuan)統(tong)算力建(jian)設、應用開(kai)發和運(yun)維運(yun)營平臺(tai)搭建(jian)的時間成本。

百模大戰引爆「千卡集群競賽」,“中國英偉達”交卷了

▲夸娥(KUAE)智算中心(xin)解決(jue)方案架(jia)構

基礎設施:包(bao)含(han)夸娥(e)計算集(ji)群(qun)(qun)、RDMA網絡與分布式存儲。摩爾(er)線程(cheng)夸娥(e)千卡(ka)模(mo)(mo)型訓練(lian)平臺,建設周期只需30天,支(zhi)持千億參數(shu)模(mo)(mo)型的(de)預訓練(lian)、微調和(he)推理,可實現高達91%的(de)千卡(ka)集(ji)群(qun)(qun)性能(neng)擴(kuo)展系(xi)數(shu)。基(ji)于MTT S4000和(he)雙路8卡(ka)GPU服務器MCCX D800,摩爾(er)線程(cheng)夸娥(e)集(ji)群(qun)(qun)支(zhi)持從(cong)單機(ji)多(duo)卡(ka)到(dao)多(duo)機(ji)多(duo)卡(ka),從(cong)單卡(ka)到(dao)千卡(ka)集(ji)群(qun)(qun)的(de)無(wu)縫擴(kuo)展,未來將推出(chu)更(geng)大規(gui)模(mo)(mo)的(de)集(ji)群(qun)(qun),以滿足更(geng)大規(gui)模(mo)(mo)的(de)大模(mo)(mo)型訓練(lian)需求。

KUAE Platform集群管理平臺:用于(yu)AI大模(mo)型(xing)訓(xun)練(lian)、分布(bu)式圖形(xing)渲染、流媒體處理和科學計算的軟(ruan)硬件一體化平(ping)臺,深(shen)度集(ji)成(cheng)全功能GPU計算、網絡和存(cun)儲,提供高(gao)可(ke)靠、高(gao)算力(li)服務(wu)。通過該平(ping)臺,用戶可(ke)靈(ling)活管理多(duo)(duo)數據(ju)中(zhong)心、多(duo)(duo)集(ji)群(qun)算力(li)資(zi)源,集(ji)成(cheng)多(duo)(duo)維度運維監控、告警和日志系統(tong),幫(bang)助智算中(zhong)心實現運維自動化。

KUAE ModelStudio模型服務:覆蓋大(da)(da)模(mo)(mo)(mo)型(xing)(xing)預(yu)訓練、微調和推理全流程(cheng),支持所有主流開(kai)源大(da)(da)模(mo)(mo)(mo)型(xing)(xing)。通(tong)過(guo)摩爾線程(cheng)MUSIFY開(kai)發工具(ju),可以輕松復(fu)用(yong)CUDA應用(yong)生態,內置的(de)容器化(hua)解(jie)決方案(an),則可實現(xian)API一鍵部署。該平臺(tai)意在提供大(da)(da)模(mo)(mo)(mo)型(xing)(xing)生命周期管理,通(tong)過(guo)簡潔、易操作的(de)交互界面,用(yong)戶可按(an)需(xu)組織工作流,大(da)(da)幅(fu)降低大(da)(da)模(mo)(mo)(mo)型(xing)(xing)的(de)使用(yong)門(men)檻(jian)。

百模大戰引爆「千卡集群競賽」,“中國英偉達”交卷了

▲夸(kua)娥(KUAE)智(zhi)算中心解決方(fang)案支持端到端一(yi)體化交付

二、從“建起來”到“用起來”,夸娥突破4道難關

過去一年,我國千P級智算中心的智算基建布局集中爆發,根據工信部發布數據,截至2023年10月我國算力規模超300EFLOPS,智(zhi)能算(suan)力占比高達35%。然而,國(guo)內的千卡智(zhi)算(suan)中心仍處于(yu)發展初期,面臨嚴(yan)峻挑(tiao)戰(zhan)。

多位智算業內人士告訴智東西,我國智算中心建設既面臨算力供應鏈問題,同時大規模內網互聯、存儲高速吞吐、模型優化服務、平臺生態服務等技術因素也造成智算平臺建設的技術瓶頸

摩爾線程相關負責人談道,集群建設是一個系統性復雜工程,從GPU顯卡到服務器,最后把(ba)它組成集群,這里面包括了硬件的網絡(luo)、存儲、軟件,再到大模(mo)型調度,是一(yi)個(ge)全棧式的工程,要(yao)真正把(ba)它做好(hao),需要(yao)一(yi)個(ge)端到端的交鑰匙方案(an)。

從客戶角度來講,他們對千卡集群的算力利用率、穩定性、可擴展性兼容性的(de)需求最(zui)為突出。這也成為千卡集群建(jian)設要邁過的(de)四道難(nan)關,摩爾線程為此做足了準備(bei)。

1、軟硬協同,算力利用率提升超50%

算力(li)利用率(lv)(MFU)是衡量智算中(zhong)心(xin)能力(li)的(de)一個核心(xin)指(zhi)標。即便是OpenAI在早期也(ye)面臨MFU瓶頸(jing),根據公開資(zi)料,其MFU在GPT-3訓(xun)練階段僅為21.3%,近79%的(de)算力(li)都被浪(lang)費了(le)。

摩爾線(xian)程采用(yong)軟硬(ying)協同設(she)計、端到端的并(bing)行策略,使(shi)得(de)綜合(he)調優下算(suan)力利(li)用(yong)率(MFU)提升幅度超過(guo)50%。夸娥(e)通(tong)過(guo)集(ji)群(qun)通(tong)訊庫算(suan)法(fa)、網絡拓(tuo)撲、硬(ying)件規格合(he)理設(she)計和配(pei)置,優化集(ji)群(qun)匹配(pei)度;技術上,夸娥(e)集(ji)群(qun)通(tong)訊算(suan)法(fa)網絡拓(tuo)撲綜合(he)利(li)用(yong)了MTLink和PCIe,使(shi)得(de)通(tong)訊性能(neng)提升一倍。

2、從芯片出廠開始,保證穩定可靠性

對于分布式訓練而(er)言(yan),一(yi)張卡(ka)(ka)壞(huai)了,整(zheng)個(ge)訓練都會停掉。對于一(yi)個(ge)大規模(mo)集(ji)群來說,例如千(qian)卡(ka)(ka)甚至更(geng)大的(de)集(ji)群,卡(ka)(ka)壞(huai)的(de)概率(lv)會更(geng)高。所以,在做(zuo)千(qian)卡(ka)(ka)集(ji)群或者更(geng)大規模(mo)集(ji)群時(shi),它對整(zheng)個(ge)集(ji)群的(de)可靠性要(yao)求會更(geng)高。

摩爾線程從卡的出廠開(kai)始(shi)保證算力(li)質量,做了很多嚴(yan)格的測(ce)試(shi);開(kai)發(fa)了集(ji)群系(xi)統監(jian)控(kong)和(he)診斷(duan)工具,幫(bang)助篩選(xuan)和(he)快速(su)(su)定位(wei)到(dao)有問題的卡和(he)服務器,可以自動恢復(fu)和(he)硬件替換;做了checkpoint加速(su)(su),寫的時(shi)間(jian)從10分(fen)(fen)鐘降到(dao)秒級,讀的速(su)(su)度從40分(fen)(fen)鐘降到(dao)2分(fen)(fen)鐘;判斷(duan)訓練異(yi)常(chang),系(xi)統自動重(zhong)新拉起。

3、提高可擴展性,線性加速比達91%

算力集群規模達到千卡,更是(shi)一(yi)個可擴展性(xing)的(de)挑戰。夸(kua)娥支持(chi)包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在(zai)內的(de)業界主(zhu)流分布式框架(jia),并融合了多種(zhong)并行算法策略(lve),包括數據并行、張量并行、流水線并行和(he)ZeRO,且針(zhen)對高效(xiao)通信計(ji)算并行和(he)Flash Attention做了額外優化(hua)。

同時(shi),夸(kua)娥(e)結合了摩爾線程顯卡硬件(jian)(jian)能力,以(yi)軟(ruan)硬一(yi)體(ti)的方式(shi),做了系統級優(you)化,包括(kuo)從硬件(jian)(jian)、軟(ruan)件(jian)(jian)再到集群,外加云的全棧,不是單點突破(po),是一(yi)種全局綜合方案(an),從而使(shi)得線性加速(su)比達到91%。

4、零成本CUDA代碼移植,兼容多個主流大模型

基(ji)于摩(mo)爾線程代碼移(yi)植Musify工具(ju),可快速將現有的(de)主流遷(qian)移(yi)至(zhi)MUSA,零(ling)成(cheng)本(ben)完成(cheng)CUDA代碼自動移(yi)植,之后用戶(hu)短時間內即可完成(cheng)熱點分(fen)析(xi)和針對性優化,大大縮短遷(qian)移(yi)優化的(de)周期。此外(wai),借助(zhu)摩(mo)爾線程元計算(suan)統(tong)一系統(tong)架構MUSA,用戶(hu)可以復用PyTorch開(kai)源(yuan)社區的(de)大量模(mo)型(xing)算(suan)子,降低開(kai)發(fa)成(cheng)本(ben)。

與此同(tong)時,摩爾線程開源的(de)MT Pytorch可(ke)以(yi)支持多(duo)種模(mo)(mo)型(xing)(xing)(xing)的(de)推(tui)理,覆蓋CV、NLP、語音等多(duo)個領域(yu),能夠運行典型(xing)(xing)(xing)的(de)大(da)模(mo)(mo)型(xing)(xing)(xing)分布(bu)式(shi)多(duo)卡推(tui)理,也(ye)可(ke)以(yi)支持單(dan)機多(duo)卡與多(duo)機多(duo)卡的(de)分布(bu)式(shi)訓練。利(li)用數據并行、模(mo)(mo)型(xing)(xing)(xing)并行以(yi)及ZERO等分布(bu)式(shi)訓練技術,MT PyTorch還(huan)可(ke)以(yi)完成簡(jian)單(dan)基礎模(mo)(mo)型(xing)(xing)(xing)以(yi)及典型(xing)(xing)(xing)Transformer結構的(de)NLP語言模(mo)(mo)型(xing)(xing)(xing)的(de)訓練。

百模大戰引爆「千卡集群競賽」,“中國英偉達”交卷了

▲夸娥(KUAE)智算(suan)中心解(jie)決方案八大(da)優勢(shi)

總的來說,傳統的計算模式在大模型時代面臨著多重難點,只有長期投入并加強架構創新、軟硬結合、場景結合、兼容協同等舉措,才能夠讓(rang)智算集群完成從“建(jian)起來”到“用起來”的(de)跨(kua)越。

三、國產大模型的超車時刻,“中國英偉達”交卷

打破英偉達對AI的壟斷,國內外玩家都進入了一個“交卷”時刻。

在(zai)國外,我們看到亞馬遜、微軟、谷歌都(dou)已推(tui)出了面(mian)向大模型的AI定制芯片,對英偉(wei)達(da)芯片進行(xing)部(bu)分替代,從而(er)保證自家大模型持續可迭(die)代和落地。

在國內(nei),華為、摩爾線程(cheng)、寒(han)武紀(ji)、海光等頭部(bu)AI芯(xin)(xin)片(pian)廠(chang)商(shang),軟硬(ying)件生(sheng)態也已初具規模(mo)(mo),技術架構自成一體(ti),且(qie)已擁(yong)有集(ji)群能(neng)力(li)和(he)落(luo)地場景(jing);同時多家AI芯(xin)(xin)片(pian)創企也在推(tui)動產品落(luo)地和(he)量產,搶占大模(mo)(mo)型(xing)市(shi)場。

在(zai)備受關注的國產(chan)GPU領域,摩爾線(xian)(xian)程(cheng)(cheng)作(zuo)為(wei)“中國英偉達”的主力選手,也(ye)已經(jing)打(da)造了全(quan)棧AI方(fang)面的護城河。以全(quan)功(gong)能GPU為(wei)算(suan)力底(di)座,摩爾線(xian)(xian)程(cheng)(cheng)夸娥提(ti)供從卡(ka)(ka)(MTT S4000)、服務器(MCCX D800)到千卡(ka)(ka)集群(qun)(K1、K2、K3)的完整智算(suan)產(chan)品(pin)組合,通過軟硬一體化(hua)的服務,將成為(wei)大(da)模(mo)型(xing)企業的最佳選擇之一。

近日,摩爾線程正與無問芯穹聯合推進基于夸娥千卡集群的“MT-infini-3B”合作大模型實訓,目前性能已在同規模模型中躋身前列。無問芯穹聯合創始人兼CEO夏立雪表示:“經無問芯穹Infini-AI平臺實訓與聯合優化工作驗證,摩爾線程夸娥千卡智算集群在精度、性能、易用性和算力利用率上均有優異表現,且在實訓中實現了長時間穩定訓練不中斷,已可以為千億參數級別大模型訓練提供持續高效的高性能算力支持。之后我們會(hui)把這一合作(zuo)模(mo)型(xing)在(zai)Infini-AI上(shang)開放(fang)給大家使用(yong)。”

隨著今年“AI+”首次被寫入兩會工作報告,AI算力成為新質生產力的重要引擎,國產大模型進入關鍵的超車時刻。業內人士告訴智東西,今年大模型會出現一個拐點,同時也(ye)是國產(chan)AI芯(xin)片的分水嶺(ling),強者越強,弱(ruo)者愈弱(ruo)。

摩爾線程(cheng)(cheng)自2022年起就成(cheng)(cheng)立云計算團隊,設(she)定了(le)(le)建(jian)設(she)千(qian)卡集(ji)群(qun)的大方向(xiang)。在(zai)當時A100等(deng)算力(li)緊張的背景下,摩爾線程(cheng)(cheng)作(zuo)為(wei)在(zai)功能上唯(wei)一(yi)對標英(ying)偉達(da)的國(guo)產(chan)GPU企業,在(zai)具備云的全棧能力(li)后,構建(jian)基于全功能GPU的國(guo)產(chan)千(qian)卡智(zhi)算集(ji)群(qun),成(cheng)(cheng)為(wei)了(le)(le)國(guo)內賽(sai)道“第一(yi)批吃(chi)螃(pang)蟹的人(ren)”。隨著大模型的爆發,摩爾線程(cheng)(cheng)夸娥智(zhi)算中心(xin)解決方案已經(jing)完成(cheng)(cheng)從0到1的建(jian)設(she),有望成(cheng)(cheng)為(wei)國(guo)產(chan)大模型發展(zhan)的重要引擎助力(li)。

結語:國產大模型跨越時,千卡集群打造加速度

從ChatGPT到Sora,大模型之(zhi)戰已經愈(yu)演(yan)愈(yu)烈,國產大模型迫切需要加速追趕跨甚(shen)至超越,這催(cui)生了市場對(dui)更大規模、更高性能的計(ji)算(suan)資(zi)源的迫切需求,也推動(dong)計(ji)算(suan)中心的架構及運(yun)營模式進行更新換代。

千(qian)卡集群、萬卡集群是滿足AI算力需求(qiu)的(de)抓手,這一理(li)念已(yi)逐(zhu)漸深(shen)入人心(xin)。然而這種大規模智算集群的(de)隱形(xing)壁(bi)壘越來越高(gao),要求(qiu)算力廠家(jia)在芯(xin)片(pian)、調(diao)優、通信及系統性開發(fa)和管理(li)等多方面下(xia)功夫(fu),從而真(zhen)正(zheng)跑出大模型(xing)產(chan)業發(fa)展(zhan)的(de)加速度。