
芯東西(公眾號:aichip001)
作者 | ZeR0
編輯 | 漠影
芯東(dong)西7月(yue)26日(ri)報道,在世界人工智能大會開幕前夕(xi),國內GPU企業(ye)摩爾線程重磅披露其(qi)完(wan)整AI技(ji)術布局。
面對生成式AI爆發下的大模型訓練效率瓶頸,摩爾線程正通過系統級工程創新,構建新一代AI訓練基礎設施,為AGI時代打造生產先進模型的“超級工廠”。
這座“AI工廠”的產能,由五大核心(xin)要素的公(gong)式(shi):
AI工廠生產效率 = 加速計算通用性 × 單芯片有效算力 × 單節點效率 × 集群效率 × 集群穩定性
摩爾線(xian)程創始人兼CEO張建中表示,摩爾線(xian)程是(shi)國內極(ji)少數原(yuan)生支(zhi)持FP8的GPU廠商,也是(shi)國內極(ji)少數具備FP8大模型(xing)訓練(lian)的平臺(tai)。
這座“AI工廠”不僅有高效的模型訓練,還具備極致的推理驗證能力。基(ji)于自研(yan)MUSA技術棧,摩(mo)爾線程(cheng)構建覆蓋大語言模型(xing)、視覺、生成(cheng)類模型(xing)的全流程(cheng)推理解決方案,打造實現“訓(xun)練-驗證-部署(shu)”的無縫銜接(jie)。
根據現場演示,其旗艦產品MTT S5000滿血跑DeepSeek R1模型推理,速度達到100 tokens/s,非常快,已經達到行業領先。
摩爾線程還重磅預熱:將于今年10月舉辦首屆MUSA開發者大會,邀全球開發者共建生態。
一、打造先進AI工廠,摩爾線程解密五大核心要素
前沿(yan)AI模型正以驚人的速度迭(die)代(dai),從GPT系(xi)列、Gemini到DeepSeek、Qwen的快(kuai)速更(geng)新(xin),模型訓練迭(die)代(dai)時間已縮(suo)短至不足3個月。豐富的模型,快(kuai)速的更(geng)新(xin),對新(xin)一代(dai)高性能AI計算基礎設施(shi)提(ti)出(chu)迫(po)切要求。
對此,摩(mo)爾(er)線程提出“AI工廠”,要實現從底層(ceng)芯片架構創新、集群整體架構的優化到軟件算法調優和資源調度系統的全面升級,以推(tui)動AI訓(xun)練從千(qian)卡(ka)級向(xiang)萬卡(ka)級乃至十萬卡(ka)級規模演進(jin)。
摩爾線(xian)程(cheng)以全功(gong)能GPU通(tong)用算(suan)力為(wei)基石,通(tong)過先進架構、芯片算(suan)力、單節點效(xiao)率、集群效(xiao)率優化、可(ke)靠(kao)性等(deng)協(xie)同(tong)躍(yue)升的(de)深度技術(shu)創新,旨(zhi)在將全功(gong)能GPU加速計算(suan)平臺的(de)強大潛(qian)能,轉化為(wei)工程(cheng)級的(de)訓(xun)練效(xiao)率與可(ke)靠(kao)性保障(zhang)。
1、全功能GPU,實現加速計算通用性
計算功能(neng)的完備性與精(jing)度完整性是支撐(cheng)多(duo)元場景(jing)的核心基石。
摩爾線程以自主(zhu)研發的(de)(de)全功(gong)能(neng)GPU為(wei)核(he)心(xin),構建了“功(gong)能(neng)完(wan)備”與“精(jing)度(du)完(wan)整”的(de)(de)通用性底座,全面覆蓋從AI訓(xun)練、推理到科學計(ji)算的(de)(de)全場景需(xu)求(qiu)。
(1)單芯片覆蓋多場景:基于MUSA架構(gou)的突(tu)破性設計(ji),GPU單芯片即(ji)可集(ji)成(cheng)AI計(ji)算加速(訓(xun)推(tui)一體)、圖形渲(xuan)染(2D+3D)、物理仿真和(he)科學計(ji)算、超(chao)高(gao)清視頻編解碼(ma)能力,充分(fen)適配(pei)AI訓(xun)推(tui)、具身智能、AIGC等多樣化應(ying)用(yong)場景。
(2)精度樹立行業標桿:支持從FP64至(zhi)INT8的完整精度譜系,原生支持FP8大模(mo)型訓練及推理,并通過FP8混合精度技術(shu),在主流前(qian)沿大模(mo)型訓練中實現20%~30%的性能躍(yue)升,為(wei)國產GPU的算(suan)力(li)效率樹(shu)立行業標桿。
(3)前瞻支持模型演進:技術體系不僅滿(man)足大模型(xing)(xing)時代(dai)的高效計算需求,更為世界模型(xing)(xing)和新興AI架構的演(yan)化提供前瞻性支撐。
2、自研MUSA架構,提升單芯片有效算力
摩爾(er)線(xian)程基于自研MUSA架(jia)構,通過計算、內存、通信(xin)三重突破,顯著提升(sheng)單GPU運(yun)算效(xiao)率。
(1)創新架構突破傳統限制:采用(yong)(yong)創新的全功能、多引擎、可配置、可伸縮GPU架構(gou),通(tong)(tong)過硬(ying)件(jian)資源池化及動態資源調(diao)度技術,構(gou)建了(le)全局共享的計(ji)算、內存與通(tong)(tong)信資源池,允許面(mian)向目標市場快速裁剪出優化的芯片配置,大幅降低了(le)新品(pin)芯片的開(kai)發成(cheng)本,在保障通(tong)(tong)用(yong)(yong)性(xing)的同時(shi)顯著提升了(le)資源利用(yong)(yong)率。
(2)計算性能顯著提升:AI加速系(xi)統(tong)(TCE/TME)全面支(zhi)持INT8/FP8/FP16/BF16/TF32等多種混合精(jing)(jing)度(du)(du)計算。其中FP8技術通過快速格(ge)式轉換、動態范(fan)圍智能適配、高精(jing)(jing)度(du)(du)累加器等創新設計,在保證(zheng)計算精(jing)(jing)度(du)(du)的同時,將Transformer計算性能提升(sheng)約(yue)30%。
(3)內存優化:通過(guo)多精度(du)近(jin)存規約引(yin)擎、低延(yan)遲Scale-Up、通算并(bing)行(xing)資(zi)源隔離等技術,內存系統實(shi)現了50%的帶寬節(jie)省和60%的延(yan)遲降(jiang)低,有效提升(sheng)數據(ju)傳輸能力。
(4)通信效率優化:獨創(chuang)的(de)ACE異步通信引擎減少了(le)(le)15%的(de)計算資源(yuan)損耗(hao);MTLink2.0互連技術提(ti)供了(le)(le)高出國內行業平均(jun)水平60%的(de)帶寬,為(wei)大規模集群部署奠定了(le)(le)堅實基礎。
3、MUSA全棧系統軟件,提升單節點計算效率
摩(mo)爾線程通過MUSA全棧系統(tong)軟件實現關鍵技(ji)術(shu)突破,推動(dong)AI工(gong)廠從單(dan)點(dian)創新轉向(xiang)系統(tong)級(ji)效能提升(sheng)。其核(he)心創新包括:
(1)任務調度優化:核函數啟動(Kernel Launch)時間縮短50%。
(2)極致性能算子庫:GEMM算子算力利(li)用率(lv)達98%,Flash Attention算子算力利(li)用率(lv)突(tu)破95%。
(3)通信效能提升:MCCL通(tong)信庫實現RDMA網絡97%帶寬利用率;基(ji)于異步通(tong)信引擎優化計算通(tong)信并行(xing),集(ji)群性能提(ti)升10%。
(4)低精度計算效率革新:FP8優(you)化(hua)與行業首創細粒(li)度重(zhong)計算技術,顯(xian)著降(jiang)低訓練開銷。
(5)開發生態完善:基于(yu)Triton-MUSA編譯器 + MUSA Graph實現(xian)DeepSeek-R1推理加速1.5倍,全面兼容Triton等(deng)主流框架。
4、自研KUAE計算集群,優化集群效率
單(dan)節點效率達(da)到新高(gao)度后,下一個(ge)挑戰是如(ru)何(he)實現大規模集(ji)群的高(gao)效協作。
摩爾(er)線程自(zi)研KUAE計(ji)算(suan)集群通過5D大規模分布式并行計(ji)算(suan)技術,實現上千節點(dian)的高效協作,推動(dong)AI基礎設(she)施(shi)從單(dan)點(dian)優化邁向(xiang)系統工(gong)程級突破(po)。
(1)創新5D并行訓練:整合數據、模型、張量、流水(shui)線和(he)專家(jia)并(bing)行技(ji)術,全面支持(chi)Transformer等(deng)主流架(jia)構,顯著提升大規模集群(qun)訓練效率。
(2)性能仿真與優化:自研Simumax工具(ju)面向(xiang)超大規模(mo)集(ji)群自動搜索最優并行策略,精(jing)準(zhun)模(mo)擬(ni)FP8混合精(jing)度訓(xun)(xun)練(lian)(lian)與算子(zi)融合,為DeepSeek等模(mo)型(xing)縮短訓(xun)(xun)練(lian)(lian)周期(qi)提(ti)供科學依據。
(3)秒級備份恢復:針對大(da)模型穩定性難題,創新(xin)CheckPoint加(jia)速方案利用RDMA技(ji)術,將百GB級(ji)備(bei)份恢復(fu)時間從數分鐘壓(ya)縮至1秒(miao),提升GPU有效算力利用率。
基(ji)于平(ping)(ping)湖架構(gou)KUAE2智算(suan)集群,無論千卡或更大規模(mo),在每個應用場景都能做到(dao)比國外主流(liu)產品更高的性能和(he)效率,達到(dao)行(xing)業領先水平(ping)(ping)。
5、零中斷容錯技術,提升集群的穩定性和可靠性
在構(gou)建高效集(ji)群的(de)基礎(chu)上,穩定可靠的(de)運(yun)行環境是“AI工廠(chang)”持續產出的(de)保障。特(te)別在萬卡級AI集(ji)群中,硬件故障導致的(de)訓練中斷會嚴重(zhong)浪費算力。
摩爾線程創新推出零中斷容錯技術,故(gu)障發生時(shi)(shi)僅隔離受影響節(jie)點組,其余(yu)節(jie)點繼續訓練(lian),備機無(wu)縫(feng)接入,全程無(wu)中斷。這一方案使KUAE集群有效(xiao)訓練(lian)時(shi)(shi)間(jian)占比(bi)超99%,大幅降(jiang)低(di)恢復開銷。
同(tong)時(shi),KUAE集(ji)群通過多(duo)維(wei)度訓(xun)(xun)練(lian)洞察體系實現動(dong)態監測與智能(neng)診斷(duan),異常處理效(xiao)率提升(sheng)50%,讓(rang)用戶(hu)看(kan)得(de)見和(he)管理得(de)到每一(yi)個訓(xun)(xun)練(lian)集(ji)群的(de)每一(yi)片GPU;結合集(ji)群巡檢與起飛檢查,訓(xun)(xun)練(lian)成功(gong)率提高10%,為大規模AI訓(xun)(xun)練(lian)提供穩定(ding)保障。

二、MUSA軟件棧如何助力KUAE集群?三大亮點技術詳解
摩爾(er)線(xian)程(cheng)GPU計算軟(ruan)件(jian)開發總監(jian)吳慶分享了MUSA軟(ruan)件(jian)棧的主要亮(liang)點技術。
1、MUSA驅動和運行時庫,KUAE集群堅實底座
推理場景對(dui)Kernel延時(shi)非常敏感。極致高(gao)效的MUSA驅動和運(yun)行時(shi)庫,具有高(gao)效率的任務調(diao)度能力,使用戶的Kernel launch開銷極致縮減。
(1)即時任務下發:通過軟硬協同,將核函數啟動延遲降低到業界平均水平的1/2。
(2)批量任務下發:批量下發(fa)計算和通信任務,將近千次下發(fa)開銷優(you)化為單次,減(jian)少(shao)GPU等待時(shi)間(jian)。
(3)引擎間依賴解析:GPU是多引擎(qing)可配置的(de),不同(tong)引擎(qing)之間要做依賴(lai)解(jie)析、交互同(tong)步(bu),平湖(hu)支持硬件解(jie)析引擎(qing)間的(de)依賴(lai)做同(tong)步(bu),不再回到host,任務流之間的(de)依賴(lai)解(jie)析延時可以大幅降低(di)至(zhi)1.5μs,優于業界頭(tou)部算力(li)卡。
(4)調優工具接口MUPTI:專門用于性能分析和事件追蹤,幫助開發者(zhe)優化MUSA應(ying)用程序,可基于MUPTI開發第三方的各種豐富(fu)工具。
(5)GPU錯誤轉存功能(GPU Core Dump,GCD):高效定(ding)(ding)位疑(yi)難Bug,不需要去(qu)調度大(da)量的集群和人力反復(fu)去(qu)復(fu)現(xian)“曇花(hua)一(yi)現(xian)”的錯誤,用于在GPU程序崩潰或發(fa)生(sheng)錯誤時生(sheng)成詳細的信(xin)息(類似(si)CPU程序Core Dump),精確保存錯誤,提供一(yi)個log,極(ji)大(da)提升MUSA核(he)函(han)數崩潰、非(fei)法顯存地(di)址訪(fang)問、硬件錯誤等(deng)問題定(ding)(ding)位的效率(lv)。
2、MUSA算子庫生態日趨完善,性能與廣度兼備
算子(zi)庫(ku)的效(xiao)率(lv)直接(jie)關乎分(fen)布(bu)式集群的訓(xun)練效(xiao)率(lv)。MUSA算子(zi)庫(ku)不僅(jin)追求(qiu)極致性能,還兼(jian)容覆蓋廣度(du)和兼(jian)容性。
MUSA算子庫生態會提供三大算子庫:極致性能muDNN、易用MUTLASS、MUSA AI Tensor Engine開源推理算子庫。
muDNN,是(shi)一款極致性能的(de)(de)開箱即(ji)用標準(zhun)算子庫(ku),完(wan)整(zheng)覆(fu)蓋(gai)常見的(de)(de)前向和反向算子。其中最主(zhu)要的(de)(de)特性是(shi)支(zhi)持完(wan)整(zheng)的(de)(de)XMMA,支(zhi)持Tensor Core全精(jing)度及所有量化模式(shi),以及常用的(de)(de)神(shen)經網(wang)絡算子操作。
一般(ban)來(lai)說,矩(ju)陣乘(cheng)的(de)(de)效率大部分可以(yi)做到(dao)90%以(yi)上,摩(mo)爾線程muDNN矩(ju)陣乘(cheng)算(suan)子效率可以(yi)做到(dao)98%。Flash Attention算(suan)子因為多(duo)了(le)softmax等操作,基(ji)于國際一流水平廠商(shang)的(de)(de)Flash Attention 3論文里提到(dao)的(de)(de)效率大約是(shi)75%,muDNN的(de)(de)Flash Attention可以(yi)做到(dao)95%。
影(ying)響FP8 GEMM算子效(xiao)率的(de)重要因素是scale模式,scale是為了避(bi)免(mian)精度損失做的(de)一個精細化的(de)縮放(fang)因子,常見(jian)的(de)有Per-Tensor、Per-Block,DeepSeek V3用的(de)是Per-Block。
吳(wu)慶(qing)打了(le)個比(bi)(bi)方,Per-Tensor scale是整個張(zhang)量共用(yong)一(yi)(yi)(yi)(yi)個縮放因子,相當于(yu)一(yi)(yi)(yi)(yi)面墻(qiang)(qiang)刷(shua)一(yi)(yi)(yi)(yi)個顏(yan)色,很(hen)(hen)好刷(shua);Per-Block scale則是每個小(xiao)的矩陣塊共用(yong)一(yi)(yi)(yi)(yi)個縮放因子,相當于(yu)一(yi)(yi)(yi)(yi)面墻(qiang)(qiang)有很(hen)(hen)多小(xiao)方塊,每個方塊單獨一(yi)(yi)(yi)(yi)個顏(yan)色,刷(shua)墻(qiang)(qiang)的復雜度(du)要(yao)高(gao)很(hen)(hen)多,會比(bi)(bi)一(yi)(yi)(yi)(yi)個顏(yan)色刷(shua)一(yi)(yi)(yi)(yi)面墻(qiang)(qiang)效率(lv)低(di)10%-20%。
摩爾線(xian)程通過軟硬協同的深度算法(fa)優化、指令編(bian)排,做到了(le)Per-Block跟(gen)Per-Tensor? FP8 GEMM計算效率幾乎相(xiang)當,差距(ju)不到2%。
MUTLASS,是一個(ge)高性能的(de)(de)線性代數模板(ban)庫,可極大降低在MUSA環境中自定義算子的(de)(de)開發工(gong)作量(liang),相當于提供了一個(ge)可供二次開發的(de)(de)模板(ban)。
MUTLASS已在Github上開源,支持平湖(hu)架構所有特性,包(bao)括Warp-level MMA、WarpSquad-level MMA、TensorMemoryEngine、AsyncBarrier等原語全面支持,同時提供高性能(neng)矩陣乘(cheng)、卷積算(suan)子實現(xian),可在Kernel里(li)調用(yong)模板庫(ku)就可以(yi)進行二次開發,摩爾線(xian)程也提供Attention最優化的(de)示(shi)例,給用(yong)戶打樣,可以(yi)參(can)考提供的(de)最佳(jia)實踐,去(qu)開發自(zi)定義(yi)的(de)各種Attention的(de)變種。
MUSA AI Tensor Engine,是摩爾(er)線程即將發布的(de)面向大語(yu)言模型的(de)開源推理算子庫,可幫(bang)助開發者快速搭建自(zi)定義推理引擎。
MUSA AI Tensor Engine,是(shi)摩爾線程即將發(fa)布的(de)面向大(da)語(yu)言(yan)模型(xing)的(de)開(kai)(kai)源推理(li)算子(zi)(zi)庫(ku),可幫(bang)助開(kai)(kai)發(fa)者(zhe)快(kuai)速搭(da)建自定義(yi)推理(li)引擎。 該算子(zi)(zi)庫(ku)提供(gong)用戶友(you)好的(de)Python API,進(jin)一步降(jiang)低開(kai)(kai)發(fa)者(zhe)使用門檻,無需花太多時間學習MUSA C,只(zhi)要會Python就可以把MTX這個(ge)庫(ku)用起來;未(wei)來會支持豐(feng)富的(de)后端,包括(kuo)模板庫(ku),對(dui)標(biao)PTX虛擬指令(ling)集去開(kai)(kai)發(fa)的(de)極致(zhi)算子(zi)(zi)庫(ku),也支持類Triton的(de)DSL。
3、高性能集合通信庫及通算并行,避免通信搶占計算核心資源
大模型分布式訓練的主要(yao)瓶(ping)頸是通信(xin)。摩爾線(xian)程在MTT S5000上支持(chi)MTLINK 2.0,配備GPU異步通信(xin)引擎,實現了高性能通信(xin)技術與計算高度并行。
最近十幾年,隨著(zhu)模(mo)(mo)型規模(mo)(mo)增加(jia),分布(bu)式集(ji)群(qun)規模(mo)(mo)也在增加(jia),通(tong)信瓶(ping)頸會越(yue)來越(yue)明顯。DeepSeek V3報(bao)告(gao)中呼吁硬件廠商提(ti)供的芯片能不(bu)能做(zuo)一個(ge)單獨的通(tong)信硬件來卸載通(tong)信,避免通(tong)信跟計算去搶SM計算單元(yuan)。
平(ping)湖設計階段遠早(zao)于DeepSeek V3發布的時間,彼(bi)時摩爾線程已(yi)洞(dong)察到行業痛點,并提供了解(jie)決方(fang)案——在GPU上增加(jia)了一(yi)個異(yi)步通信引擎。
MTT S5000服務器拓撲每節(jie)點有(you)(you)8張GPU,通(tong)過MTLINK 2.0全互(hu)連,每張GPU與其他(ta)7張GPU都有(you)(you)直連總線。
每個GPU上配置的(de)異步通(tong)信引擎是原生(sheng)支(zhi)(zhi)持豐富(fu)的(de)reduce操作,支(zhi)(zhi)持常用的(de)reduce操作有ADD、MIN、MAX(累加、最小值、最大值)等操作,支(zhi)(zhi)持Float、FP16、BF16等數(shu)據類型,可直接通(tong)過MTLink進(jin)行(xing)C2C跨系(xi)統的(de)數(shu)據通(tong)信。
其ACE通過(guo)Zero Copy技術進一(yi)步提升性能。一(yi)般的(de)(de)集合通信(xin)會把數據(ju)(ju)buffer拷(kao)貝到通信(xin)buffer里,再去進行C2C通信(xin)。Zero Copy則避免了在本地(di)上的(de)(de)D2D的(de)(de)拷(kao)貝,直接把數據(ju)(ju)buffer做跨卡通信(xin)。
摩爾線程在衡量集合通信庫性能的時候主要是兩大核心指標:通信延遲、通信帶寬。
基于(yu)全(quan)互聯(lian)(FC8)拓(tuo)撲的(de)高效通信算(suan)法(fa),可大幅降低通信延遲。全(quan)互聯(lian)拓(tuo)撲中GPU兩兩互連,在All Reduce場(chang)景中可以把其(qi)他GPU的(de)數據(ju)一次性(xing)拿過來,理(li)論上FC8算(suan)法(fa)相比Ring算(suan)法(fa),7步通信可變成1步完成。在單機8卡All Reduce延遲場(chang)景的(de)實測也差不(bu)多,Ring算(suan)法(fa)大概是53us,用FC8算(suan)法(fa)可降低至7.8us,將近縮(suo)減至1/7,顯著提升了模型推(tui)理(li)性(xing)能(neng)。
帶寬(kuan)(kuan)方面,Ring算法與FC8算法效(xiao)率相當,以Ring算法為(wei)例,摩(mo)爾(er)線程把FC8拆成(cheng)了7個通信環,每個通信環結(jie)合通信Kernel的優化,基于MTLink2.0 + FC8拓撲,節點(dian)內充分利用全互聯的拓撲優勢,可做到單機8卡(ka)All Reduce帶寬(kuan)(kuan)利用率接近85%,與國際第一的廠商在(zai)軟件(jian)效(xiao)率上對齊,實現高效(xiao)的Scale-up通信。
高效(xiao)Scale-out跨節點通(tong)(tong)信方面,摩(mo)爾(er)線程(cheng)結合通(tong)(tong)信庫做了網(wang)卡拓撲(pu)(pu)感知與自(zi)適應優(you)化,每個GPU都能(neng)在(zai)PCIe拓撲(pu)(pu)上找(zhao)到延遲和帶寬效(xiao)率最高的(de)網(wang)卡端口進行RDMA通(tong)(tong)信,還額(e)外開發了一個插件Smart NIC Adaptor,在(zai)配置4張雙口網(wang)卡時,可(ke)實現和8張單(dan)口網(wang)卡一樣的(de)RDMA通(tong)(tong)信效(xiao)率。
經測試,其All Reduce帶寬(kuan)可以做到(dao)194GB/s,RDMA通信(xin)帶寬(kuan)利用率達到(dao)97%,而一般RDMA通信(xin)帶寬(kuan)利用率約在80%-85%。
除了(le)延遲和帶(dai)寬之外,摩(mo)爾線(xian)程還做了(le)異步通信引擎的(de)通信優化。
MPC是(shi)計算核心。傳統做法是(shi)通(tong)信(xin)(xin)也走MPC,就(jiu)要分走一部分的(de)計算單(dan)元。ACE則可以把(ba)通(tong)信(xin)(xin)部分卸(xie)載到(dao)(dao)單(dan)獨的(de)通(tong)信(xin)(xin)引擎上,不跟MPC搶計算資源,同時(shi)在無數據依(yi)賴(lai)時(shi)完全做到(dao)(dao)overlap,通(tong)過(guo)優(you)化,結合(he)MT Transformer Engine,在Llama模型上端到(dao)(dao)端計算通(tong)信(xin)(xin)性(xing)能可提升(sheng)10%左右。
三、基于FP8的國產萬卡訓練,摩爾線程軟硬件如何撐起行業需求?
摩爾線程(cheng)副(fu)總裁(cai)王華給(gei)基(ji)于FP8的國產萬卡訓(xun)練劃了3個重點(dian):
1、大模型訓練需要更強大的智算集群;2、低精度可有效提升訓練效率;3、可靠性對大規模訓練至關重要。
大模型需要大集群已是行業共識,不必贅述。
用更低精度的數據類型進行訓練,相當于實現了算力翻倍。精度降低一半,能帶來的優勢是算力翻倍,顯存占用、顯存帶寬、傳輸帶寬消耗減半。
但低精度替換只能部分進行,無法完全替代。一些精度敏感環節,如非線性函數/歸一化操作,仍需保留高精度計算。
從(cong)技術演進來看,精度格式(shi)正沿(yan)著(zhu)FP32→TF32→FP16/BF16→FP8的路徑發展(zhan)。近(jin)兩年,FP8訓(xun)練(lian)技術取(qu)得多項進展(zhan)。
DeepSeek-V3使(shi)用(yong)了(le)FP8混合(he)精度訓(xun)練,主要策略有:前向(xiang)和后向(xiang)傳播的3次GEMM使(shi)用(yong)FP8,激活(huo)值的緩存和傳輸使(shi)用(yong)FP8,Embedding、激活(huo)函數等(deng)模塊使(shi)用(yong)高(gao)精度浮點(dian)數,主權(quan)重、權(quan)重梯度、優化器狀態(tai)使(shi)用(yong)高(gao)精度浮點(dian)數。
摩爾線程的全功能GPU,是率先支持FP8的國產GPU,對FP8的訓練提供了軟硬件支持,基于摩爾線程軟件棧,成功復現了DeepSeek-V3滿血版訓練。
其(qi)軟件(jian)棧開源了3個組件(jian):
(1)提供MUSA后端加速支持的Torch-MUSA:PyTorch的(de)(de)MUSA插件,最(zui)新版本率(lv)先(xian)在國產GPU上實現了對FP8數據類(lei)型的(de)(de)完整支持。
(2)混合并行訓練框架MT-MegatronLM:支持FP8混(hun)合精度訓練、高性能muDNN庫和MCCL通信庫。
(3)MT-TransformerEngine:主(zhu)要用于Transformer的高效(xiao)訓練(lian)和推(tui)理(li)優化,支持(chi)FP8混合精度(du)訓練(lian),通過算子融合、并行加速等技術提升訓推(tui)效(xiao)率。
經(jing)實驗(yan),基(ji)(ji)于摩爾(er)線程KUAE集群(qun),在(zai)(zai)Llama3 8B、Qwen、DeepSeek-V2 16B、DeepSeek-V3 30B上,采(cai)用(yong)FP8混(hun)合訓練可以(yi)帶來(lai)20%~30%的(de)性能提(ti)升,且(qie)引入FP8前(qian)后loss曲線基(ji)(ji)本(ben)一致。在(zai)(zai)采(cai)用(yong)FP8訓練方面,摩爾(er)線程GPU計算卡與(yu)國際主流計算卡的(de)精度對比基(ji)(ji)本(ben)吻合。
在Scaling Factor的選(xuan)擇(ze)上,摩(mo)爾線程(cheng)也做(zuo)了許多(duo)探索,例如(ru):amax的統計(ji)信息表(biao)明,Per-Tensor的Scaling Factor適(shi)合(he)采用Delayed Scaling策略(lve),而Per-Block則適(shi)合(he)采用JIT Scaling策略(lve)。
摩爾線程(cheng)還用(yong)自家(jia)GPU計(ji)算卡做了Smooth SwiGLU論文的(de)復(fu)現(xian),發現(xian)通過Smooth SwiGLU可以有效(xiao)降低(di)outlier的(de)影(ying)響(xiang)。
此(ci)外,摩(mo)爾線程開源(yuan)的(de)模(mo)擬(ni)仿真器Simumax可用于大規模(mo)集群(qun)訓(xun)練(lian),支持多(duo)種并行策略、多(duo)種模(mo)型架構、各(ge)種優化(hua)(hua)策略以及并行策略、超參(can)、優化(hua)(hua)策略的(de)自動掃描。
最后,大規模集群訓練的可靠性非常重要。
摩爾線(xian)程(cheng)做了很多相關工作,進(jin)行全(quan)生命(ming)周期管(guan)理監(jian)控:
(1)訓練檢查(起飛、飛行、落地):起飛檢(jian)查(cha)(cha)是(shi)在訓練(lian)開始前(qian),對硬軟件和(he)通信的檢(jian)查(cha)(cha),自動替換(huan)故障節點(dian);飛行(xing)檢(jian)查(cha)(cha)中,發現訓練(lian)亞健康問題;落地檢(jian)查(cha)(cha)是(shi)停掉(diao)訓練(lian)后,定(ding)位故障節點(dian),提取故障上下文。
(2)慢節點探測:分(fen)布式訓(xun)練(lian)中慢節點會拖慢整個(ge)訓(xun)練(lian)的(de)速(su)度;起飛檢查階段(duan)節點兩兩配(pei)對,檢查小負載的(de)執行時間;訓(xun)練(lian)階段(duan)統計每(mei)個(ge)節點計算和通信(xin)執行的(de)時間。
(3)容錯訓練:大規(gui)模訓練場景使用大量節點(dian),會(hui)導致訓練故障(zhang)(zhang)率(lv)指數級(ji)升(sheng)高;同步(bu)模式轉成異步(bu)模式,單節點(dian)故障(zhang)(zhang)就不會(hui)影(ying)響(xiang)整體訓練;還有高效的故障(zhang)(zhang)發(fa)現與恢復機(ji)制。
結語:國產AI計算基礎設施,已具備規模化、高效率、高可靠模型生產能力
摩(mo)爾線(xian)程以(yi)打造先(xian)進(jin)的(de)“AI工廠”為目標,憑借全功(gong)能GPU的(de)通用計算能力、創新的(de)MUSA架構、優化(hua)的(de)MUSA軟件棧、自研的(de)KUAE集群、零中(zhong)斷容錯技術五大核心要素,構建(jian)起高效的(de)“AI工廠”,為AI大模型訓練提供了強大而可(ke)靠的(de)基礎設施支持。
“只有這樣的(de)組合,才能確保每(mei)一(yi)個環節(jie)都(dou)做到(dao)最好,100%? X? 100%? X? 100%,才能確保100%的(de)成功率(lv),也是(shi)業(ye)界最好的(de)效(xiao)率(lv)。”張建中說。
依(yi)托(tuo)AI工廠,摩爾(er)線(xian)程成功(gong)構建起覆蓋”訓練-推理(li)-部署”全流程的高效體(ti)系。這標志著國產計算基(ji)礎設施,已具備支撐AGI時代規模(mo)(mo)化、高效率、高可靠模(mo)(mo)型生產的關鍵能力。
從圖(tu)形渲染基石到(dao)AI算(suan)力引(yin)擎,摩爾線(xian)程正以“KUAE+MUSA”為智算(suan)業(ye)務核(he)心,推動全功能(neng)GPU驅動的AI技(ji)術在物理仿真、AIGC、科學計算(suan)、具身智能(neng)、智能(neng)體、醫療(liao)影像分析、工業(ye)大模型等(deng)關鍵領域的應(ying)用(yong)與部署。