智東西(公眾號:zhidxcom)
作者 | ?ZeR0
編輯 | ?漠影

AI主戰場,萬卡是最低標配!

在2024世界人工智(zhi)能(neng)大會開幕前夕,摩爾線程創始人兼CEO張建中拋出一(yi)句(ju)擲地有聲的斷言。

為什么必須是(shi)萬卡(ka)?大模(mo)型行業變化(hua)很快(kuai),客(ke)戶希望兩(liang)周(zhou)內(nei)結束戰斗,最遲也得(de)在1個月(yue)內(nei)訓(xun)練完(wan)。假設訓(xun)練一個5000億參數模(mo)型,有(you)(you)15TB數據(ju),如果(guo)只有(you)(you)1000P算力,3年都(dou)訓(xun)不完(wan);如果(guo)將時間鎖到(dao)兩(liang)周(zhou)或1個月(yue),10000P是(shi)最低保障。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

在海(hai)外,擁有1.8萬億參(can)數的GPT-4大模型需(xu)要(yao)用25000張(zhang)(zhang)A100 GPU訓(xun)100天,折算成H100則(ze)需(xu)要(yao)1000張(zhang)(zhang);Meta今年推出2個24576張(zhang)(zhang)H100集(ji)群,用于訓(xun)練Llama 3等新模型;本周馬斯(si)克自曝新版Grok 3訓(xun)練用了10萬張(zhang)(zhang)H100 GPU。

在國內,萬(wan)卡(ka)(ka)集(ji)群(qun)建設高歌猛進。去(qu)年(nian)7月(yue),華為昇騰AI集(ji)群(qun)規(gui)模擴展至(zhi)16000卡(ka)(ka);10月(yue),科(ke)大(da)訊飛宣布(bu)啟(qi)動萬(wan)卡(ka)(ka)集(ji)群(qun)算力(li)平臺“飛星一號”;今年(nian)3月(yue),天翼云上海臨(lin)港國產萬(wan)卡(ka)(ka)算力(li)池啟(qi)用;4月(yue),中國移動宣布(bu)今年(nian)將商(shang)用3個自主可(ke)控(kong)萬(wan)卡(ka)(ka)集(ji)群(qun)……一眾(zhong)云大(da)廠更(geng)是(shi)囤(dun)卡(ka)(ka)攢算力(li)專業戶(hu),將大(da)模型訓(xun)練集(ji)群(qun)規(gui)模卷向10萬(wan)卡(ka)(ka)量(liang)級。

基于國產GPU的萬卡方案,還是剛新鮮出爐

就在昨日,國產GPU公司摩爾線程宣布其人工智能(AI)旗艦產品夸娥(KUAE)智算集群解決方案實現重大升級——從千卡擴展至萬卡規模

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

這是其(qi)首個(ge)萬(wan)卡萬(wan)P萬(wan)億國(guo)產全功能GPU大(da)模型預訓練平臺(tai),樹立了國(guo)產GPU技術的(de)新標(biao)桿(gan):

總算力超過10EFLOPS,目標是做到有效計算效率超過60%、穩定性達99%,能支撐萬億參數級大模型訓練

3個(ge)萬卡集(ji)群(qun)項目(青(qing)海零(ling)碳產(chan)業園(yuan)萬卡集(ji)群(qun)、青(qing)海高原(yuan)夸娥(e)萬卡集(ji)群(qun)、廣西東(dong)盟萬卡集(ji)群(qun))在(zai)現場進行了(le)戰略簽約。

兩家清華系AI Infra合(he)(he)作(zuo)(zuo)伙伴(無問芯穹(qiong)、清程(cheng)極智(zhi))、兩家大模型大廠(chang)合(he)(he)作(zuo)(zuo)伙伴(360、京東云)、一家具身智(zhi)能合(he)(he)作(zuo)(zuo)伙伴(智(zhi)平方(fang)科(ke)技)的(de)代表先后登臺,對夸娥(e)智(zhi)算集(ji)群(qun)助力其在(zai)大模型訓練、推(tui)理及具身智(zhi)能的(de)創(chuang)新贊譽有加。

加速一切大模型,只是第一步。

張建(jian)中(zhong)說,夸娥萬卡(ka)集群不(bu)僅是加速AI,而是想要為美(mei)好世(shi)界加速。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

一、大模型訓練呼喚萬卡集群,國產GPU企業坐上牌桌

大模型競賽(sai)轟轟烈烈,從研(yan)發到應用,從訓練到推理,一切都在瘋狂消耗著(zhu)算力。

智算中心是大模型(xing)訓練的“超級加工(gong)廠(chang)”,數(shu)(shu)據量夠多、參數(shu)(shu)量夠大,訓練出的大模型(xing)才有市場競爭(zheng)力。對此(ci),張(zhang)建(jian)中總結出三大算力核心需求:

一是Scaling Law持續奏效,假設(she)按線(xian)性比(bi)例成長,參數規(gui)模(mo)從(cong)(cong)百億到萬億有(you)100倍(bei)(bei)增長,處理數據量從(cong)(cong)TB到10+TB有(you)10倍(bei)(bei)提升,兩者相乘,那么(me)所需算(suan)力至(zhi)少(shao)增長1000+倍(bei)(bei),需要建立一個單節點超(chao)大規(gui)模(mo)算(suan)力集群來做訓練。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

二是算法持續迭代,Transformer架構不能實現大一統,從稠密到(dao)稀(xi)疏模(mo)(mo)型(xing),再到(dao)多(duo)模(mo)(mo)態(tai)模(mo)(mo)型(xing)的(de)融合,多(duo)元架構持續演進并(bing)共存,面向(xiang)特定(ding)領域設計的(de)專用(yong)芯片難以(yi)適應未來算法,通用(yong)型(xing)算力才具備更強(qiang)的(de)抗風險能力。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

三是AI、3D、高性能計算(HPC)跨技術與跨領域融合加速,推動空間智能物(wu)理AI和(he)AI for Science、世界模(mo)型(xing)等領域的邊界拓展,使(shi)得大模(mo)型(xing)的訓練和(he)應用環境更(geng)加復雜多元。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

這些趨勢對智算集群提出了多重要求:既要規模夠大,又要通用性強,前者負責支持頂尖大模型巔峰對決,后者順應多元計算融合發展的趨勢,進而催生出對萬卡GPU集群的迫切渴求

大模型訓練,唯(wei)快不破。

海外頭部AI大(da)(da)廠(chang)都步(bu)調(diao)激(ji)進,OpenAI單點集群有超5萬(wan)張H100,谷歌打造了2.6萬(wan)張H100組成(cheng)的(de)AI超算(suan),Meta到今年(nian)年(nian)底將囤35萬(wan)張H100。國(guo)內大(da)(da)廠(chang)固然也(ye)愿意豪擲巨資(zi),但被美國(guo)一紙限令推入“有錢買不到新算(suan)力(li)”的(de)僵(jiang)局。

而如(ru)果沒有萬卡集群做(zuo)訓練(lian),好比國(guo)產大模型拼命蹬著樸素的三輪,想跟開跑車的海外龍頭同場飆車,逆(ni)襲(xi)的幾率不能(neng)說(shuo)(shuo)沒有,只能(neng)說(shuo)(shuo)極低。

甲之砒霜(shuang),乙之蜜糖(tang)。英偉達入華受阻,給了國產(chan)AI芯片備胎(tai)轉(zhuan)正(zheng)的(de)機會。擺在(zai)前方的(de)是一座名(ming)為智算需求(qiu)的(de)金(jin)礦,算力(li)供應商們在(zai)摩拳擦掌,期待英偉達騰出的(de)大單能(neng)落到自(zi)己(ji)頭上(shang)。

摩爾線程則以一家國產GPU企業的身份,率先坐上了建設萬卡集群的牌桌。

“這是(shi)一件難而正確的(de)(de)事情。”張建中說,“我(wo)們不能只是(shi)一家GPU的(de)(de)公司(si),一定要(yao)成為一家系統平臺(tai)公司(si)。”

創辦(ban)于2020年10月的摩(mo)爾線程,甫一(yi)成(cheng)立就組建(jian)云計(ji)算團隊,設定(ding)了(le)建(jian)集(ji)群(qun)的大(da)方向和策(ce)略(lve),并構(gou)建(jian)了(le)MUSA體(ti)系架(jia)構(gou),花(hua)了(le)大(da)量(liang)時間去研究集(ji)群(qun)建(jian)設中(zhong)的各種問題,攻(gong)堅克難。在(zai)大(da)模型潮起后,這一(yi)路線更加明(ming)確與堅定(ding)。

從千卡到萬卡,集群建設的復雜度指數級增加,是一項超級系統工程。大集群≠大算力,多卡互聯也絕非簡單的“1+1=2”算術題,非常考驗算網存系統級優化的功力。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

暴力(li)堆卡雖然(ran)能(neng)(neng)(neng)帶來理論算(suan)力(li)總和的(de)暴漲(zhang),但如果不(bu)(bu)能(neng)(neng)(neng)解決技(ji)術(shu)及工程挑戰,即便手握10000張卡,實際能(neng)(neng)(neng)發揮的(de)算(suan)力(li)可能(neng)(neng)(neng)還不(bu)(bu)及2000卡。而且卡連的(de)越多,出故障(zhang)的(de)概(gai)率(lv)也會越大,從硬件設計到集群研究都要解決穩(wen)定性難題。

這就好(hao)比(bi)帶兵打仗,單人(ren)武力值高不等于團隊(dui)戰(zhan)斗力強,勝敗關(guan)鍵看(kan)排兵布陣(zhen)的(de)(de)策略和高效無縫的(de)(de)配合。每(mei)位士兵要(yao)驍勇善(shan)戰(zhan),調兵遣將時需(xu)確(que)保通信無阻(zu),后備糧倉和醫(yi)藥(yao)資源也(ye)都得跟上。

對應到(dao)萬卡(ka)GPU集群(qun),則是算(suan)網存(cun)管每(mei)一環節都不(bu)能(neng)有(you)短板(ban),單卡(ka)算(suan)力要強,組網拓(tuo)撲結構(gou)要設計得(de)效(xiao)率(lv)足(zu)夠(gou)高(gao),即能(neng)有(you)效(xiao)提升單位功(gong)耗的算(suan)力,還要有(you)敏(min)捷的故障排查和及時恢復能(neng)力,才能(neng)確保訓得(de)多、算(suan)得(de)快、用得(de)方便,跑(pao)得(de)夠(gou)穩。

因此,這項系統工程必須翻越六座大山:超大規模組網互聯、集群有效計算效率、訓練高穩定性與可用性、故障快速定位與可診斷工具、生態Day0級快速遷移、未來場景通用計算

萬卡集群造價極高。據張建中分享,幾萬P的智算中心成本高達幾十億,更大算力規模則需投資上百億。如此大的投資,要求集群不僅擁有強大算力,而且必須具備多年持續服務的能力。設計智算中心時至少要考慮到兩三年后的擴容程度,否則一旦空間和能源受限,規模就很難擴展

在接受采訪期間,張建中分享到目前智算中心投資回報率是5年左右,而國內芯片研發費用大致相當于美國公司的1/10,在國內可以得到更好的回報,他相(xiang)信在(zai)國內的(de)發展(zhan)潛力非常巨大(da)。

那么要打造“國產萬卡萬P萬億大模型訓練平臺”的摩爾(er)線(xian)程,具體(ti)是怎么做的?

二、千人團隊耗時四年,構筑夸娥萬卡集群的三道護城河

計算效率、高度穩定、生態兼容,構(gou)成了摩(mo)爾線程夸娥萬卡智算集(ji)群的三道護城河。

摩爾線程之所以將智算中心全棧方案命名為“夸娥(KUAE)”,是(shi)希望它像傳(chuan)世典故(gu)《愚公移山》中的(de)夸娥氏二子那(nei)般不畏艱難,持之以恒(heng),將一塊(kuai)塊(kuai)GPU加(jia)速卡(ka)壘成一個(ge)強(qiang)大的(de)計算集群。

這是一套以全功能GPU為底座,軟硬一體化、完整的系統級算力解決方案,包括以夸娥計算集群為核心的基礎設施、夸娥集群管理平臺(KUAE Platform)以及夸娥大模型服務平臺(KUAE ModelStudio),旨在以一體化交付(fu)的(de)(de)方式(shi)解決大規模GPU算力(li)的(de)(de)建設和運營管理問(wen)題。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

張建中將夸娥萬卡集群稱作“新超級工程”。摩爾線程有1000多人、耗時近4年完成了這項工作,希(xi)望能夠搭建首個中國本土通(tong)用型(xing)的萬卡集(ji)群。

首先有自研全功能GPU,基于GPU做出計算加速卡,再組建成服務器,放進超融合一體機,然后將這樣的4臺機器整合到一個機柜里,形成一個小集群,小集群連成大集群,大集群的線性加速比高于91%。有了這樣一個(ge)靈活組(zu)合的集群,客(ke)戶就能(neng)根據(ju)自(zi)身建設(she)規劃(hua)去擴容每個(ge)計(ji)算集群。

軟件也是關鍵落子。把萬卡集群管理、調試、使用好,做到高效的訓練和推理,需要一個全棧AI軟件。摩爾線程(cheng)夸(kua)娥(e)智(zhi)算(suan)集群(qun)的(de)(de)軟件棧提供了一(yi)系列的(de)(de)加速引擎和便捷(jie)的(de)(de)管(guan)理平臺,并支持(chi)用戶進行(xing)7×24小時(shi)的(de)(de)隨(sui)時(shi)遠(yuan)程(cheng)監(jian)控(kong)。

“我們建議客戶不要太多DIY,而是采用整體解決方案,這樣可以避免風險,集群買回去之后馬上就可以用起來。”張建中在接受采訪時談道,自建集群很有挑戰性,如果專業性不足,從建設到穩定運行都會受影響,而KUAE夸娥是一個“交鑰匙”工程,用戶拿到就能開箱即用

KUAE夸娥萬(wan)卡集群有五(wu)個核心優勢:

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

1、超大算力,萬卡萬P:單集群超萬卡,浮點運算能力達到10Exa-Flops,顯存總容量、卡間互聯總帶寬、節點互聯總帶寬均達到PB級,實現算力、顯存和帶寬的系統性協同優化,從而支持萬億參數級大模型的訓練。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

2、超高穩定,月級長穩訓練:平均無故障運行時間超過15天,最長穩定訓練30天以上;目標周均訓練有效率逾99%

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

穩定無(wu)故障,意味著每一位用戶在集群中(zhong)的(de)每一秒沒有(you)被浪費,有(you)助(zhu)(zhu)于降低(di)計(ji)算中(zhong)心(xin)運營成本,并(bing)滿足(zu)大模型(xing)訓練長期迭代的(de)需求。實(shi)現軟硬件(jian)故障自動(dong)檢(jian)測,無(wu)需人工干預,則有(you)助(zhu)(zhu)于實(shi)現大型(xing)智算中(zhong)心(xin)的(de)無(wu)人職(zhi)守,降本增效(xiao)。

這得益(yi)于(yu)摩爾線程(cheng)自研的(de)一系列可(ke)預(yu)測、可(ke)診斷(duan)的(de)多級(ji)可(ke)靠機制:軟硬件故(gu)障的(de)自動定(ding)位與診斷(duan)預(yu)測功(gong)能(neng)(neng)可(ke)實現(xian)分(fen)鐘級(ji)故(gu)障定(ding)位,Checkpoint多級(ji)存儲機制可(ke)實現(xian)內存秒(miao)級(ji)存儲和(he)訓練任務分(fen)鐘級(ji)恢復,高(gao)容錯高(gao)效能(neng)(neng)的(de)萬卡(ka)集群管理(li)平(ping)臺能(neng)(neng)實現(xian)秒(miao)級(ji)納管分(fen)配與作業調(diao)度(du)。

3、極致優化,超高MFU:在系統軟件、框架、算法等層面進行一系列優化,希望MFU(集群有效計算效率,評估大模型訓練效率的通用指標)最高可以達到60%,讓用戶買到的算力能真正發揮(hui)效力,而不只是買了一堆硬件。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

摩爾線程在系統軟件層面采用計算和通訊效率優化等技術手段,大幅提升集群的執行效率和性能表現。其自研卡間互連技術MTLink已經到2.0版本,目前用行業里的交換機芯片來搭建集群,后期也會考慮與合作伙伴共同研發下一代大規模交換機,持續(xu)發展卡間通信。

在框(kuang)架和(he)(he)算(suan)法層面,夸娥萬卡集(ji)群(qun)支持多種自適應混(hun)合(he)并(bing)行策(ce)略(lve)與高效顯存(cun)優化,可(ke)根據應用(yong)負載選擇并(bing)自動配置(zhi)最優的(de)并(bing)行策(ce)略(lve),大(da)幅提升訓(xun)練(lian)效率和(he)(he)顯存(cun)利用(yong);針(zhen)對超(chao)長序列大(da)模型,通過(guo)CP并(bing)行、RingAttention等優化技術,能(neng)有效縮減計算(suan)時(shi)間和(he)(he)顯存(cun)占用(yong),大(da)幅提升訓(xun)練(lian)效率。

4、計算通用:為通用場景設計,可加速LLM、MoE、多模態、Mamba等不(bu)同架構、不(bu)同模態(tai)的大模型(xing),能夠緊跟技術演進。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

5、生態兼容:過去大部分軟件都是在CUDA平臺上開發,換到新平臺,如何實現來了就能用?這意味著不僅要與國際主流生態兼容,還要擴展中國本土生態,兩條腿一起走路。

因此夸娥智算集群提供了摩爾線程自研MUSA編程語言,完整兼容CUDA,開源社區和官方網站均可下載Torch MUSA源代碼,并提供自動化遷移工具Musify,以便用戶能在短期內迅速將模型和遷移到MUSA平臺

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

對于目前國內的大模型用戶來看,我們最大的優勢就是生態兼容性很好,基本上當天或者是第二天就可以完成生(sheng)態(tai)遷(qian)移(yi)并應用起來,對客戶就非常(chang)方便,從投入成本來講大(da)大(da)節約(yue)了(le)用戶的(de)資(zi)源,同時也(ye)節約(yue)了(le)我們(men)的(de)資(zi)源。”張建中(zhong)說(shuo)。

據摩爾線程CTO張鈺勃分享,開發者移植到夸娥集群上,幾乎不需要修改代碼,遷移成本接近0,幾小時之內就能完成遷移工作,調優性能(neng)(neng)可能(neng)(neng)花費數(shu)天。

除了自研全功能GPU外,摩爾線程也在與國產CPU、操作系統合作,并聯合打造了一個基于中國自主創新技術的PES完美體驗系統聯盟。在張建中看來,這是(shi)國外GPU公(gong)司(si)無法做到的產品兼容性。

目前幾乎所有的CPU企業都和我們的GPU完成了適配,我們一個驅動可以支持幾乎所有的CPU,”他談道,“我們希望完(wan)美體驗(yan)系(xi)統(tong)讓國內的(de)CPU、操作(zuo)系(xi)統(tong)和我們的(de)GPU工作(zuo)在一起的(de)時(shi)候,可以為(wei)客戶提供一個完(wan)整且(qie)很好的(de)體驗(yan)。”

三、AI Infra、大模型、具身智能代表站臺,認證夸娥智算集群性能高、穩定好用

從實戰經驗來看,摩爾線程也的確(que)賺得(de)了口(kou)碑。無問芯穹(qiong)、清(qing)程極智(zhi)、360、京東云、智(zhi)平方等(deng)五家合(he)作伙(huo)伴登(deng)臺,分享摩爾線程夸娥智(zhi)算集群如(ru)何助力其在(zai)大模型訓練(lian)、大模型推理、具身智(zhi)能等(deng)不同場景和領域的創新。

今年5月,無問芯穹和摩爾線程完成基(ji)于國(guo)(guo)產全功能(neng)GPU千(qian)卡集(ji)群,合作(zuo)訓(xun)(xun)練(lian)出(chu)的MT-infini-3B是(shi)行業內基(ji)于國(guo)(guo)產GPU從0到1預訓(xun)(xun)練(lian)并開源的第一個(ge)大模型(xing),訓(xun)(xun)練(lian)總用時13.2天(tian),在同等(deng)參數(shu)規模模型(xing)中性(xing)能(neng)躋身前列。這也是(shi)雙(shuang)方合作(zuo)的起(qi)點。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

在合作初始階段,無問芯穹還主動設置了(le)一些(xie)“為難”摩(mo)爾(er)(er)線程(cheng)(cheng)的門(men)檻,故(gu)意做(zuo)了(le)很多在算子或(huo)模型結(jie)構上的特殊修改(gai)。結(jie)果,摩(mo)爾(er)(er)線程(cheng)(cheng)的底層生態(tai)兼容性能夠(gou)非常快而(er)好地支持(chi)這些(xie)修改(gai),最終全程(cheng)(cheng)穩(wen)定(ding)訓練(lian)不中斷地完成(cheng)了(le)模型訓練(lian)。

無問(wen)芯穹正(zheng)在打造大(da)規模異構混訓系(xi)統,實現(xian)多元芯片異構混合訓練。摩爾線(xian)程是第(di)一家接入(ru)并已支持千卡混訓的的國產GPU公司。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

清程(cheng)極智創(chuang)始(shi)人、董事長(chang)兼CEO湯雄超提到萬(wan)卡大模(mo)型(xing)(xing)訓練(lian)(lian)集群面(mian)臨三(san)大系統級挑戰:1)算(suan)子性(xing)能優化,充分(fen)發揮(hui)單卡計算(suan)性(xing)能;2)大規模(mo)集群訓練(lian)(lian),高效協調(diao)多(duo)機分(fen)布式(shi)計算(suan);3)新興模(mo)型(xing)(xing)架構,靈活(huo)應對模(mo)型(xing)(xing)動態(tai)需(xu)求。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

針對(dui)這些挑戰,清程(cheng)極智智能編譯器(qi)IntelliGen和(he)高效并(bing)行訓(xun)練(lian)系統FastMoE均已(yi)適配MUSA,取得大(da)幅訓(xun)練(lian)加速,并(bing)實現0代碼改動。湯(tang)雄超(chao)稱贊摩爾(er)線程(cheng)的GPU硬件架構、指令(ling)集、編譯器(qi)、MUSA軟件棧(zhan)等設計都非常優秀,清程(cheng)極智有信心與摩爾(er)線程(cheng)一起攻克中國AI超(chao)大(da)規模訓(xun)練(lian)集群(qun)的難題,共同建設世界水(shui)平的訓(xun)練(lian)集群(qun)。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

360集團早在2021年就與摩爾(er)線(xian)程產(chan)品(pin)進(jin)行技術(shu)(shu)合作驗證,并啟動360與GPU相關產(chan)品(pin)的(de)適配(pei)。繼去年與摩爾(er)線(xian)程實現一體機合作、適配(pei)及技術(shu)(shu)驗證后,360企業大模型產(chan)品(pin)在今年與摩爾(er)線(xian)程擴大合作,希望共同打造(zao)一個基(ji)于國(guo)產(chan)算力加(jia)國(guo)產(chan)大模型的(de)聯合解決方案。

在摩爾線程夸娥千卡集群上(shang),360分別部署70億(yi)、700億(yi)參數(shu)大(da)語言(yan)模型,全(quan)程軟(ruan)硬(ying)件即(ji)插即(ji)用,工(gong)作有效(xiao)訓練(lian)時(shi)間(jian)占比100%;全(quan)程穩定無軟(ruan)硬(ying)件故障,集群有效(xiao)訓練(lian)時(shi)間(jian)占比100%。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

京(jing)東基(ji)于摩爾線(xian)程(cheng)夸(kua)娥集(ji)群完成Chatglm2-6B、Qwen-14B、baichuan2-13B的大模(mo)型推(tui)理測試,性能超過一些國(guo)際主流計算卡(ka)。

在Chatglm2-6B推理(li)(li)測試中,S4000的(de)單卡推理(li)(li)性(xing)能(neng)是RTX 4090D性(xing)能(neng)的(de)1.26倍,其(qi)他(ta)兩個模型(xing)中,基于S4000性(xing)能(neng)均能(neng)達到(dao)RTX 4090D性(xing)能(neng)的(de)90%左(zuo)右。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

智(zhi)平方(fang)(fang)科技是一家(jia)機器服務公司,致力(li)于將多(duo)模(mo)(mo)態模(mo)(mo)型的(de)能(neng)力(li)賦能(neng)給(gei)不同類型的(de)智(zhi)能(neng)終端與智(zhi)能(neng)機器人(ren)。這(zhe)家(jia)通(tong)用智(zhi)能(neng)代表企業(ye)與摩(mo)爾線程(cheng)共同探(tan)索了基于國產算(suan)力(li)的(de)多(duo)模(mo)(mo)態大模(mo)(mo)型高效訓(xun)練(lian),并(bing)合作研發(fa)了一些特定的(de)算(suan)子(zi)和優化卡間通(tong)信、彈性調度(du)的(de)方(fang)(fang)案。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

國產(chan)(chan)萬卡(ka)集群的落地(di)有望對AI行(xing)業產(chan)(chan)生許多積極影響,從縮(suo)短模型訓練周(zhou)期、加快商(shang)業落地(di)到降低(di)創業門檻,最終(zhong)催化整個生態的繁榮。

在張建(jian)中看來,要(yao)挑戰英(ying)偉達,難(nan)點(dian)主(zhu)要(yao)在市場的(de)(de)推廣、用戶(hu)的(de)(de)生(sheng)態適配(pei)和生(sheng)態發展,需(xu)要(yao)全行業生(sheng)態合作伙伴(ban)的(de)(de)共同努(nu)力,包(bao)括(kuo)算力供應商、建(jian)設方、軟件服務(wu)(wu)以及做增值服務(wu)(wu)的(de)(de)合作伙伴(ban)。但他相信(xin),給客(ke)戶(hu)極(ji)致(zhi)性價(jia)比、先進的(de)(de)技(ji)術、最優質的(de)(de)服務(wu)(wu),一定會讓客(ke)戶(hu)滿意。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

結語:GPU成為加速新技術浪潮的創新引擎

在加快(kuai)形成(cheng)新質生產(chan)力(li)、開展(zhan)“人(ren)工智能+”行動(dong)等(deng)戰(zhan)略指引下,我國(guo)AI落地進程(cheng)正在提速(su),推動(dong)更(geng)多行業邁向數字化、智能化轉型升級,并帶動(dong)以GPU為核心的智算中(zhong)心的建(jian)設與發展(zhan)。

張建(jian)中坦言(yan),GPU在(zai)整個計算(suan)服務器中的(de)(de)占比依然很(hen)低(di),不到(dao)10%,但未來(lai)這一占比將會(hui)提(ti)升。今年(nian)很(hen)多(duo)統計報(bao)告都顯(xian)示新增加的(de)(de)算(suan)力(li)來(lai)自于GPU,足見GPU算(suan)力(li)的(de)(de)需(xu)求(qiu)量非常強勁。

“我們正(zheng)處在生成(cheng)式AI的(de)黃金時代,技術交(jiao)織催動智能涌現,GPU成(cheng)為(wei)加(jia)速新技術浪潮來臨的(de)創(chuang)新引擎。”在他(ta)看來,此刻正(zheng)是歷(li)史性的(de)創(chuang)造進程(cheng),而(er)摩爾(er)線程(cheng)矢志投身,為(wei)融合AI和數字(zi)孿生的(de)數智世界打造先進的(de)加(jia)速計算(suan)平(ping)臺。

據他分享(xiang),摩爾線程(cheng)是國(guo)內唯一(yi)一(yi)家(jia)用(yong)(yong)全功能GPU去實現各方面(mian)通用(yong)(yong)加(jia)速計算能力(li)的公司(si),用(yong)(yong)4年(nian)時間將GPU的3D/2D圖形圖像、視頻編(bian)解碼、科(ke)學(xue)計算、物理(li)仿(fang)真(zhen)、數(shu)字孿生(sheng)、AI訓(xun)練及推理(li)能力(li)都做(zuo)了提(ti)升,能為客戶提(ti)供(gong)一(yi)個更(geng)好的、可選(xuan)擇(ze)的國(guo)產化工具,并使得智算中心能支持更(geng)廣泛的應用(yong)(yong)場景,提(ti)高長期抗風險(xian)能力(li)。

隨著夸娥智算集群從千卡向萬卡無縫擴展,摩爾線程的全棧AI戰略正在填上一塊重要拼圖。

“一旦(dan)我(wo)們把Scaling的問題解(jie)決了,這(zhe)個對行(xing)(xing)業來說就解(jie)決了最難(nan)做的事情。”張建中說,在(zai)建好萬(wan)卡集群(qun)后,摩爾線程將建設更大(da)規模的集群(qun),希望通過全功(gong)能通用加速計算平臺(tai),給行(xing)(xing)業提(ti)供(gong)更多的選擇,催生(sheng)開(kai)發(fa)者更多的想象力(li)和創意(yi)。