
智東西(公眾號:zhidxcom)
作者 | 江宇
編輯 | 漠影
智東(dong)西(xi)5月16日消息,今日舉行(xing)(xing)的(de)(de)“逐光向(xiang)新(xin)·智領未來(lai)”華為(wei)云AI峰(feng)會上,人工智能基礎設施(shi)的(de)(de)最新(xin)發展趨勢與行(xing)(xing)業應(ying)用實踐成為(wei)與會專(zhuan)家學者和(he)產業代表共同探討的(de)(de)焦(jiao)點。會上,華為(wei)云重點介紹(shao)了(le)其最新(xin)的(de)(de)CloudMatrix 384超節(jie)點架構技(ji)術。
值(zhi)得關注的是,華為云在會(hui)上還宣(xuan)布了一項技術進(jin)展,將(jiang)于(yu)今年第三季度推(tui)(tui)出名為“朝(chao)推(tui)(tui)夜(ye)訓(xun)”的靈活調度策(ce)略。該策(ce)略旨(zhi)在白天進(jin)行模型推(tui)(tui)理(li),并在夜(ye)間等(deng)閑時(shi)進(jin)行模型訓(xun)練,預計可(ke)將(jiang)算(suan)力(li)資(zi)源利用率提升30%以(yi)上。
一、華為云再談CloudMatrix 384,發力新一代AI基礎設施
華(hua)為(wei)云副總裁黃(huang)瑾(jin)在致辭中提(ti)到,自2024年(nian)1月1日(ri)起截止到目前,華(hua)為(wei)云在保障運行安全方(fang)面保持了穩定記錄(lu)。他指(zhi)出(chu),“未來十年(nian)將是見證(zheng)智能世界從(cong)無到有(you)的(de)關鍵時期(qi)。”
他談道,隨(sui)著AI模型復雜性的提(ti)升,集群網絡通信面臨挑戰,而CloudMatrix超節點(dian)架構旨在通過(guo)創(chuang)新架構應對這一(yi)問題。該架構通過(guo)高(gao)速總線(xian)互聯和超大(da)NPU點(dian)到點(dian)互聯帶寬,實現了全局內(nei)存(cun)的統(tong)(tong)一(yi)編址和統(tong)(tong)一(yi)通訊(xun)協議,從而打破(po)了傳統(tong)(tong)算力瓶頸(jing)。
他指出,華為云CloudMatrix 384超節點具備MoE親(qin)和(he)、以(yi)網強(qiang)(qiang)算、以(yi)存強(qiang)(qiang)算、長穩(wen)可靠(kao)、朝(chao)推夜訓(xun)、即開即用六大領先技術優勢(shi),以(yi)適應新(xin)一代AI基(ji)礎設施(shi)的需求。
同時(shi),黃瑾強(qiang)調Scaling Law依然有(you)效,持續提升算力將驅動更(geng)智能、更(geng)強(qiang)大的(de)(de)AI模型。他認(ren)為(wei),AI已(yi)成為(wei)最具影響力的(de)(de)通用技(ji)術(shu)(shu)。據介紹,CloudMatrix 384在多節點并行計算的(de)(de)效率、網(wang)絡互聯帶(dai)寬(kuan)(kuan)以及內存帶(dai)寬(kuan)(kuan)等方(fang)面展現出一定的(de)(de)技(ji)術(shu)(shu)優(you)勢。
此外(wai),華(hua)為云還探索了如(ru)“1卡(ka)1專家(jia)推(tui)理”等(deng)新型計算模(mo)(mo)式(shi),據稱該模(mo)(mo)式(shi)通過為每(mei)個專家(jia)模(mo)(mo)型分配專用計算資源(yuan),能夠顯著提升(sheng)MoE(Mixture of Experts)等(deng)特(te)定類型AI任務的推(tui)理效(xiao)率,例如(ru)在Deepseek R1千億MoE模(mo)(mo)型上實現了高(gao)達(da)3倍的吞吐量提升(sheng)。
其Scale-out網(wang)絡設(she)計目標是(shi)支持高達(da)12.8萬張卡的(de)集群進行無阻塞交換,這被認為是(shi)CloudMatrix 384的(de)關鍵技術核(he)心。
二、硅基流動攜手華為云,深化AI應用合作
硅基流動聯合創始人兼(jian)首席產品官胡健也(ye)發布了演(yan)講(jiang)。據他觀(guan)察,開源模型(xing)在AI應用領域(yu)的重要性(xing)日益提升,并且性(xing)能也(ye)在不斷進步(bu)。
胡健談道,硅基流動正與華(hua)為(wei)云緊(jin)密合作,并在(zai)技(ji)術上(shang)取得顯著進展。雙(shuang)方聯(lian)合攻關,針對DeepSeek-R1模型(xing)的(de)部署(shu)采用了大規(gui)模專家并行方案。
通過(guo)實施多(duo)專家負載均衡(heng)和(he)極致(zhi)通信優(you)化策略,有(you)效提(ti)升了模(mo)型的(de)吞吐量和(he)性能。實驗數據(ju)顯示,在(zai)保障單用戶20TPS水平的(de)前提(ti)下,單卡解碼吞吐率已突(tu)破1920 Tokens/s。
據了解,硅(gui)基(ji)流動是國內首家向DeepSeek提供API的公司(si)。借此(ci)機會(hui),硅(gui)基(ji)流動的用戶數量實現了顯著(zhu)增長,達到了之(zhi)前的十倍(bei)。而(er)近(jin)日,硅(gui)基(ji)流動DeepSeek-R1&V3推理服務也(ye)正式上架華為(wei)云(yun)云(yun)商店(dian)KooGallery。
三、AI數據中心運維挑戰與行業應用洞察
華為(wei)云數據(ju)中心(xin)全(quan)球DC運維首席專家謝峰則深入探討了(le)AI數據(ju)中心(xin)所(suo)面臨(lin)的獨特(te)挑(tiao)戰,包(bao)括超大規模光鏈路的波(bo)動性、高功率密度帶(dai)來的供電穩定需求,以及(ji)超高密液冷散熱的問題。
他還介紹,華(hua)為云(yun)數據(ju)中心(xin)通過產品化實現了快速(su)交付、低成(cheng)本和低PUE。同時(shi),數據(ju)中心(xin)在鋰電預測、液冷(leng)預測等智能化方面進行(xing)實踐(jian),著力構建(jian)綠(lv)色低碳(tan)、穩定可(ke)靠、安全可(ke)信的云(yun)數據(ju)中心(xin)。
他(ta)還(huan)分享了CloudMatrix 384超節點數(shu)(shu)據(ju)中心(xin)在利用數(shu)(shu)據(ju)分析(xi)進行設(she)備狀態預(yu)測(ce)方面(mian)的進展(zhan),特(te)別(bie)提到了在鋰電預(yu)測(ce)的應用,通過擴展(zhan)數(shu)(shu)據(ju)集(ji)范圍,CloudMatrix 384的預(yu)測(ce)準(zhun)確率從最初的40%已提升(sheng)至(zhi)97%。
AI正帶來巨大(da)的(de)產(chan)值(zhi),并重塑各行(xing)業的(de)生產(chan)方式,保(bao)險行(xing)業也(ye)在經歷(li)從(cong)人治向數(shu)據化治理(li)的(de)轉型。大(da)家保(bao)險信(xin)息(xi)科技部(bu)總經理(li)郝曉波指(zhi)出,保(bao)險行(xing)業的(de)AI化轉型是數(shu)字(zi)化轉型的(de)自(zi)然延(yan)伸,敏捷化的(de)AI戰(zhan)略可能(neng)更適(shi)合(he)傳(chuan)統行(xing)業。
大家(jia)保險(xian)正借助華為云(yun)的算力及(ji)AI平臺,構建企(qi)業級AI中臺和業務(wu)(wu)應(ying)用,覆(fu)蓋智能營(ying)銷、風控(kong)投資等業務(wu)(wu)環(huan)節(jie),以期推動(dong)保險(xian)業務(wu)(wu)的增長。
德勤中(zhong)(zhong)國合伙(huo)人劉曉羽則表(biao)示,德勤中(zhong)(zhong)國利用基于華(hua)為(wei)昇騰云和DeepSeek構建的(de)(de)AI平臺和工具(ju),為(wei)客戶提供面向特(te)定(ding)業務場景的(de)(de)AI咨詢和解決方案服務,預期將實現策略性(xing)的(de)(de)降本增效。
本次華為(wei)云(yun)AI峰會(hui)分(fen)享了(le)(le)AI基礎設(she)施建設(she)的最新進展,并(bing)就AI技(ji)術(shu)發展趨勢(shi)(shi)和(he)(he)應用(yong)實踐進行(xing)了(le)(le)探討。各位專家學者(zhe)的分(fen)享,也(ye)為(wei)理(li)解未來AI技(ji)術(shu)發展趨勢(shi)(shi)和(he)(he)行(xing)業應用(yong)的落地提供了(le)(le)具體的思路和(he)(he)借(jie)鑒。