智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影

全(quan)球科技競爭日(ri)益激烈,以AI為核心的新(xin)(xin)一(yi)輪技術革命推動算力需求(qiu)呈(cheng)指數(shu)級增(zeng)長,而(er)高性(xing)能、自(zi)主創(chuang)新(xin)(xin)的計算基礎設施的重(zhong)要性(xing)也與日(ri)俱增(zeng)。在(zai)此背景下,構(gou)建繁(fan)榮、開(kai)放的計算生態體(ti)系,培養(yang)頂(ding)尖創(chuang)新(xin)(xin)人才變得尤(you)為迫切。

在今年5月舉辦的(de)鯤鵬(peng)昇騰(teng)開(kai)發者大會2025(KADC 2025)上,國內多(duo)所重點高校(xiao)集中展示(shi)了基(ji)于鯤鵬(peng)昇騰(teng)技術路線的(de)科(ke)研成果。

北京大(da)學的Open-Sora Plan V1.5依托(tuo)昇騰MindSpeed MM多模(mo)(mo)態大(da)模(mo)(mo)型套件(jian)進行訓練和(he)優化(hua),實現電影級視頻生成。

清華系初(chu)創企(qi)業趨境科技推出的(de)KTransformers框架基(ji)于鯤鵬CPU與昇騰NPU的(de)異構(gou)協同優勢,實現單(dan)卡(ka)運行(xing)千億參(can)數(shu)模型(xing)的(de)突破。

上(shang)海交通大學的(de)科研(yan)團隊基于(yu)鯤鵬處理(li)器自研(yan)了分子模擬高RBE算法,顯著提升了計(ji)算效率,有(you)望成為下一代分子動力學引擎(qing)發(fa)展的(de)核心技術。

而上述成果僅僅是冰山一角。回顧去年的KADC大會,華為宣布與清華大學、北京大學、浙江大學、上海交通大學、中國科學技術大學5所高校開展合作,共同成立鯤鵬昇騰科教創新卓越中心,截止(zhi)到今年KADC的舉辦(ban),華為(wei)又(you)新增了7所鯤(kun)鵬昇騰科教創新孵化中心高校的簽約(yue)合(he)作。

隨著合(he)作院校的擴展,有越來(lai)越多的高校算(suan)力集群平臺獲(huo)得了鯤(kun)鵬昇騰科教創新(xin)(xin)卓越/孵化中心提(ti)供(gong)的算(suan)力支持,為計算(suan)系統創新(xin)(xin)、科學應用創新(xin)(xin)提(ti)供(gong)了堅(jian)實底座。

一、北大?華為:算力+平臺協同效應顯現,模型推理吞吐暴增200%

在(zai)北京大學(xue)于本屆KADC 2025大會上發布的(de)(de)前(qian)沿(yan)成果中,Align-Anything框架(jia)(jia)無疑是焦點之一。作為全球(qiu)首個(ge)開源的(de)(de)全模(mo)態對齊(qi)微調框架(jia)(jia),Align-Anything解決了(le)現有框架(jia)(jia)僅支(zhi)持單一或(huo)少數模(mo)態對齊(qi)的(de)(de)問(wen)題,在(zai)一個(ge)模(mo)型內實現了(le)圖像(xiang)、語(yu)音、視頻(pin)、動作等模(mo)態的(de)(de)對齊(qi)。

其科(ke)研價值體現在多個(ge)方面:它支持任意(yi)到任意(yi)模態(tai)的對齊,開源了包(bao)含12種模態(tai)的200k對齊數(shu)據(ju)集,以及涵蓋多個(ge)主流對齊微調算法(如SFT、RLHF、DPO、GRPO)的訓練代碼(ma)。

此外,Align-Anything通過采(cai)用信息更(geng)豐富的多模(mo)態(tai)偏(pian)好(hao)數據(例如文(wen)本、圖文(wen)音頻等(deng)反饋,而(er)非二元偏(pian)好(hao)),實(shi)現更(geng)準(zhun)確、更(geng)細粒度的對齊,有(you)效減少多模(mo)態(tai)融(rong)合帶來的幻(huan)覺(jue)問題,在具(ju)身智能(neng)等(deng)場景下具(ju)有(you)顯(xian)著意義。

這種前沿的全模態大模型對齊研究,對底層高性能算力基礎設施提出了極高的要求。那么(me),北京(jing)大學是(shi)如何構建(jian)并支撐這些創(chuang)新研究(jiu)的算力底座呢?

北(bei)京大(da)學(xue)基于鯤(kun)鵬昇騰硬(ying)件,構建了北(bei)大(da)卓越(yue)中(zhong)心集(ji)群(qun),為Align-Anything等前沿(yan)AI研究提供了堅實(shi)的(de)算力支撐。從底(di)層硬(ying)件到上層應(ying)用,該集(ji)群(qun)的(de)技(ji)術棧均(jun)實(shi)現了自主創新。

其(qi)中(zhong),鶴思算(suan)力調度系(xi)統和(he)SCOW(Super Computing On Web)算(suan)力平臺系(xi)統是核心組成部分。鶴思是北大自研的開(kai)源調度系(xi)統,起初為解決海量小任(ren)務(wu)和(he)超大規模集群性能問題。

隨著國(guo)產化進(jin)程加(jia)速,鶴(he)思強大(da)的兼容(rong)性(xing)(xing)使其能適配(pei)包括鯤(kun)鵬、昇騰在內的國(guo)產計算設備及相關生態,實現高性(xing)(xing)能計算和智能計算場景下的資源、作業(ye)管理等功能。

SCOW平臺則為用戶(hu)提供便(bian)捷的可視化界面,大(da)大(da)降低(di)了用戶(hu)使(shi)用高性能計(ji)算資(zi)源(yuan)的門(men)(men)檻。2024年,SCOW發展出SCOW for AI版本,專門(men)(men)面向AI計(ji)算中心(xin),提供AI全流程(cheng)的開發與部署輔助系統(tong)。

以(yi)Align-Anything為(wei)例(li),鶴思能(neng)夠(gou)為(wei)其(qi)訓練(lian)與推理(li)(li)提供高效的資源調度和管理(li)(li),確保模型(xing)在昇騰NPU上的穩定運(yun)行,而(er)SCOW則能(neng)夠(gou)輔助(zhu)其(qi)從數據集管理(li)(li)、算法管理(li)(li)、模型(xing)管理(li)(li)、訓練(lian)管理(li)(li)等在內的AI訓練(lian)完整(zheng)流程。

鯤鵬昇騰科教創新卓越中心為北京大學的上述算力平臺提供了從國產化算力底座到完備軟件生態的全領域支撐

在智東西與北京大學計算中心系統管理室主任樊春的交流中,我們了解到,根據北京大學用戶一手體驗后的評價,目前鯤鵬CPU的性能已經與國外傳統CPU廠商基本拉齊,同時昇騰NPU在硬件性能、軟件生態方面也正在迅速發展。

昇騰生態(tai)(tai)方面的變化給(gei)樊春留下了極為深刻的印象。在過去5年中,他明顯感受到昇騰生態(tai)(tai)不斷完(wan)(wan)善,逐漸能夠適配大(da)量的主流開發工(gong)具,程(cheng)序、模型的移植只需幾行代碼就能完(wan)(wan)成(cheng)。

目前,昇騰異構計算架構CANN已經迭代至(zhi)8.0版(ban)本,創新開發(fa)100多個融(rong)合算子,覆蓋MoE、多模態等主要場景,顯著(zhu)提升大模型性(xing)能。

此外(wai),CANN還支持(chi)安裝PyTorch拓展前端,這意味著用戶可以直接(jie)在昇騰設(she)備上(shang)選擇PyTorch作(zuo)為前端推理框(kuang)架,極大地便利了開發(fa)工作(zuo)。

MindSpeed支持(chi)(chi)多種主流訓練(lian)框(kuang)架,方便科研人(ren)員靈活切換,其支持(chi)(chi)的Megatron訓練(lian)框(kuang)架,從并(bing)行(xing)策略、內存優(you)(you)化(hua)(hua)、親和計算、通信優(you)(you)化(hua)(hua)等(deng)四大場景(jing)支持(chi)(chi)大語言模(mo)型、多模(mo)態模(mo)型等(deng)訓練(lian)場景(jing)優(you)(you)化(hua)(hua)。MindIE、vLLM昇騰(teng)插件等(deng)工具幫助(zhu)實現運行(xing)加(jia)速、調(diao)試調(diao)優(you)(you)和快(kuai)速遷移部署。

在本屆KADC大會上發布(bu)的(de)Align-Anything框架就是(shi)昇騰(teng)生態的(de)受益者之(zhi)一。通過CANN的(de)算子自動融合和vLLM昇騰(teng)插件等優化,Align-Anything節(jie)省了14.9%的(de)訓(xun)練時間,并提高了近(jin)200%的(de)Tokens吞吐量。

樊春透露,北京大學 鯤鵬昇騰科教創新卓越中心的算力使用率維持70%左右,在高峰期常常能達到90%甚至是100%。用戶對鯤鵬、昇騰產品的直觀感受是“程序跑得通”、“性能還不錯”,用戶滿意度較高。

這些用(yong)戶的直(zhi)觀感受和真實(shi)數據,充分體現了(le)鯤鵬昇騰(teng)科教創(chuang)(chuang)新卓(zhuo)越中心在(zai)構建(jian)高性能(neng)、易用(yong)性強的算力底座方面的全面支撐,有(you)效推動了(le)前沿AI研究的創(chuang)(chuang)新與發展。

二、上交?華為:“交我算”鯤鵬算力助力科研,自研分子模擬算法實現突破

本屆KADC 2025大會上,上海交(jiao)(jiao)通(tong)大學的科研(yan)團(tuan)隊也帶來了(le)在(zai)鯤(kun)鵬、昇(sheng)騰支(zhi)持下的最(zui)新(xin)科研(yan)成(cheng)果(guo)。該(gai)校的徐振禮教(jiao)授團(tuan)隊在(zai)鯤(kun)鵬處理器上實現了(le)高(gao)精度、高(gao)效率及高(gao)擴展性的分子動力(li)學模擬計算(suan)。除了(le)算(suan)法本身的創新(xin)之外,這一研(yan)究成(cheng)果(guo)也離不(bu)開上海交(jiao)(jiao)通(tong)大學自主研(yan)發的“交(jiao)(jiao)我(wo)算(suan)”平臺的支(zhi)持。

“交我算”自2013年開始建設,經過多年的發展,已建設成為國內領先的高校算力平臺。鯤鵬昇騰科教創新卓越中心建成后,相關算力資源也接入了“交我算”平臺,進一步擴展了其計算能力。

“交我算(suan)”目前涵(han)蓋云計算(suan)平臺(tai)、AI計算(suan)平臺(tai)、高性能(neng)計算(suan)平臺(tai)、科學大(da)數據平臺(tai)等,通(tong)過構建統(tong)一(yi)的聚合(he)門戶,為用戶提供一(yi)致的計算(suan)服務體驗。

其實,早在2021年,上海交通大學便在“交我算”平臺中上線了鯤鵬超算系統,這是國內高校第一個,也是目前規模最大的校級鯤鵬超算系統,擁有(you)100個計(ji)算節點,共計(ji)12800個CPU核,過去(qu)數年中(zhong),鯤鵬超算支持(chi)了上海交通大學(xue)物理學(xue)、化學(xue)、生命科學(xue)、材料學(xue)等(deng)不同領域的科研(yan)項目,獲得不少好評。

鯤鵬昇騰科教創新卓越中心建成后,據上海交通大學物理學院的一位教授分享,他們在交我算的鯤鵬超算上進行了大規模的蒙特卡諾模擬,ARM平臺的效率甚至比自有的小型服務器快了1.5倍多。

上海交通大學材料學院的一位教授則稱,“交我算”鯤鵬集群多核并行效率很高,遠遠超出想象,跨節點并行同樣具有很好的效率。平臺軟件(jian)比較齊全,可無(wu)縫銜接,極為方(fang)便。

交我(wo)算(suan)平(ping)(ping)臺(tai)所使用(yong)的(de)鯤(kun)鵬處理器基于ARM指令(ling)集。該平(ping)(ping)臺(tai)打造(zao)了多(duo)核集群(qun)架構,單節(jie)點配備128核,尤(you)其適(shi)用(yong)于并行(xing)計算(suan)場景。這為“交我(wo)算(suan)”平(ping)(ping)臺(tai)上的(de)諸(zhu)多(duo)科研項目提供了優化方向。

徐振禮教授團隊(dui)的科研項目(mu),便(bian)充分發(fa)揮(hui)了鯤鵬處理器(qi)(qi)的多核并行(xing)計算(suan)能力,團隊(dui)使用MPI并行(xing)編程模型開(kai)發(fa),對創新自研RBE算(suan)法(fa)實(shi)(shi)現了進程級并行(xing)。鯤鵬處理器(qi)(qi)還支(zhi)持ARM NEON向量化(hua)指(zhi)令集(ji)和鯤鵬數學庫,實(shi)(shi)現了數據級并行(xing),進一步提升了算(suan)法(fa)的運行(xing)效(xiao)率。

鯤鵬昇騰科教(jiao)創新卓(zhuo)越中(zhong)心也支持(chi)了上(shang)海(hai)交通(tong)大(da)學許多其(qi)他的(de)科研項目。上(shang)海(hai)交通(tong)大(da)學醫學院的(de)一(yi)篇(pian)科研論(lun)文,就是在鯤鵬平臺的(de)支持(chi)和(he)卓(zhuo)越中(zhong)心的(de)計算(suan)資源保障下,登(deng)上(shang)了國際期刊Nature的(de)子(zi)刊。

更為側重AI計算(suan)能(neng)力的昇騰(teng),不僅給上海交(jiao)通大學的AI相(xiang)關研(yan)究提供算(suan)力支(zhi)持,也將(jiang)AI帶到了課堂(tang)教學之(zhi)中(zhong)。

基于昇(sheng)騰算力本地化部署的(de)國產模型(xing),已成為了上海交通大(da)學(xue)AI應用平臺的(de)新一代大(da)模型(xing)底(di)座,給高等數(shu)學(xue)、概率統計、線(xian)性代數(shu)等課程的(de)數(shu)學(xue)深度推理AI學(xue)習(xi)工具帶來升級,支(zhi)持了從科研(yan)到教育實踐的(de)全鏈條(tiao)創新。

結語:鯤鵬昇騰深耕高校,培育未來自主創新人才

鯤鵬昇騰科教創新卓越/孵化中心與國內高校的緊密合作,正在構建一種創新性的產學研協同創新范式,這種合(he)作模式并非只是簡(jian)單(dan)的硬(ying)件設(she)施供給,而是致(zhi)力于打造一(yi)個(ge)完整的自(zi)主創新(xin)人才培養生態系(xi)統(tong)。

這種模式首先為高校教育注入了產業活力。鯤鵬昇騰科教創新卓越/孵化中心將實際應用中的真實案例、前沿技術和行業標準帶入課堂,豐富了教育的場景,有效彌補了產教之間的鴻溝。

對高校學生而言,鯤鵬昇騰科教創新卓越/孵化中心讓他們于在校期間就能接觸鯤鵬、昇騰技術,并完整參與國產技術體系的實踐。這種模式讓人才培養不再滯后于產業發展,而是實現了與產業需求的同步,不僅為學生們贏得了顯著的職業發展優勢,也為產業的未來發展儲備了強大的智力資源。

同時,高(gao)校的(de)(de)創新(xin)能(neng)力與企業的(de)(de)工程化(hua)能(neng)力通過算力平臺(tai)實現(xian)有機結合,最(zui)終加速了科研(yan)創新(xin)成果(guo)的(de)(de)產出(chu),并促進了科研(yan)成果(guo)的(de)(de)快速轉化(hua)和(he)落地。

從更為宏觀的角度來看,鯤鵬昇騰科教創新卓越/孵化中心通過與高校的緊密合作,提前培養了一批兼具“國產技術基因”與深厚專業素養的人才。他們(men)不(bu)僅具備過硬的(de)(de)(de)技(ji)術能(neng)力,而且對以鯤鵬(peng)昇(sheng)騰為(wei)代表的(de)(de)(de)自主技(ji)術有著深刻的(de)(de)(de)價值認同與情感歸屬,有望成(cheng)為(wei)未來科(ke)技(ji)創新的(de)(de)(de)“種子”。

展望未來,這種模(mo)式有望逐(zhu)漸形成一個(ge)良性循環的生(sheng)態(tai)系統。企業與高校聯手培(pei)育大量優(you)質(zhi)人(ren)才,而人(ren)才在(zai)高校科研過程中積累的知識資產,將為產業升級(ji)提(ti)供助(zhu)力,進(jin)而反哺整個(ge)產業生(sheng)態(tai)的蓬勃發展。