智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 漠影

DeepSeek的(de)迅速躥紅,正(zheng)將大模(mo)型(xing)領域的(de)激烈(lie)競爭推向全新高(gao)度!

一方(fang)面,全球大模型廠(chang)商(shang)打(da)得火熱,DeepSeek登頂中美應用市(shi)場,OpenAI、谷歌(ge)紛(fen)紛(fen)出(chu)招反攻(gong);另一方(fang)面,算力競爭(zheng)作(zuo)為AI競爭(zheng)核心戰場的角(jiao)色被重塑,DeepSeek獲海內外各家云巨頭、芯片企業力挺。

隨之而(er)來(lai)的(de)是,DeepSeek在海外面臨重重考驗。美國、澳大利亞政(zheng)府(fu)宣布全面禁用(yong),意大利、愛爾蘭、英國等(deng)多國政(zheng)府(fu)或已開(kai)展(zhan)封鎖行動或計劃對DeepSeek進行審查(cha)。

這背后的一大隱憂就是,DeepSeek當下的成就也是基于以英偉達為代表的海外算力平臺達成,與此同時,海外針對芯片供應的封鎖手段不斷升級,給DeepSeek帶來的限制日益增多,在這樣的大背景下,實現國產算力的自主可控就顯得尤為關鍵,它不僅關(guan)乎DeepSeek未來的發展走向,更對整個行業的穩(wen)定與安全有(you)著舉足輕重的意義。

要(yao)想在(zai)(zai)這一賽道上搶占先機,算力(li)競爭早已(yi)成(cheng)為無(wu)法回避的關鍵戰場,縱觀整個國內市場,已(yi)經(jing)有(you)一家公司在(zai)(zai)全國產算力(li)平臺這條道路上先發制人(ren)。

2023年7月,國(guo)產頭部大模(mo)型玩家和國(guo)產算(suan)力提(ti)供方聯(lian)合拉開(kai)了全國(guo)產算(suan)力平(ping)臺(tai)的序幕,這就是訊飛星火大模型與華為昇騰自主創新算力平臺的結合。2023年10月24日,科大訊飛攜手華為正式宣布首個支撐萬億參數大模型訓練的萬卡國產算力平臺“飛星一號”啟用。2024年1月30日,首個在全國產算力平臺上訓練的訊飛星火V3.5發布,性能對標國際最先進水平,之后,訊飛星火大模型底座連續升級,截至目前仍然是國(guo)內唯(wei)一全(quan)棧國(guo)產算力訓練、推理雙實現(xian)的大模型(xing)

當下,大模型對于算力的需求,不僅如潮水般持續涌動,且呈愈演愈烈之勢,一路高歌猛進。與此同時,地緣政治的復雜博弈下,海外芯片遭遇的封鎖態勢愈發嚴峻,絲毫沒有緩和的跡象。在這樣的大環境下,國產大模型與國產算力的深度融合,將成為未來發展的必然走向

DeepSeek的(de)爆(bao)火將(jiang)對國內模型產業、算(suan)力(li)競爭(zheng)提出哪些(xie)新的(de)思(si)考?全國產算(suan)力(li)平臺在這(zhe)一階(jie)段的(de)重要(yao)性如何?它將(jiang)如何發力(li),推(tui)動國內大模型產業邁向全新的(de)發展高度?我們試圖找到這(zhe)些(xie)問題的(de)答案。

一、中國公司破局,性能和成本制勝美國同行

眾所周(zhou)知(zhi),算力(li)、算法、數據(ju)是AI時代的三大引擎,構建強大算力(li)集群(qun)、持續創新算法、廣泛(fan)收集和精細處(chu)理數據(ju)來推(tui)動大模型(xing)發展,無疑是業界(jie)一直以來的重點。

此次,DeepSeek就是通過算法創新實現突圍,其爆火的關鍵因素可以用兩點概括:性能成本

性能層面,DeepSeek R1在數學、代碼、自然語言(yan)推(tui)理等(deng)任務上(shang)達到國際一流(liu)水(shui)平。

但反常識的是,其強大性能背后并沒(mei)有望塵莫及的成本消(xiao)耗

根據DeepSeek的論文,其訓練成(cheng)本為(wei)557.6萬(wan)美(mei)元,使用了(le)2048顆H800 GPU,在兩個月內訓練了(le)6710億個參數的V3大模(mo)型,相當于280萬(wan)個GPU小時。

從其(qi)公布的API定價(jia)推算(suan),DeepSeek每百(bai)萬(wan)tokens輸入(ru)價(jia)格0.14美元(yuan)(yuan)(緩存命中(zhong))、0.55美元(yuan)(yuan)(緩存未(wei)命中(zhong)),每百(bai)萬(wan)tokens輸出價(jia)格2.19美元(yuan)(yuan),遠(yuan)低(di)于OpenAI o1甚至其(qi)最(zui)新發布的OpenAI o3-mini價(jia)格。

在算法(fa)優(you)化的路徑上(shang),深耕(geng)AI領域多年的科大訊飛,也在這兩個角(jiao)度有所(suo)積累。

科大訊飛的訊飛星火大模型自發布之初,就錨定了階段性的發展目標。2024年訊飛星火已經完成5次持續升級,持續(xu)對標GPT-4 Turbo和GPT-4o。

算力即國力!中美算力戰步步緊逼,中國AI公司手握“破局密碼”

就在今年1月初,其發布了具備深度思考和推理能力的訊(xun)飛(fei)星火深(shen)度推理模型(xing)X1,實(shi)現了更小尺寸(cun)、更高性能,多項測試集(ji)指標超過OpenAI o1。

算力即國力!中美算力戰步步緊逼,中國AI公司手握“破局密碼”

擅長深度推理訊飛星火X1可以在給出答案的同時,對解題思路和步驟進行拆解

算力即國力!中美算力戰步步緊逼,中國AI公司手握“破局密碼”

深度推理模型在處理復雜任務時,與其他模型相比,在推理(li)能力、特(te)征(zheng)學習、泛化學習等方面具有諸多(duo)獨特優勢。

其推(tui)理能力支持其更好處理多條件(jian)、多步驟(zou)的(de)(de)邏輯推(tui)理問題以及分析(xi)(xi)復雜(za)(za)因果關系等,同時當深入B端企(qi)業的(de)(de)業務場景時,還能對(dui)復雜(za)(za)數據進行深入分析(xi)(xi)、推(tui)理,為(wei)其制(zhi)定戰略、規劃(hua)業務方向、優(you)化資(zi)源配置等提供更精(jing)準的(de)(de)決策依據。

同時,深度推理模型還具有(you)強大的泛化能力(li),可以(yi)學習到數(shu)(shu)據的一般規律和模式,遇到新(xin)的數(shu)(shu)據或(huo)問題(ti)也能保持(chi)相對穩定(ding)的性能。

在(zai)這些層面,深(shen)度推(tui)理模型已經展現出(chu)了提高(gao)(gao)效率和競爭(zheng)力的(de)優(you)勢。而對于用戶對輸出(chu)速度有(you)高(gao)(gao)要求、簡單直接的(de)任務場景,通用大模型更為契合(he)用戶需求。

因此,未來(lai)側重于提供廣泛(fan)知識和(he)基(ji)礎能(neng)力的通(tong)用大模型與專注(zhu)解(jie)決復(fu)雜問題、進(jin)行深度推理的深度推理模型,兩者將(jiang)互為補(bu)充在特(te)定的任(ren)務和(he)領(ling)域中(zhong)發揮關(guan)鍵(jian)作用。

訊飛星火X1還有一大頗受關注的特征就是,全(quan)國產算力平(ping)臺訓(xun)練。自主可控(kong)的(de)算力(li)平臺,從根本上為大模型成(cheng)本控(kong)制(zhi)提(ti)供了支持。

科大訊飛董事長劉慶峰坦言,由于訊飛星火X1的部分任務確實很難,而且在國產化算力平臺上的訓練時間較短、數據量較少,還有很大提升空間,未來(lai)一個月內將有新(xin)升級

DeepSeek用算法創新為國產(chan)GPU打(da)開了“黃金窗口”,科大(da)訊飛的全(quan)棧自主可控技術體系已(yi)經在(zai)這(zhe)種(zhong)AI新戰局中先(xian)人一步。

二、打破壟斷,全國產算力平臺沖鋒

一(yi)直(zhi)以來,在AI和(he)高(gao)性(xing)能計(ji)算等領域(yu),英(ying)偉(wei)達的GPU常被視作圭臬(nie),但從芯(xin)片到(dao)DeepSeek,美國(guo)(guo)連番的禁令發(fa)布,使得國(guo)(guo)產(chan)算力的關鍵價值愈(yu)發(fa)凸顯,一(yi)路水漲船(chuan)高(gao)。

在算法創(chuang)新一路疾馳、強勢驅(qu)動行業變革的(de)背后,算力領域既(ji)迎(ying)來了(le)前(qian)所未(wei)有的(de)發展(zhan)機遇,也面(mian)臨著諸多嚴(yan)峻(jun)的(de)挑(tiao)戰。

首先是機遇

DeepSeek以低成本達成高性能成果,吸(xi)引了(le)諸多(duo)頭部平臺和芯片(pian)廠商合作,不僅(jin)為自身發展(zhan)拓展(zhan)了(le)市場空間,同(tong)時(shi)盡管部分(fen)國產(chan)GPU在性能上與英偉(wei)達產(chan)品(pin)存在差距,但也使(shi)得(de)其在優化算法、創新應用場景等方面看到了(le)更多(duo)發展(zhan)的可能性。

與(yu)此同(tong)時,其已(yi)經(jing)走通的(de)低(di)成本、高性能發展范式,為(wei)諸(zhu)多技術、資金積累并不充分的(de)AI企(qi)業(ye)提(ti)供了借鑒和思路,使其能在有限資源下實現大模型性能突破。更多企(qi)業(ye)的(de)入局,對(dui)算(suan)力的(de)需求(qiu)增加,同(tong)樣也是國產算(suan)力的(de)一大市場機遇。

其次是挑戰

全國產(chan)的算力平(ping)臺上做訓(xun)練+推理難度極大,但這(zhe)兩者缺一不(bu)可。

大(da)模(mo)型(xing)對算力的需求包含訓(xun)練(lian)和推(tui)理(li)兩個(ge)方面,受限于(yu)國產芯片(pian)的單卡性能、各廠家生態(tai)體(ti)系不(bu)兼容(rong)、大(da)規模(mo)訓(xun)練(lian)時故障率高(gao)、互聯通信等因素,大(da)模(mo)型(xing)訓(xun)練(lian)的難度相(xiang)比于(yu)推(tui)理(li)更高(gao)。

除此以外,大模型訓練期間并(bing)行(xing)算(suan)法的(de)(de)優化、數據(ju)傳輸(shu)速度(du)、軟(ruan)件工具(ju)鏈(lian)的(de)(de)成熟、專業人(ren)才等都會成為構建(jian)全國產算(suan)力平臺的(de)(de)門檻,這也讓諸(zhu)多企業望而卻步,因此部分(fen)公司(si)鑒于訓練難度(du)高,會選擇專攻推(tui)理。

從 “全國產” 算力平(ping)臺的維度審視,其前路(lu)是未經(jing)踏(ta)足的 “無人區”。

當構建超大規模的(de)全國產算力集群時,需要(yao)進行國產算力平臺的(de)適配和效率優化(hua),而其中如何(he)實現高(gao)效的(de)集群調度(du)、穩定的(de)通信架(jia)構以及低延遲的(de)數據交(jiao)互(hu),尚無(wu)成熟的(de)技(ji)術路徑和實踐經驗可供參考。

機遇與挑戰并存的當下,首先(xian)將(jiang)“全國產算力平臺”變成(cheng)現實的就是科大訊飛

在研發團隊的長期(qi)攻堅下,基于科大(da)訊(xun)飛(fei)與華為(wei)打造(zao)的首個支撐(cheng)萬億參數大(da)模(mo)型訓練(lian)的萬卡國產算力平臺(tai)“飛(fei)星一號(hao)”訓練(lian),星火大(da)模(mo)型實(shi)現全棧國產適配(pei)優(you)化。

劉慶峰曾透露,在昇騰910B的基礎上,科大訊飛攻克了諸多疑難雜癥,解決了數百次基礎軟硬件問題、模型適配問題等,使得大模型訓練從對標A100/A800的20%~30%提升到90%以上。國(guo)產算力(li)的(de)提升,使得國(guo)內(nei)企業在(zai)進(jin)行大模(mo)型訓練(lian)時(shi),對國(guo)外算力(li)租賃(lin)的(de)依賴降(jiang)低,這對于降(jiang)低大模(mo)型成(cheng)本的(de)影(ying)響深遠。

繼“飛星一號”之后,2024年10月,科大訊飛、華為、合肥市大數據資產運營有限公司三方聯合打造的國產超大規模智算平臺“飛星(xing)二號”正(zheng)式啟動,并將于(yu)今年交付首批算力。

訊飛星火大(da)(da)模型正(zheng)是全(quan)國產算力平(ping)臺最直接的驗證,也是科大(da)(da)訊飛在(zai)全(quan)國產算力平(ping)臺這條(tiao)道路上前行的一個關鍵里程碑。

自主可控、全國產算(suan)力已(yi)經深深刻進了科(ke)大(da)(da)訊飛(fei)的(de)發展基(ji)因中,現狀也證明,科(ke)大(da)(da)訊飛(fei)走“全國產算(suan)力平臺”的(de)必要性與正確(que)性。

三、生態協同、行業應用,國內大模型產業鏈已起飛

DeepSeek在成(cheng)為業界熱議焦點的(de)同時,開啟(qi)了國內大(da)模(mo)型產業對生態(tai)協同與行業應用的(de)深度(du)思(si)考。

國內大模型上下游(you)產(chan)業鏈(lian)玩家紛紛宣布合作。不僅有(you)(you)摩爾(er)線程、燧原(yuan)科(ke)技等國產(chan)GPU企(qi)業,還有(you)(you)華為云、阿(a)里云等國內云計算巨頭,無問芯(xin)穹、硅(gui)基(ji)流(liu)動等AI基(ji)礎設施企(qi)業,均已宣布適配(pei)及上架DeepSeek模型服(fu)務。

DeepSeek狂飆在前,也給大模型產業發出警醒,數(shu)據安全、行業(ye)應(ying)用、生態健康正借勢發展。

算法創新、算力發展背后,數據同樣是(shi)模型能(neng)力發展的重(zhong)中之重(zhong),讓大模型深入(ru)企業內部、重(zhong)要(yao)行業的關鍵(jian)之一就(jiu)是(shi),能(neng)保證其核(he)心數據的安全,并(bing)使得這些數據被有效利用起來。

在AI領域20余(yu)年(nian)的深耕(geng),也為科(ke)大訊(xun)(xun)飛提供了數(shu)據優(you)勢。科(ke)大訊(xun)(xun)飛正利用自主可控的技術能(neng)力(li)和行業合作優(you)勢,構建高質量數(shu)據飛輪。

場景(jing)應用(yong)層(ceng)面(mian),大模(mo)型發展的(de)核心命題就(jiu)是深(shen)(shen)入(ru)場(chang)景(jing),實現降本增(zeng)效。在這(zhe)一關鍵節點(dian),如何讓DeepSeek帶動的(de)產(chan)業(ye)紅利深(shen)(shen)入(ru)不同行業(ye),真正在關鍵場(chang)景(jing)發揮(hui)作用,勢必需(xu)要(yao)結合此前產(chan)業(ye)玩(wan)家的(de)經驗積累,找到最快落地的(de)場(chang)景(jing)。

產業協同同樣關鍵,產(chan)業(ye)鏈玩家協(xie)同發力不斷(duan)優化算法、挖掘模型(xing)潛力的同時,立足行業(ye)痛點開展應用創新,借此使(shi)得大(da)模型(xing)產(chan)業(ye)健康、正向發展。

從DeepSeek看(kan)國產算力、數據安(an)全、場景應用(yong)、行(xing)業(ye)創新,我們(men)發現,科(ke)大訊飛(fei)的業(ye)務布局顯示,其(qi)已(yi)經先發制人。

第一天做大模型,科大訊飛就確定了“1+N路徑”。結(jie)合通用底座(zuo)、工(gong)具鏈和知識工(gong)程,訊(xun)飛(fei)星(xing)火擁有從(cong)頂(ding)層規劃(hua)到執(zhi)行落地(di)的全套解決(jue)方案,包(bao)含(han)“建算力、理數據、訓模(mo)型、落場(chang)景、保安全、精運(yun)營”。

算力即國力!中美算力戰步步緊逼,中國AI公司手握“破局密碼”

發展至今,在大模型招投標市場,科大訊飛央國企中標數量和中標金額雙第一,還獲得教(jiao)育、醫療、金融等(deng)多(duo)個(ge)領域應(ying)用第一,其中在教育領(ling)域(yu),其服務1.3億師生、5萬余所學校,深度(du)參與12個(ge)(ge)國(guo)家(jia)智(zhi)慧教育示范(fan)區建設(she);醫(yi)療(liao)領(ling)域(yu)智(zhi)醫(yi)助理覆蓋677個(ge)(ge)區縣服務全(quan)國(guo)600家(jia)等級醫(yi)院(yuan),與7家(jia)排(pai)名(ming)前十醫(yi)院(yuan)深度(du)合(he)作;金融(rong)領(ling)域(yu)交行、人保等頭部金融(rong)客戶占位中標27個(ge)(ge)。

這些深度合作的行(xing)業案(an)例已經成(cheng)為科大(da)訊飛發(fa)展大(da)模(mo)型的關鍵(jian)積(ji)累,并反哺行(xing)業,以技術迭代、效率提升(sheng)等形式,為行(xing)業發(fa)展注入源源不(bu)斷的動力,實現互利共贏的良性循環(huan)。

國內全(quan)產業(ye)鏈的(de)協(xie)作使(shi)得(de)中國大(da)模型產業(ye)的(de)發展邁入新的(de)階段,科大(da)訊飛的(de)布局也已經(jing)為(wei)產業(ye)鏈發展打(da)了(le)個樣(yang)。

科大訊飛的生態布局可以用一句話概括:加強(qiang)C端用(yong)戶體驗、深(shen)耕(geng)B端行(xing)業應(ying)用(yong)以(yi)及選(xuan)擇G端合作(zuo)的(de)戰略布局

劉(liu)慶峰提到,科(ke)大(da)訊(xun)飛要做(zuo)的事是(shi)加(jia)強C端、做(zuo)深B端,選(xuan)(xuan)擇(ze)G端。學習機是(shi)科(ke)大(da)訊(xun)飛必做(zuo)的大(da)模(mo)型時代的跨(kua)越鴻(hong)溝的C端產品;B端持續深化合作(zuo)汽車、金(jin)融和運營商;G端選(xuan)(xuan)準城(cheng)市,搶抓機遇。

科大(da)訊飛(fei)已(yi)經在全國(guo)產平臺的(de)基礎上長出參天大(da)樹,并從芯片適配到框架優化,形(xing)成一套可復用的(de)“國(guo)產算力大(da)模型方法論”,推(tui)動(dong)國(guo)產技術的(de)崛起。

結語:DeepSeek掀起浪潮,訊飛用國產算力借勢突圍

DeepSeek爆(bao)火改變(bian)了大模型(xing)產業的發展格(ge)局,就連OpenAI CEO薩姆·阿爾特(te)曼(Sam Altman)也坦言OpenAI的領先優勢正在縮小。

在這波(bo)變革浪潮中,算(suan)法創新(xin)持續迭代,也讓全國(guo)產算(suan)力平臺的(de)重要性愈發(fa)凸顯。科大訊(xun)飛的(de)前瞻性布(bu)局(ju)在此刻被推(tui)向新(xin)的(de)巔峰(feng)。

已經在(zai)全(quan)國產算力(li)平臺、模型場景應用、生態(tai)協(xie)作布局上(shang)闖(chuang)出一(yi)條路徑的科大(da)訊飛(fei),已經將大(da)廈建在(zai)國產的地基(ji)上(shang),助推中國AI產業在(zai)全(quan)球競爭中邁出關鍵一(yi)步(bu)。