智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影

推理模(mo)型潮真的來了!

自OpenAI的o1深(shen)度推理模(mo)(mo)(mo)型發(fa)(fa)布(bu)以來,國內外已有(you)(you)不少(shao)企業陸續發(fa)(fa)布(bu)“類(lei)o1”模(mo)(mo)(mo)型,僅在國內便有(you)(you)Kimi-k1、GLM-Zero、DeepSeek-r1等數(shu)款模(mo)(mo)(mo)型。

去年年底,OpenAI在罕見的(de)(de)12天連(lian)續發布(bu)中帶來了(le)(le)o3模型(xing),推理能力大幅(fu)提升,給擔憂大模型(xing)發展放緩的(de)(de)業界(jie)人士打了(le)(le)一劑(ji)強心針,并將這一賽(sai)道的(de)(de)熱度推向新(xin)的(de)(de)高點。

英偉達CEO黃仁勛也在上周的CES主旨演講中談到,在傳統意義的大算力、大數據、大模型Scale路徑之外,業界還可依靠后訓練(如強化訓練)和模型的測試時計算(即“推理”)來提升模型的性能。

“標王”科大訊飛發布推理模型!算力全國產,數學能力國內第一,驚艷一線教師

今天上午,作為“AI國家隊”、同時也是“大模型標王”的科大訊飛也發布了訊飛星火深度推理模型X1

依托訊飛在行業、企業落地方面的積累,星火X1成為國內唯一采用全國產算力平臺率先落地到真實應用場景的深(shen)度推理模型(xing),并在教育、醫療等領(ling)域展現出優勢。

星(xing)火(huo)X1發布后,智(zhi)東(dong)西在第一(yi)時間(jian)進行了上手實測(ce),星(xing)火(huo)X1能勝任全(quan)學(xue)段的大部分(fen)數學(xue)問題(ti),模型推理速度也比較理想(xiang)。在全(quan)國(guo)產算力的基(ji)礎(chu)之上,這(zhe)一(yi)效果(guo)更顯(xian)得難(nan)能可貴。下面就(jiu)讓我們來(lai)看看這(zhe)款模型的具(ju)體表現吧。

一、難倒一眾大模型的數學題,星火X1輕松搞定

數學,一直是(shi)許多不具備深度推(tui)理、思考能力的大模型繞不過(guo)去的一道坎,對星火(huo)X1的測試(shi)也從這里開始。

在(zai)開(kai)始測試之前(qian),我(wo)們可以先看看其(qi)它模型(xing)在(zai)數學問題上的表(biao)現。

最簡單(dan)的比(bi)大小(xiao)問(wen)題,其實已經能難(nan)倒部分參數規模較(jiao)小(xiao)的模型。

“標王”科大訊飛發布推理模型!算力全國產,數學能力國內第一,驚艷一線教師

▲左側為Anthropic Claude 3 Haiku,右側為微軟Phi-4

在高(gao)中競(jing)賽(sai)題面前,即便是最新(xin)的旗艦模型(xing)也很難保證高(gao)正確率(lv)。

“標王”科大訊飛發布推理模型!算力全國產,數學能力國內第一,驚艷一線教師

▲國(guo)內兩款旗艦模型回答高中競賽數(shu)學題(ti),回答均(jun)錯誤

參(can)數在(zai)幾(ji)十億(yi)(yi)、幾(ji)百億(yi)(yi)不等的(de)(de)模(mo)(mo)型(xing)在(zai)困難數學問題(ti)上落敗其實并不讓人感到(dao)意外(wai),但為何參(can)數達到(dao)上千億(yi)(yi)的(de)(de)旗(qi)艦模(mo)(mo)型(xing)也無法(fa)破解此類難題(ti)呢(ni)?

其實,模型能力并非影響大模型復雜問題求解效果的唯一因素,是否具備規劃、反思、迭代等深度推理能力才是關鍵

不具備上述能力的模型在回答問題時,更像是“單次生成”的,模型更多地是憑借自己在預訓練階段培養出的“直覺”、“印象”在回答問題,也不會對前序生成的內容進行判斷、驗證或是修改。這種方式的優點在于速度快、效率高,但其實與人類在解決復雜問題時的思考模式有很大差異。

而具備深度推理能力的模型則會通過思維鏈(Chain-of-Thought)等方式將(jiang)復雜問題分步(bu)拆解簡化,在(zai)生成回答(da)的過(guo)程(cheng)(cheng)中(zhong)進行(xing)反(fan)思、驗證(zheng)。這類模型在(zai)訓(xun)練過(guo)程(cheng)(cheng)中(zhong),還會使用上述(shu)推理時產生的數據進行(xing)強(qiang)化訓(xun)練。

深(shen)度推理(li)能力(li)讓星(xing)(xing)火X1能以(yi)較(jiao)高的(de)正(zheng)確率,解(jie)答困難數學問題(ti)。在面對這(zhe)道(dao)高考數學多(duo)選(xuan)題(ti)壓軸題(ti)時,星(xing)(xing)火X1順(shun)利完成了從理(li)解(jie)題(ti)目(mu)到解(jie)題(ti)再到驗(yan)證的(de)全(quan)流程,答案完全(quan)正(zheng)確。

“標王”科大訊飛發布推理模型!算力全國產,數學能力國內第一,驚艷一線教師

星火X1在畫面右側呈現了其思考過程,在對話框里撰寫主要的解題過程,這種呈現方式對用戶的使用體驗來說也更為友好。在閱讀思考過程中,可以發現星火X1的反思、迭(die)代機制(zhi)確(que)實發揮了作用:它(ta)自己(ji)糾正了(le)計算過(guo)程中的一個錯誤。

國內(nei)某款同類推理模型(xing)雖然用(yong)時稍(shao)短,但(dan)最終的結果有誤。雖然它(ta)進行了驗算,但(dan)并未發(fa)現其中的問(wen)題。

“標王”科大訊飛發布推理模型!算力全國產,數學能力國內第一,驚艷一線教師

科大訊(xun)飛作為一家(jia)人工(gong)智能企業,布局智慧教育領域(yu)已有20余年,目前常態化(hua)使用訊(xun)飛智慧教育產品的學校數量已超5萬所。

具體到數學上,2023年,當大部分模型還處于重理輕文的狀態時,訊飛星火就已經憑借比平均得分超出20%的成績,在《MIT科技評論(中國版)》進行的一場測試中成為數學專項的絕對領先者

在(zai)2024年的科大訊(xun)飛1024開發者節上,全新升(sheng)級的星火4.0 Turbo的數(shu)學(xue)能(neng)力超越GPT-4o,效率相對提升(sheng)50%。

“標王”科大訊飛發布推理模型!算力全國產,數學能力國內第一,驚艷一線教師

去年,科大訊飛聯合中國教育科學研究院發布了基于“問題鏈”的高中數學智能教師助手。今天發布(bu)的(de)X1或(huo)將給訊(xun)飛旗下的(de)數學(xue)類產品帶(dai)來更強大的(de)能(neng)力。

訊飛介紹,星火X1已參加了從小高初數學(含競賽)到AIME邀請賽等覆蓋全學段的多項考試,得分水平處于業界第一梯隊,其中多項指標國內第一。

“標王”科大訊飛發布推理模型!算力全國產,數學能力國內第一,驚艷一線教師

二、大模型年度標王背后:深度理解行業是關鍵

盡管AI模型在推理、思考等能力上取得了顯著進展,但這僅僅是基礎。AI的真正價值不僅在于其技術本身有多先進,還在于能否深度理解行業場景并解決實際問題。

當AI進入行業深水區,通用大模型在領域知識上的相對匱乏、對行業需求的理解不足,以及高昂的使用成本,使得大模型的能力難以直接轉化為實際生產力。正因如此,通用基礎模型(xing)(xing)與行(xing)業特定需求相結合的行(xing)業大模型(xing)(xing)解決方案應運而生。

過去一年,國內行業大模型的發展勢頭迅猛。中科院自動化所和中鐵建設集(ji)團(tuan)聯(lian)合發(fa)布(bu)面(mian)(mian)向(xiang)建筑領(ling)域的多模(mo)(mo)態行(xing)業大模(mo)(mo)型(xing)(xing);中國(guo)農(nong)業大學(xue)發(fa)布(bu)了一(yi)系列(lie)面(mian)(mian)向(xiang)種植(zhi)、養殖等細(xi)分行(xing)業的大模(mo)(mo)型(xing)(xing);科大訊飛去年則(ze)與央國(guo)企及20多個行(xing)業的頭部企業一(yi)起發(fa)布(bu)行(xing)業大模(mo)(mo)型(xing)(xing),覆蓋通信、金融(rong)、能源、教育、政務、醫療等300多個應用(yong)場(chang)景。

招投標數據是評估行業大模型趨勢和成效的重要參考依據之一。根(gen)據(ju)智能超參數(shu)的統計,2024年可謂是大模型落地元年。2023年,市場公(gong)開(kai)披露的大模型中標項目(mu)及(ji)金(jin)額分別為92個(ge)、7.89億元。2024年,這兩個(ge)數(shu)字(zi)飆升至1520個(ge)、64.67億元,同(tong)比(bi)增長15.5倍(bei)和(he)7.2倍(bei)。

“標王”科大訊飛發布推理模型!算力全國產,數學能力國內第一,驚艷一線教師

▲2024年1-12月(yue)中國大模型(xing)中標項目(mu)監測報(bao)告(圖(tu)源(yuan):智能超參數)

過去一年,科大訊飛是大模型招投標領域表現最為突出的企業,中標項目達91個,中標金額高達約8.48億元,兩項指標均位居行業第一,且遠(yuan)超其他(ta)廠商,成為行(xing)業大模型的(de)領(ling)跑者和(he)年(nian)度“標(biao)王”。

“標王”科大訊飛發布推理模型!算力全國產,數學能力國內第一,驚艷一線教師

▲2024年Top6通用大模型廠商中(zhong)標排行榜(圖(tu)源:智能超(chao)參(can)數)

與部分大(da)模型企(qi)業(ye)先從C端(duan)突破,再到B端(duan)尋求商業(ye)化的路徑不同,訊飛在2022年底——也就是生成式(shi)AI浪潮興起之(zhi)際——便瞄準行業(ye)和企(qi)業(ye)市場,啟動了(le)“1+N”戰略。

在這一戰略中,“1”代表(biao)通(tong)用(yong)認知智(zhi)能大模(mo)型算法研發(fa)及高(gao)效訓練底座平臺(tai),而“N”則代表(biao)應(ying)用(yong)于教育、醫療、辦公等多個領域的(de)專用(yong)大模(mo)型版本。

這一布局使訊飛能夠快速將大模型技術落地到具體行業場景中,推動智能化轉型。此番發布的星火X1也成為業內率先成功落地具體場景的深度推理模型

教育方面,這款深度推理模型已經走進了北京、合肥等地的學校,輔助一線老師的教學工作。來自合肥七中的米老師分享,對于難度中上的題目,星火X1能輔助老師快速理清講解思路;對學生來說,星火X1的詳細解答可以引導學生理解解題步驟,進而系統地理解和掌握知識點

醫療方(fang)面,基于知識(shi)反思和(he)思維鏈技(ji)術(shu),結合醫療循證推(tui)理(li)技(ji)術(shu),星火X1具備(bei)了醫療復(fu)雜推(tui)理(li)能力,在(zai)專科輔助診斷和(he)復(fu)雜病(bing)例(li)內涵質控(kong)上的準確(que)率目前(qian)都達到了90%。2025年上半年,基于星火X1的訊飛醫療大模型升級(ji)版將會(hui)正(zheng)式發布。

三、芯片層層封鎖之下,世界需要第二種選擇

我們已經看到,國內大模型在行業應用中的落地取得了顯著進展,但其背后仍存在隱憂。無論(lun)是模型的(de)(de)訓練還是推(tui)理,都需要高性能的(de)(de)算力(li)平臺作為基礎。過(guo)去很(hen)長(chang)一段時間里,國內企業在高端算力(li)供應上長(chang)期依(yi)賴進口,尤其(qi)是英(ying)偉達(da)等(deng)國際巨(ju)頭的(de)(de)GPU產品。

當前,全球算力格局正發生深刻變化。隨著近期美國《人工智能擴散出口管制框架》的出臺,高端算力的獲取渠道進一步收窄,國內許多AI企業的研發和商業化落地都面臨巨大挑戰。美國對高端算力的出口限制,不僅暴露了國內企業在算力供應鏈上的脆弱性,更凸顯了國產算力自主化的緊迫性

國產算力的崛起,已不僅僅是一個技術問題,而是關乎中國AI產業能否在全球競爭中掌握主動權、實現可持續發展的戰略命題。我們需要(yao)一個靠得住的“第二(er)種選擇”

今天訊飛發布的星火X1,是國內首個完全依托全國產算力平臺的深度推理大模型,其背后的“飛星一號”是國內首個全國產萬卡算力集群,具備常態化支持萬億參數大模型訓練的能力。

這一由科大訊飛與華為聯合研發的算力平臺,實現了軟硬件的全棧國產化,標志著國產算力在性能上邁出(chu)了重要一步。

針對(dui)國產(chan)(chan)算(suan)力生態(tai)方面(mian)的短板,訊飛與華(hua)為(wei)攜手推(tui)進國產(chan)(chan)化算(suan)子(zi)的開發(fa)與優化。目前,雙(shuang)方已(yi)識(shi)別并聯合研(yan)發(fa)了超過100個大模型(xing)專用訓(xun)練(lian)/推(tui)理算(suan)子(zi),其中50多(duo)個算(suan)子(zi)已(yi)完成深度優化。

此外,針對行業普遍面臨的訓練中斷問題,訊飛構建了自動化故障處理體系,實現了80多種常見故障在10分鐘內自愈的能力,并支持4000+卡任務連續運行超過20天,顯著提升了算力平臺的穩定性和可靠性

2024年底,科大訊飛還聯合華為(wei)等(deng)企業推(tui)出(chu)新(xin)一(yi)代國產(chan)(chan)超(chao)大規(gui)模智(zhi)算平臺“飛星二號”。該平臺采用靈活(huo)的系統架構,能(neng)夠快速適配新(xin)模型(xing)與新(xin)算法,并為(wei)科研、教育(yu)、醫療等(deng)行業提(ti)供高(gao)效、精準(zhun)的智(zhi)能(neng)服務,進一(yi)步(bu)推(tui)動國產(chan)(chan)算力生(sheng)態的完(wan)善與應用落地。

結語:探索深度推理模型的中國道路

推理模型(xing)作(zuo)為下一階(jie)段大模型(xing)能力(li)提升的(de)(de)重要突破(po)口之一,正成(cheng)為大模型(xing)企(qi)業間競爭的(de)(de)核(he)心焦點,同(tong)時也是國家間AI實(shi)力(li)比拼的(de)(de)關鍵領(ling)域(yu)。推理能力(li)解(jie)鎖了模型(xing)在復雜(za)問題(ti)上的(de)(de)解(jie)決能力(li),也推動AI技術在實(shi)際場景中(zhong)的(de)(de)高(gao)效落地。

科大訊飛憑借(jie)過往在應(ying)用領域的(de)積累和(he)全國(guo)產算力平臺(tai)支撐,已在數(shu)學、醫(yi)學等傳統優(you)(you)勢(shi)領域發揮出推(tui)理模(mo)型(xing)的(de)優(you)(you)勢(shi),有望逐漸探(tan)索出一條深度推(tui)理模(mo)型(xing)的(de)中國(guo)道路。