
智東西(公眾號:zhidxcom)
編譯 | 程茜?
編輯 | 心緣
阿(a)聯酋的高性能推理模型,剛(gang)(gang)剛(gang)(gang)開(kai)源!
智東西9月10日消息,今日上午,阿布扎比穆罕默德·本·扎耶德人工智能大學(MBZUAI)聯合AI創企G42推出的新低成本推理模型K2 Think,相關論文已arXiv預印本平臺(tai)發表,昨(zuo)天下午模(mo)型在(zai)Hugging Face、GitHub上開源。
K2 Think有320億個參數,基于阿里巴巴的開源模型Qwen 2.5構建,性能超過參數規模(mo)是(shi)其20倍(bei)的OpenAI和DeepSeek旗艦推理模(mo)型。
在復(fu)雜數學任務基準測試中,研究人員計算了K2 Think在AIME24、AIME25、HMMT25和OMNI-Math-HARD中的平均得分,超過GPT-OSS、DeepSeek V3.1、Qwen3 235B-A22B等一眾開源模型。
技術報告中,研究人員提到K2 Think背后有六大技術創新協同,研究人員通過監督微調擴展基礎模型的思維鏈能力,然后通過可驗(yan)證獎勵強化學習(RLVR)增強推理性能、利用推理(li)時間(jian)技術(shu)增強模型,最后在部署K2-Think時進行兩項速度優化,包括推測解(jie)碼和Cerebras的晶(jing)圓級芯(xin)片,同時使用公(gong)開可用的開源(yuan)數據集訓練。
值得一提的是,研究人員將K2-Think部署在Cerebras晶圓級芯片WSE系統,WSE每秒可交付約2000個token,相比在NVIDIA H100/H200 GPU等常規部署環境中觀測到的標稱每秒200個token,性(xing)能提(ti)升了10倍(bei)。
K2-Think背后有兩大(da)強力推手(shou):一方是(shi)穆罕默德(de)?本?扎耶德(de)人(ren)工智能大(da)學(MBZUAI),這是(shi)阿(a)拉伯(bo)聯合酋(qiu)長國專門設(she)立、聚焦AI研究的機構;另一方是(shi)阿(a)布(bu)扎比支(zhi)持(chi)的科技集團G42,不僅在2024年拿到(dao)微(wei)軟15億美元投資(zi),還在阿(a)聯酋(qiu)建造OpenAI、軟銀等企業聯合投資(zi)的AI基(ji)建 “星際之(zhi)門”。
該模型的權重、訓(xun)練數據(ju)、部署代(dai)碼(ma)和測(ce)試時優(you)化(hua)代(dai)碼(ma)已經在Hugging Face、GitHub上開源(yuan)。
Hugging Face地址:
GitHub地址:
K2 Think主(zhu)頁(ye):
技術報告:
//arxiv.org/abs/2509.07604
一、數學性能領先OpenAI、DeepSeek旗下開源模型,要為數學、科學提供特定用途服務
MBZUAI校長兼首席AI研究員Eric Xing在接受外媒WIRED采訪時透露,K2 Think是使用數千個GPU開發的,最終的訓練過程涉及200到300塊芯片。
K2 Think并(bing)非(fei)一個(ge)完整的大(da)語(yu)言模(mo)型,是專門用于推(tui)理的模(mo)型,能夠(gou)通(tong)過(guo)模(mo)擬推(tui)理方式來(lai)回答復雜(za)問題,而不是快速(su)綜合(he)信(xin)息(xi)來(lai)提供信(xin)息(xi)輸出,Xing提到,他們(men)在未來(lai)幾個(ge)月將(jiang)K2 Think整合(he)到一個(ge)完整的大(da)模(mo)型中。
在復(fu)雜數學領域,K2 Think在AIME 2024、AIME 2025、HMMT 2025 和 Omni-MATH-HARD四(si)個基準測試中的(de)平均得分為67.99分,超過規模(mo)更(geng)大(da)的(de)DeepSeek V3.1 671B、GPT-OSS 120B模(mo)型。
編程能力上,K2-Think在開源代碼能力基準(zhun)LiveCodeBench上獲(huo)得63.97分,超(chao)越了規(gui)模(mo)相近的同類模(mo)型GPT-OSS 20B、Qwen3-30B-A3B。
在用于評估(gu)大模(mo)型(xing)將復雜(za)科(ke)學問題轉化為可(ke)執行(xing)代(dai)碼能力的SciCode基(ji)準測試中,K2-Think獲得39.2分(fen)排名第二(er),與第一名的Qwen3 235BA22B僅有0.1分(fen)之(zhi)差(cha)。
在科(ke)學推理方面,模型(xing)在GPQA-Diamond基準測試中(zhong)的表現為71.08,表現優(you)于除OpenReasoning-Nemotron-32B、GPT-OSS 120B之(zhi)外的大多數(shu)開(kai)源(yuan)模型(xing)。
MBZUAI基礎模型研究所所長Hector Liu提到,K2-Think的特別之處在于,他們將其視為一(yi)個(ge)系統(tong),他(ta)們的(de)目(mu)標不是構建類(lei)似(si)ChatGPT的(de)聊天機器人,而是為數學和科學等領域的(de)特(te)定用(yong)途提供服(fu)務(wu)。
二、六項系統級創新,全訓練過程均采用開源數據集
K2-Think的技術報告顯示,其背后有六大技術創新,包括思維鏈監督微調、可驗證獎勵強化學習(RLVR)、推理前的Agent規劃、測試時擴展、推測解碼和推理優化硬件、僅使用公開可用的開源數據集訓練。
基于這種系統化的技術創新,K2-Think通過長鏈式思維監督微調增強了邏輯深度、可驗證獎勵的強化學習提高了解決難題的準確率、Agent式規劃使模型能夠在推理前分解復雜挑戰、測試時擴展技術進一步提升了模型的適應性,最終實現性能對標更大參數規模模型。這使得模型能夠提供強大的(de)(de)思維(wei)鏈(lian)推理能力和(he)近乎即時(shi)的(de)(de)響應時(shi)間(jian)。
在監督微調階段,K2-Think使用(yong)思維(wei)鏈對基礎模型進(jin)行監督微調。研究人(ren)員采用(yong)了現有(you)的AM-Thinking-v1-Distilled數(shu)據集,該數(shu)據集由(you)CoT推理痕跡和指(zhi)令/響(xiang)應對組成(cheng),提示來自數(shu)學推理、代碼生成(cheng)、科學推理、指(zhi)令遵循和一般(ban)聊天等任(ren)務。他(ta)們評估(gu)發(fa)現,SFT模型在各個采樣預(yu)算下均優于基礎模型。
在可(ke)驗證獎勵強化學習階段,可(ke)驗證獎勵(li)強(qiang)化(hua)(hua)學(xue)習(xi)通過直接優化(hua)(hua)模型生(sheng)成的(de)正確性,降低了基(ji)于(yu)人(ren)類(lei)反饋強(qiang)化(hua)(hua)學(xue)習(xi)(RLHF)基(ji)于(yu)偏好對齊的(de)復雜性和(he)成本。因此(ci)研究人(ren)員(yuan)使(shi)用(yong)了Guru數據集,該數據集包含(han)數學(xue)、編程(cheng)、科學(xue)、邏輯、模擬(ni)和(he)表格六個領域任務、近92000個可(ke)驗證問題(ti)。
在測(ce)試時間改進階(jie)段(duan),為(wei)了進一步提(ti)升模型性能,研究人員開發了測試時(shi)框架,為(wei)訓練后(hou)的推(tui)理模型提(ti)供(gong)結(jie)構化輸(shu)入,包括推(tui)理前(qian)的Agent規劃(hua)(hua),即“先計劃(hua)(hua)后(hou)思考(kao)”,以及使用(yong)Best-of-N采樣(yang)的測試時(shi)擴(kuo)展。
▲模(mo)型從輸入到(dao)最(zui)終響應的信(xin)息流
從輸入到最終(zhong)響應時,模型(xing)會重(zhong)構提示以概述總體(ti)規劃、突出(chu)相關概念。然后這(zhe)一(yi)增(zeng)強的提示將通過K2-Think模型(xing)生成多個(ge)響應,最后對候選(xuan)(xuan)響應進行(xing)兩(liang)兩(liang)比較,最終(zhong)選(xuan)(xuan)出(chu)最佳生成結果作為推理系統(tong)的最終(zhong)輸出(chu)。
第四階段是部署,在具有挑戰性的數學證明或多步驟編碼問題中,一個典型復雜推理任務一般會生成32000個token的響應。在(zai)NVIDIA H100上(shang)(shang),這(zhe)可以在(zai)不到3分鐘(zhong)的(de)時間內完成,在(zai)WSE上(shang)(shang),同樣32000個token的(de)生成任務只需16秒。
這是因為GPU必須在每個token生成時不斷將權重從高帶寬內存傳輸到GPU核心,而WSE將所有模型權重存儲在海量片上內存中,充分利用每秒25PB的片上內存帶寬,比最新NVIDIA B200 GPU提供的0.008PB/s高出3000多倍。
結語:小參數模型經后期訓練,可媲美更大參數模型
K2-Think模(mo)型的(de)(de)(de)性能(neng)證明,320億參(can)數(shu)規模(mo)的(de)(de)(de)模(mo)型經(jing)過后期訓(xun)練,能(neng)夠生成較(jiao)長的(de)(de)(de)推(tui)理思(si)路鏈,并結合相對(dui)較(jiao)少的(de)(de)(de)測試時(shi)間計(ji)算,可(ke)以(yi)實現小模(mo)型與參(can)數(shu)數(shu)量級更大的(de)(de)(de)模(mo)型相媲美的(de)(de)(de)能(neng)力。
MBZUAI基(ji)(ji)礎模型研究所的(de)總經(jing)理Richard Morton認為(wei),人腦的(de)基(ji)(ji)本推(tui)理是所有思(si)維過(guo)程的(de)基(ji)(ji)礎,K2-Think的(de)應用,可以縮短研究人員思(si)考特定任(ren)務(wu)、進(jin)行臨床試驗的(de)時間,從(cong)而將先進(jin)的(de)AI技術擴大(da)到(dao)AI基(ji)(ji)礎設施稀缺的(de)地區。