
智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 云鵬
智東西7月22日報道,今天,月之暗面公布了其最新旗艦模型Kimi K2的完整技術報告。作為一款國產開源萬億參數大模型,Kimi K2在發布之后迅速爆火,并在大模型競技場上接替新版DeepSeek-R1,登頂全球開源模型榜首。
技術報告透露,Kimi K2在15.5萬億token上進行了訓練。為實現這一量級的訓練,月之暗面設計了MuonClip優化器,從而(er)解決了大模型訓(xun)練中常見的注意(yi)力爆炸與損失(shi)尖峰(feng)問題,提升了預訓(xun)練的穩(wen)定性和token利用率。數(shu)據方面(mian),月之暗(an)面(mian)打(da)造了一條(tiao)改寫(xie)流水線,讓模型擴增高質量(liang)token的總量(liang)。
在后訓練階段,Kimi K2合成了涵蓋數萬工具與任務的多輪交互數據用于訓練,再進(jin)入(ru)強化學習(xi)階段(duan),讓模型在(zai)真(zhen)實與合成環境中不斷試錯、反思與進(jin)化。這一(yi)訓(xun)練過程讓K2能(neng)在(zai)不開啟思維鏈的(de)前提下,于多項基準測試中獲得超越頂尖開源(yuan)(yuan)模型,比肩(jian)頭部(bu)閉源(yuan)(yuan)模型的(de)成績。
具體來看,在自主編程(Agentic Coding)、工具調用(Tool Use)和數學推理(Math & Reasoning)這三個能力維度上,Kimi K2的表現超過了DeepSeek-V3-0324、Qwen-235B-A22B等模型,但在部分基準測試中略遜于Claude 4 Opus、OpenAI GPT-4.1等模型。基準測試結果顯示,Kimi-K2一共獲得了14項全球SOTA,24項開源模型SOTA。
在這份32頁技術報告的末尾,月之暗面創始人兼CEO楊植麟出現在作者清單中,更令人意外的是,Kimi K2也被列入了技術報告的作者之列。
技術報告鏈接://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf
一、大模型智能步入新階段,數據效率成提升瓶頸
月(yue)之暗面在技(ji)術報告(gao)中(zhong)提出,大(da)模(mo)型正在從被動(dong)模(mo)仿人類文本轉向Agentic Intelligence階段,模(mo)型逐漸(jian)具(ju)備(bei)了在復雜、動(dong)態的(de)環境中(zhong)自(zi)主感(gan)知、規(gui)劃、推理并行動(dong)的(de)能力。
這一轉(zhuan)變(bian)意味著模型(xing)不再局限(xian)于靜態的(de)(de)人(ren)類標注(zhu)數據(ju),而是通過與環境的(de)(de)持續交互(hu),主動習得超出(chu)訓練分布的(de)(de)新(xin)技能,并依據(ju)經驗不斷(duan)調整行為。
然而,Agentic Intelligence給(gei)預(yu)訓練和后訓練階段(duan)都帶(dai)來了一定的挑戰。
預(yu)訓練階段,研究(jiu)者(zhe)必(bi)須在高質量數據日益稀缺的條件(jian)下,為模型注入足夠通用的先(xian)驗知識,因(yin)此token效率(每個 token 帶來的學習信號)成為決定規模法則的關(guan)鍵(jian)因(yin)素。
在后訓練階(jie)段,研究者(zhe)則(ze)需要(yao)把(ba)這些知識轉化為(wei)可執行(xing)的行(xing)為(wei),而多步推理、長期(qi)規(gui)劃、工具(ju)調(diao)用等智能(neng)體能(neng)力(li)在自然數(shu)據中稀(xi)缺且昂(ang)貴。
因此,業界亟需能(neng)夠大(da)規模合成(cheng)結構化(hua)、高質量智能(neng)體軌跡的系統,并(bing)輔(fu)以融合偏好(hao)與自我批判的通用強化(hua)學習框架,彌補靜態對齊(qi)與開放環境(jing)之間的差異(yi)。
二、提出MuonClip優化器,通過改寫擴充高質量數據
針對上述問題,月之暗面首(shou)先在預(yu)訓練(lian)階(jie)段采用高(gao)(gao)效的Muon優化器進行訓練(lian),該(gai)優化器具備高(gao)(gao)效率、權重衰減少(shao)等優勢。
Muon優化器由海外AI學者Keller Jordan(現(xian)已加(jia)入OpenAI)提出,月之暗面曾在(zai)今年2月對其進行改進并開源。后者在(zai)實驗中發現(xian),在(zai)相同計(ji)算(suan)預算(suan)和模(mo)型規模(mo)下,Muon顯著優于AdamW等經典(dian)優化器,是提升大模(mo)型訓練token利(li)用效(xiao)率的(de)理想選擇(ze)。
不過,Muon在擴大規模時暴露出訓練不穩定的問題,特別是注意力logits爆炸現象,注意力得分(logits)會在(zai)訓練過(guo)程(cheng)中(zhong)無限增大,導致各種后續問(wen)題。
月之暗面(mian)進一步提出了權重(zhong)裁剪機制QK-Clip,能在每次(ci)參(can)數更新后,根據(ju)當前批次(ci)中每個注意(yi)力頭的(de)最大(da)logit值,動態縮放(fang)Query和(he)Key的(de)投影權重(zhong)。
最終,該團隊(dui)將Muon、權重衰減、RMS匹配與QK-Clip集成,形成統(tong)一優化器MuonClip。實驗(yan)數(shu)據(ju)表明,加(jia)入QK-Clip的(de)訓練損失曲線平(ping)滑(hua),無損失尖峰(feng)(下圖右側)。
預(yu)訓練數(shu)據方面,月之暗面引入了(le)一套合成數(shu)據生成策(ce)略以提高(gao)token效(xiao)用。具體而言,該團(tuan)隊設計(ji)了(le)一條改寫流水(shui)線,可在不明顯過擬合的前提下,擴增(zeng)高(gao)質量token的總量。
例(li)如,在知識型(xing)數據上,為(wei)提(ti)(ti)(ti)升高質量知識token的(de)效(xiao)用(yong),月之(zhi)暗面向模(mo)型(xing)提(ti)(ti)(ti)供了風格(ge)與(yu)視(shi)角多樣的(de)提(ti)(ti)(ti)示詞,引(yin)導大模(mo)型(xing)以不同(tong)風格(ge)、從不同(tong)視(shi)角對原文進行忠(zhong)實改寫。同(tong)時,為(wei)保持長文檔的(de)全局連貫性并避免信息(xi)丟失(shi),模(mo)型(xing)采用(yong)按塊自回歸重寫策略。
在(zai)訓練前,團隊還會通過語(yu)義對齊檢查確保(bao)改(gai)寫(xie)片段(duan)與(yu)原文內容一(yi)致,作為初步質控(kong)。
為了強化數學推理能力,月之暗面把高質量數學文檔改寫成“學習筆記”風格,并通(tong)過將其他語言(yan)的高質(zhi)量數(shu)學資料翻(fan)譯成英文來(lai)進(jin)一步擴大數(shu)據多樣(yang)性。
最終,Kimi K2一共使用了15.5 T token的預訓練語料 ,涵蓋Web文本(ben)、代(dai)碼、數(shu)學、知識四大(da)領域,且全(quan)部經(jing)過正確性與質量驗(yan)證(zheng)。
模型架(jia)(jia)構(gou)方面,Kimi K2整(zheng)體架(jia)(jia)構(gou)與DeepSeek-V3相似(si),采用多頭隱式(shi)注(zhu)意(yi)力(MLA)作為注(zhu)意(yi)力機制。月之暗面發(fa)現(xian),在保持激(ji)活參數量不(bu)變(bian)的前提下,繼續提高(gao)稀疏度仍能顯著(zhu)降低損失(shi),因此把專家總數從(cong)DeepSeek-V3的256提升到384;同時為了減少(shao)推理開銷,將注(zhu)意(yi)力頭數從(cong)128降至64。下圖是Kimi K2與DeepSeek-V3的核心(xin)結構(gou)對比。
Kimi K2在英偉達H800 GPU集群完成了訓練,并(bing)(bing)使用了統(tong)一并(bing)(bing)行(xing)配置、通信優化(hua)等策略(lve),但(dan)并(bing)(bing)未披露(lu)集群規模。
三、為工具調用打造海量數據,模型獲14項全球SOTA
Kimi K2的后訓(xun)練(lian)由兩個核(he)心階段組成。
在有監督微調(diao)階段,Kimi K2依舊使用(yong)了Muon優化器,并構建了一個覆蓋多領(ling)域的大規(gui)模(mo)指令微調(diao)數(shu)據集,重點是提(ti)示詞多樣性和響應質量。這些數(shu)據使用(yong)了K1.5及(ji)其(qi)他領(ling)域專家(jia)模(mo)型生成候選回(hui)答,再由大模(mo)型或人工(gong)進行質量評(ping)估與過濾。
月之暗面特別為工具使用(Tool Use)能力構建了一個大規模Agentic數據合成流水線,整合3000+真實(shi)MCP工具(ju)(ju)和2萬+合成(cheng)工具(ju)(ju),生成(cheng)數千(qian)個不(bu)同(tong)能(neng)力(li)組合的智能(neng)體與配套任務。
緊(jin)接著,該團隊模擬多(duo)輪交互(hu),并(bing)過(guo)濾出高(gao)質量的智能體軌(gui)跡,然(ran)后在代(dai)碼/軟件工程等場景中(zhong),使(shi)用真實執行環境提升數據(ju)真實性。
強化學習階段,月之暗面的目標是在可驗證獎勵任務與主觀偏好任務中提升模型能力。
在可驗證(zheng)的(de)任務上,該(gai)團隊打(da)造了一個可驗證(zheng)獎勵的(de)“訓練場”,用于(yu)提升(sheng)模型在數學、STEM、邏(luo)輯(ji)任務、復雜指令遵循(xun)、編程等領(ling)域的(de)能力。
針對無明(ming)確答案的(de)任務(如創意寫作、開(kai)放問答),月之暗面(mian)引(yin)入了模型自(zi)評機制,讓模型通過對比(bi)自(zi)身(shen)輸出并打分(fen)。
RL算法優化方面,月之暗面限制了每(mei)任務最大token數(shu)(shu),避免冗長輸(shu)(shu)出,并利用PTX損失(shi)函數(shu)(shu)防止(zhi)模(mo)型(xing)在訓練(lian)過程(cheng)中遺忘高價值(zhi)數(shu)(shu)據。該團隊(dui)還在后(hou)訓練(lian)階段逐(zhu)步降低模(mo)型(xing)的temperature,從而降低隨機性(xing),確保模(mo)型(xing)輸(shu)(shu)出的可靠性(xing)和一致性(xing)。
后訓練階段,月之暗面還對訓練基礎設施進行了針對性設計,采用協同架構,將訓練和推理引擎部署在同一節點,動態分配GPU資源以提升效率。針對長周期任務,該團隊采用并行Rollout和分段執行優化GPU利用率,并通過標準化接口支持多樣化環(huan)境(jing),實現高效的大(da)規模RL訓練。
基準測(ce)試(shi)的(de)結果印證了上述訓(xun)練(lian)流程的(de)效(xiao)果。
在編(bian)程領域,Kimi-K2-Instruct在SWE-bench Verified和LiveCodeBench v6的成績(ji)與商(shang)業(ye)模型(xing)的差距(ju)進一步縮小,在真實世界軟(ruan)件開發和競賽級編(bian)程挑戰展現出實戰能力(li)、
Kimi-K2-Instruct還在(zai)多輪工具使用評測(ce)(ce)、通(tong)用知識(shi)、數學推理、指令(ling)遵循(xun)和長(chang)上(shang)下文任務中獲得(de)不錯的表(biao)現。其(qi)MMLU得(de)分(89.5%)、IFEval得(de)分(89.8%) 等超(chao)越開源(yuan)競品,LMSYS Arena用戶評測(ce)(ce)中位列開源(yuan)模型(xing)榜首。
技術報告中放出了Kimi-K2-Instruct與其他開源(yuan)、閉源(yuan)模型(xing)的基準測(ce)試對比,加(jia)粗成(cheng)績(ji)代表全(quan)球SOTA,加(jia)粗并劃線的成(cheng)績(ji)代表開源(yuan)模型(xing)SOTA。Kimi-K2-Instruct獲得14項(xiang)全(quan)球SOTA,24項(xiang)開源(yuan)模型(xing)SOTA。
結語:中國開源模型再突破
近(jin)期(qi),中國(guo)開(kai)(kai)源(yuan)模型在能(neng)力(li)、國(guo)際影(ying)響力(li)上不斷實現(xian)突破。本(ben)次,Kimi K2已經發布后(hou),便在國(guo)內外開(kai)(kai)源(yuan)社(she)區上吸(xi)引了(le)不少人下載、體驗。美(mei)國(guo)AI搜(sou)索獨角獸Perplexity的(de)創始人兼CEO甚至稱,有計劃在Kimi K2的(de)基礎上進行進一步訓練。
我(wo)們(men)也看到,本次Kimi K2的模(mo)(mo)型架構(gou)在(zai)DeepSeek-V3的基礎上(shang)實現了(le)創新,二者同屬國產開(kai)(kai)源(yuan)模(mo)(mo)型。隨著Kimi逐(zhu)步加入開(kai)(kai)源(yuan)行列并開(kai)(kai)放旗(qi)艦級別的模(mo)(mo)型,國產開(kai)(kai)源(yuan)AI生(sheng)態(tai)中又(you)多了(le)一家重要的參與者。