
智東西(公眾號:zhidxcom)
作者 |? 程茜
編輯 |? 云鵬
智東西9月5日消息,剛剛,大模型獨角獸月之暗面發布Kimi K2-0905,目前,Kimi應用(yong)和(he)網頁版中的(de)K2模型已全量升級(ji)到(dao)Kimi K2-0905。
該模型的核心升級點為Agentic Coding能力增強、支持256K上下文、API支持高達60-100Token/s的輸出速度、支持Claude Code。
為(wei)了測(ce)試Kimi K2-0905的(de)性能,智東西對(dui)比(bi)了其與Kimi K2-0711在生成個人網站上的(de)表現。
提示詞:開發一個美觀的個人網站,使用Bootstrap作為前端框架,直接輸出相關代碼。
下圖左上是Kimi K2-0711生(sheng)成(cheng)的結果(guo)(guo)、左下是Kimi K1.5的生(sheng)成(cheng)結果(guo)(guo),右側均為Kimi K2-0905的結果(guo)(guo)。
可以看(kan)出,網站整體的美(mei)觀度(du)以及(ji)整體風格的一致(zhi)性(xing)相(xiang)比前代模(mo)型都有了一定提升,且包含(han)的信息更加(jia)完善。
▲左上為(wei)(wei)Kimi K2-0711生(sheng)(sheng)成(cheng)、左下Kimi K1.5生(sheng)(sheng)成(cheng)、中和右為(wei)(wei)Kimi K2-0905生(sheng)(sheng)成(cheng)
在考察真實軟件工程任務的基準測試中,Kimi K2-0905多項表現超過Claude Sonnet 4,其中(zhong)在(zai)(zai)用于(yu)評估大模(mo)型在(zai)(zai)軟(ruan)件開發任(ren)務上能力的SWE-benchVerified、評估模(mo)型在(zai)(zai)實際軟(ruan)件開發工程中(zhong)綜合能力的SWE-Dev表現略遜色于(yu)Claude Sonnet 4。
,該(gai)模型總參(can)數10000億(yi),激(ji)活參(can)數320億(yi)。2天前,月之暗面就公開了(le)Kimi K2-0905的一些細節,其基(ji)于基(ji)礎(chu)模型構建,增強了(le)編程能力,仍不具備思考或視覺(jue),但(dan)保留了(le)頗受歡(huan)迎(ying)的Kimi K2-0711模型的個性和風格。
目前,Kimi開放平臺已上架kimi-k2-0905-preview模型API,且定價(jia)與上一代一致,計費(fei)方案為每百(bai)萬輸入tokens/4元(yuan),每百(bai)萬輸出tokens/16元(yuan)。
月之暗面的官宣文章中提到(dao),目前,AI編程(cheng)工具(ju)Cursor、Windsurf、Trae、Cline、RooCode、Kilo Code等已內置(zhi)或(huo)接入了(le)Kimi K2模(mo)型(xing)(xing),國內外云服務廠商均部署了(le)Kimi K2模(mo)型(xing)(xing)。
論文地址(zhi)://arxiv.org/abs/2507.20534
Hugging Face地址(zhi)://huggingface.co/moonshotai/Kimi-K2-Instruct-0905
GitHub地址(zhi)://github.com/moonshotai/kimi-K2
一、真實軟件工程任務能力升級,多項測試超Claude
Kimi K2-0905具(ju)體(ti)能力提(ti)升(sheng)主要有以下四點:
Agentic Coding能(neng)力提升,在(zai)公(gong)開(kai)基(ji)準(zhun)測試和真實的編程(cheng)任務中均展現出更(geng)好的性(xing)能;
前端編程體驗(yan)升(sheng)級:提(ti)升(sheng)了前(qian)端代碼的(de)美觀(guan)度和實用性;
擴展上下文長度:從128K升級到256K,為復雜長線任務(wu)提供更好的支持;
提(ti)供高(gao)速版(ban)API:支持高達(da)60-100Token/s的輸(shu)出速度。
在側(ce)重(zhong)考(kao)察真實軟件工程任務的SWE-bench Verified等基準(zhun)測試,新(xin)版Kimi K2模(mo)型的表現如下:
Kimi開放平臺已上架kimi-k2-0905-preview模型API:
上下文升級到256K;Token Enforcer保證toolcall 100%格式(shi)正(zheng)確;完全(quan)兼容Anthropic API、支持WebSearch Tool,提供更好(hao)的K2+Claude Code使(shi)用體驗;支持全(quan)自動Context Caching,有助于節(jie)省Input Token;定價與之(zhi)前的0711版相(xiang)同(tong);速(su)度達60-100?Token/s的高速(su)版API(kimi-k2-turbo-preview)已同(tong)步升級新模型。
二、拆解需求、規劃步驟、實戰演練都能應對
智東西還考察了Kimi K2-0905拆解需求、規劃步驟、代碼落地的能力。
提示詞:寫一個工具,輸入一段英文文本(可能包含標點、大小寫、空格),輸出以下統計結果:①總單詞數(忽略標點,大小寫視為同一單詞,如Hello和hello算一個);②出現頻率最高的3個單詞及頻次(若頻次相同,按字母序排序);③文本中最長的句子(以. ! ?為句末標志,若多個最長句,輸出第一個)。
這一工具(ju)拆分了統(tong)計(ji)總單詞(ci)數、頻率最(zui)(zui)高3個單詞(ci)、最(zui)(zui)長(chang)句子的需求。
第二個是在具體的圖書館場景中,智東西要求其開發一個簡易的圖書館借閱管理系統。
提示詞為:設計一個圖書館借閱系統的核心功能,需支持:①書籍入庫(記錄書籍ID、書名、作者、庫存數量);②讀者借閱(記錄讀者ID、借閱書籍ID、借閱日期,需判斷書籍是否有庫存);③讀者還書(記錄還書日期,需判斷是否超期,假設借閱期限為30天,超期按1元/天計算罰款);④查詢功能(按書名查詢書籍庫存,按讀者ID查詢未還書籍及是否超期)。
Kimi K2-0905生(sheng)成的系統界面中,明(ming)確包含了書籍(ji)入庫、讀(du)者借閱、讀(du)者還書、查(cha)詢庫存、查(cha)詢未還書籍(ji)的模(mo)塊。
值得注意的是,智能文本統(tong)計工具和圖書館借(jie)閱系(xi)統(tong)生成(cheng)整體(ti)風格相(xiang)似(si),均為藍白配色。
結語:AI編程或應對復雜編程挑戰
當下,越來(lai)越多的開發者使用(yong)AI工具(ju)更高效(xiao)便捷(jie)編寫代碼,具(ju)體(ti)用(yong)例包(bao)括自動補全代碼行(xing)、修復代碼錯誤和測試代碼等。
Kimi K2在Agentic Coding能力方(fang)面的提升(sheng),意味著其模(mo)型(xing)在面對復雜編(bian)程任務時,能夠(gou)更高(gao)效、自主地理(li)解需求、規劃步驟并生成(cheng)高(gao)質量(liang)代碼,以(yi)應對更多(duo)真實編(bian)程場(chang)景(jing)。