智東西(公眾號:zhidxcom)
編譯 | 程茜
編輯 | 心緣

智東西6月17日消息,今日,AI基準測試平臺LMArena公布最新WebDev?Arena排行榜,新(xin)版DeepSeek-R1編程能(neng)力沖(chong)上第一。

從(cong)榜單可以看出,新版(ban)DeepSeek-R1與Claude Opus 4、Gemini 2.5 Pro并列第一。

DeepSeek又沖上第一!

自今年2月底,Anthropic發布首款混合推理模型與最佳編碼模型Claude 3.7 Sonnet,到5月發布Claude 4,此前,WebDev?Arena榜單(dan)第(di)一幾乎被(bei)Anthropic家(jia)的Claude系列模型壟斷。

此次,新版DeepSeek-R1沖上榜(bang)一與Claude Opus 4并列,佐證了其在編程(cheng)方面的能(neng)力提升。

此外,文本領域,新版DeepSeek-R1在開源(yuan)模型中(zhong)排(pai)名第一,整(zheng)體排(pai)名第6,與Claude Opus 4、GPT-4.1、Gemini-2.5-flash并列。

DeepSeek又沖上第一!

按(an)類別劃分,新(xin)版DeepSeek-R1在編程方面(mian)排名(ming)第(di)2,在困(kun)難(nan)提示方面(mian)排名(ming)第(di)4,在數學方面(mian)排名(ming)第(di)5。

DeepSeek又沖上第一!

新DeepSeek-R1于5月28日開(kai)源,從DeepSeek當時發(fa)布的基準測試結(jie)果來看,其整體表(biao)現已接近(jin)OpenAI-o3與谷歌Gemini-2.5-Pro等模型。

DeepSeek又沖上第一!

完整榜單:

LMArena評論區(qu)對新版DeepSeek-R1沖(chong)上榜一(yi)給予了很高的評價:

DeepSeek-R1在WebDev Arena上的(de)性能(neng)現已追(zhui)平Claude Opus 4,鑒于Claude長期以來(lai)作為編程導(dao)向型AI的(de)標桿地(di)位,這是一個值得關(guan)注的(de)里(li)程碑,這標志著(zhu)開源(yuan)AI迎來(lai)了關(guan)鍵時(shi)刻。

DeepSeek又沖上第一!

DeepSeek又沖上第一!

結語:AI編程模型、產品加速迭代,開啟群雄混戰

當下(xia),全球AI編程的熱度空(kong)前高漲,AI加速(su)滲(shen)透到AI編程環(huan)節中(zhong),為(wei)開發者(zhe)帶來空(kong)前的生產(chan)力提升。這一背景下(xia),各路(lu)AI編程模型(xing)、產(chan)品快速(su)迭代。

今日凌晨,月之暗面推出(chu)針(zhen)對軟件工(gong)程任務的全新開源代碼大模型Kimi-Dev-72B,還(huan)有此(ci)前OpenAI、谷歌、微軟、Anthropic、阿里等(deng)企(qi)業紛紛亮出(chu)相(xiang)應模型、產品。與此(ci)同時(shi),新版DeepSeek-R1登頂(ding)編程能力榜(bang)單,意味著國內外AI編程競爭態勢愈(yu)發火熱(re)。