
智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 心緣
智東西5月23日報道,今天凌晨,美國大模型獨角獸Anthropic在其首屆開發者大會上正式發布了下一代Claude模型:Claude Opus 4和Claude Sonnet 4,這也(ye)是Claude自2024年6月(yue)以來的首次大版(ban)本號(hao)更(geng)新(xin)。
Anthropic將Claude Opus 4稱之為“世界上最好的編程模型”,能在復雜、長時間運行的任務和智能體工作流中表現出穩定的性能。Claude Sonnet 4是Claude Sonnet 3.7的重大升級,以編程和推理能力為核心,同(tong)時能更精確(que)地(di)響應用(yong)(yong)戶提(ti)示詞。這(zhe)兩(liang)(liang)款模(mo)型均(jun)為混合模(mo)型,提(ti)供兩(liang)(liang)種模(mo)式:即(ji)時回復和用(yong)(yong)于更深入(ru)推理的(de)擴展思考(kao)(extended thinking)。
在權威編程基準測試SWE-bench Verified上,開啟擴展思考的Claude Opus 4與Claude Sonnet 4的得分分別為79.4%和80.2%,大幅度超越(yue)了OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro等模(mo)型。
在編程、工具使用、視覺推理、數學等領域的基準測試中,這兩款模型超越了OpenAI o3,而在多語言問答、研究生級別推理任務上,Claude Opus 4與OpenAI o3得分持平。新模型的智能體能力迎來升級,最高可獨立運行7小時,并推出了文件API、提示詞緩存等新功能。
Pro、Max、Team和Enterprise Claude訂閱用(yong)戶(hu)可使(shi)用(yong)上(shang)述兩款Claude模型及(ji)其擴(kuo)展思考模式(shi),Sonnet 4可供免(mian)費用(yong)戶(hu)使(shi)用(yong)。
這兩款模(mo)型都可在Anthropic API、Amazon Bedrock和Google Cloud的(de)Vertex AI上調用,定價與之前的(de)Opus和Sonnet模(mo)型保持一致:Claude Opus 4為每百萬個token 15美元/75美元(輸(shu)入(ru)/輸(shu)出),Claude Sonnet 4為3美元/15美元。
Anthropic還(huan)同期發布(bu)了AI編(bian)程助(zhu)手Claude Code,這一編(bian)程助(zhu)手接入(ru)了Claude Opus 4模型,能實(shi)時映(ying)射和解釋百萬行級別的代碼庫。Claude Code與GitHub、GitLab、VS Code、JetBrains IDE和命令(ling)行工具集成,可直接嵌入(ru)至開發終(zhong)端(duan)中(zhong)。這一編(bian)程助(zhu)手提供(gong)按量計費(fei)、每月100美元(yuan)和每月200美元(yuan)的3種訂閱方案。
一、開場2分鐘甩出重磅新模型,Claude未來更新頻率將加速
在Code with Claude開(kai)發者大(da)會上,Anthropic創(chuang)始(shi)人(ren)Dario Amodei在開(kai)場2分鐘時快步走上臺,并未做任何鋪墊,便直(zhi)接(jie)甩出了最大(da)的驚喜——Claude 4系列模型(xing)的發布。
Amodei稱,Anthropic已經(jing)有(you)一段時間沒有(you)更新Opus模型(xing)了,Anthropic對(dui)Opus的定位是旗下最強大、最智(zhi)能的模型(xing),而Sonnet是用戶過去大約(yue)一年來一直(zhi)在使(shi)用的中等水平模型(xing)。
Claude Opus 4在多項基準測試上的成績并未明顯高于Claude Sonnet 4,甚至略低于后者。Amodei強調,對于Claude Opus 4這樣的大型模型,基準測試并不能完全體現其能力。
在Anthropic提供給(gei)客戶(hu)的(de)預覽中,Claude Opus 4可(ke)以在Anthropic內(nei)(nei)部自主完成一些(xie)通常需要人類花費6到(dao)7小時的(de)任(ren)務(wu),Anthropic內(nei)(nei)部一些(xie)最資深(shen)的(de)工程師都對其(qi)帶來的(de)生產力提升感到(dao)驚(jing)訝。
Claude Sonnet 4在多項編程基準測試中的表現與Claude Opus 4持平,但前者更為精簡,專注于編程等特定任務。Claude Sonnet 4還解決了Claude?Sonnet 3.7在實際使用過程中出現的種種問題,包括過度(du)熱情(qing)(傾(qing)向于做出超出用戶要求的事情(qing))與獎勵機(ji)制(zhi)問(wen)題。
Amodei稱,Anthropic會繼續改進Claude系(xi)列(lie)模(mo)型,定期發布(bu)可能的小版本更新,理想(xiang)情(qing)況(kuang)下,會比之前發布(bu)的頻(pin)率還要高。
二、智能體能力迎升級,最高可獨立運行7小時
Anthropic首(shou)席產品(pin)官(guan)、Instagram聯合創始人Mike Krieger詳(xiang)細分(fen)享了更多Claude 4的相關情況。
Krieger稱,Claude Opus 4擅長理解代碼庫并規劃添加內容,從遷移、代碼重構到最復雜的智能體工作流方(fang)面都非(fei)常高效(xiao)且準確。
Claude Sonnet 4在日常編碼任務、應用程序開發和配對編程方面表現出色。它也適(shi)用于高流量用例(li),平衡了效率(lv)和性能,可以被(bei)視(shi)為“全天候”編碼(ma)伙伴。
Claude 4系列模(mo)型為打造(zao)能(neng)(neng)使(shi)用工(gong)具(ju)的智能(neng)(neng)體升級(ji)了關鍵的新(xin)功能(neng)(neng)。現在(zai),Claude 4系列模(mo)型可(ke)以并(bing)行處(chu)理多種工(gong)具(ju),當被(bei)授予(yu)訪(fang)問(wen)本地文件的權(quan)限時,它們甚至可(ke)以在(zai)會話之間(jian)保持記憶,隨著時間(jian)的推移(yi)積累(lei)知識。
Krieger回憶,在加入(ru)Anthropic后不久(jiu),他(ta)們(men)曾憑借Claude的幫助,僅用3人團隊(dui)成功(gong)完成亞(ya)馬遜(xun)Alexa語音助手原型的打(da)造,Krieger這位“前(qian)工程師”也(ye)重拾(shi)代碼親(qin)自(zi)上陣。這次合作最(zui)終(zhong)使Claude成為Alexa Plus的核心模型之(zhi)一。
這段經歷讓(rang)Krieger更堅信AI協作(zuo)的潛(qian)力。如今,AI已不僅是(shi)工具(ju),而是(shi)真正的智(zhi)能協作(zuo)伙伴(ban),持續推動技(ji)術邊界。Krieger提出了Anthropic認為的理想智(zhi)能體三大核(he)心(xin)能力:
(1)情境智能:理(li)解組織背景,通過經驗優化表現,像優秀(xiu)員工(gong)一樣越(yue)用越(yue)好;
(2)長期執行:獨立處理復雜任(ren)務(wu)數小時,智能協調資源;
(3)深度協作:自然(ran)交互(hu)、適應工作(zuo)風格,并保持決策(ce)透明。
為實現上述三大(da)能力,Anthropic推出了更多新升級。
Claude現在可以(yi)通過Anthropic API上的(de)新代(dai)碼(ma)執行工具運行代(dai)碼(ma),而不僅僅是編寫代(dai)碼(ma),能夠加載數據集、清理數據、生成(cheng)探索(suo)性圖表,并實(shi)時分析異(yi)常情況。在與Claude 4模型結合后,代(dai)碼(ma)執行工具可以(yi)處理復(fu)雜(za)任(ren)務,節省(sheng)大量時間(jian)。
Claude 4系列模型的自主性進一步提升,Claude 3.7最多可自主運行45分鐘,而Claude 4可(ke)以獨立運行(xing)數(shu)小(xiao)時(shi),最高達到7小(xiao)時(shi)。新模(mo)型通過管理(li)待辦(ban)事項列(lie)表保持記憶,不會丟失(shi)線索。
Anthropic強調,智能體(ti)的廣泛采用需要提(ti)高模(mo)型(xing)對保密內容、決策和協(xie)調的判(pan)斷力(li)。如今,Claude模(mo)型(xing)的每個功能都包含架構安全檢查點和控(kong)制措施,確保模(mo)型(xing)在生產環境中的可靠(kao)性(xing)。
智能(neng)體的(de)(de)落地(di)還需要訪問(wen)現(xian)實世界的(de)(de)信息(xi),并與(yu)現(xian)有系統的(de)(de)連(lian)接,為了幫助智能(neng)體進一步擴(kuo)展,Anthropic推出(chu)了4項相互關聯的(de)(de)新功(gong)能(neng)。
首先,開發者現在可以直接通過Anthropic API鏈接MCP協議(模型上下文協議)。如(ru)今,MCP協議被微軟(ruan)、谷歌、OpenAI、Block、Atlassian、Zapier、Linear等眾多公司(si)采用(yong),Anthropic認為(wei)MCP有望(wang)為(wei)智能體經濟奠定基礎(chu)。
其次,網絡搜索為(wei)Claude提供了(le)對當前信息的實時訪問。這(zhe)是一種智能(neng)數據(ju)增(zeng)強,允許Claude分析(xi)當前事(shi)件、市場趨勢(shi)和(he)新興技術,與MCP功(gong)能(neng)結合使用時也非(fei)常強大。
第三,文件API今(jin)天(tian)起在(zai)Anthropic API中可用。文件API允許Claude讀(du)取和寫入記憶(yi)文件,在(zai)長時間任務中保持上下文連續性。Anthropic配套發(fa)布“記憶(yi)功(gong)能食譜”,指(zhi)導開發(fa)者如何集(ji)成到應用中。
最后,提示緩存功能迎來升級,TTL(生(sheng)存(cun)時(shi)間)從5分鐘(zhong)提升至1小時(shi),這最多能(neng)(neng)將(jiang)模型的使用(yong)(yong)成本降低90%,延遲減少85%,尤(you)其(qi)適用(yong)(yong)于長提示詞場景、長時(shi)間運行的智能(neng)(neng)體工作流和需要頻(pin)繁調用(yong)(yong)相同上(shang)下文的重復性任務。
Anthropic還顯著減少了Claude 4模型使用快捷方式或(huo)漏洞完(wan)成任務的行(xing)為。與 Sonnet 3.7 相比,這種行(xing)為的可能(neng)性降低了65%。
Claude Opus 4在(zai)(zai)內存(cun)能力方面(mian)的(de)(de)表現也大大優(you)于所有以(yi)前的(de)(de)型號。當開(kai)發人員構(gou)建提供(gong)Claude本地文(wen)件(jian)(jian)訪問的(de)(de)應用(yong)程序時(shi),Opus 4可以(yi)熟練地創建和維護(hu)“內存(cun)文(wen)件(jian)(jian)”來存(cun)儲關鍵信息。這(zhe)可以(yi)解鎖更好的(de)(de)長期任(ren)務意識、連貫性和代理(li)任(ren)務的(de)(de)性能——例如 Opus 4 在(zai)(zai)玩Pokémon時(shi)創建“導航(hang)指南”。
Claude 4模型(xing)還推出(chu)了思維(wei)鏈總結功能(neng),可(ke)使用較小的(de)模型(xing)來濃縮冗長的(de)思維(wei)過程(cheng)。
三、編程助手全面開放,整合至主流開發平臺
Claude Code在(zai)今天(tian)迎(ying)來全面(mian)開(kai)放,從研究預覽轉為正式產品。Claude Code產品經理Cat Wu分享說,除了(le)接入最新模型之外(wai),Claude Code還推出了(le)多項新功能。
Claude Code現已與VS Code和JetBrains等主流IDE集成,在(zai)使用過(guo)程(cheng)中(zhong),開發者可以直接(jie)在(zai)編輯(ji)器(qi)中(zhong)實時查看(kan)Claude Code建議的代(dai)碼(ma)改動(dong)。
Anthropic還發布了Claude Code SDK,讓開發者能夠將Claude Code作為構建塊融入自己的應用和工作流。為了展示其潛力,Anthropic在GitHub上開源了一個示例項目:用戶可以直接在Pull Request和Issue中@Claude,它將自動響應審閱意見、修復錯誤并添加新功能。
通(tong)過這些更新(xin),Claude Code已(yi)經(jing)能(neng)夠覆(fu)蓋大部分工(gong)作場(chang)景,無論是在(zai)終端中(zhong)進行(xing)深(shen)度開發、在(zai)GitHub上處理遠程協作、通(tong)過SDK構建自動化工(gong)作流,還是在(zai)IDE中(zhong)進行(xing)代碼審(shen)查。
演示(shi)環節(jie)中,Claude Code迅速完成(cheng)了開(kai)(kai)源(yuan)工具Excalidraw的表格組件功(gong)能開(kai)(kai)發(fa)。Claude Code會(hui)創建任務清(qing)單(dan),探索代(dai)碼庫并(bing)生成(cheng)代(dai)碼,運行測試并(bing)提(ti)交Pull Request。它還能通(tong)過GitHub Actions自動更新文檔。短(duan)短(duan)10分鐘,Claude Code完成(cheng)了通(tong)常需要數小(xiao)時的復雜任務,極大地提(ti)升了開(kai)(kai)發(fa)效率。
由Claude Code SDK驅動的Claude Code和GitHub Actions現已可(ke)(ke)用,只(zhi)需在運行(xing)(xing)命(ming)令即(ji)可(ke)(ke)安(an)裝。VS Code和JetBrains的Web IDE擴(kuo)展也同步(bu)推出測試(shi)版,在IDE中運行(xing)(xing)命(ming)令即(ji)可(ke)(ke)安(an)裝。
結語:兩條Scaling Law路徑持續有效,未來1年將見證編程革命
Amodei稱,Claude Sonnet 3.7發(fa)布僅兩個半月,卻感覺(jue)像過(guo)了一年,這(zhe)足見AI領域的發(fa)展之(zhi)快。他強調,Claude 4的模(mo)型能力來自預訓(xun)練(lian)和后訓(xun)練(lian)的共同進步,預訓(xun)練(lian)Scaling Law依然有(you)效,后訓(xun)練(lian)技術也在同步發(fa)展,二者相輔相成。
展(zhan)望未來(lai)AI領域(yu)(yu)的發展(zhan),Amodei認為我們會在未來(lai)一年見證編程領域(yu)(yu)的革命,從Claude Code出發,我們將(jiang)進(jin)入“智(zhi)能(neng)體艦隊”時(shi)代,成(cheng)批的智(zhi)能(neng)體會將(jiang)軟(ruan)(ruan)件開發自(zi)動化,定制化軟(ruan)(ruan)件的成(cheng)本顯著降低,這將(jiang)重(zhong)塑開發者、企業(ye)和初創公司的角色(se)。