智東西(公眾號:zhidxcom)
編譯 | 金碧輝
編輯 | 程茜

智(zhi)東(dong)西5月15日消息,據The Information昨(zuo)日傍晚報道,繼(ji)OpenAI、谷歌之后,AI獨角獸(shou)Anthropic即將推(tui)出深度(du)推(tui)理模型,推(tui)出Claude Sonnet和(he)Claude Opus兩大(da)模型升級版本,全球(qiu)AI競(jing)賽進(jin)入“深度(du)思考”新階段。

據知情人士透露,Anthropic將(jiang)通過“推(tui)理-工(gong)具調(diao)用”動態切換(huan)機制,該機制可(ke)自(zi)主發現問(wen)題并修正(zheng)錯誤,將(jiang)AI系統(tong)的自(zi)主決策(ce)能力推(tui)向新高度。該技術已在代(dai)碼生成、市場分析等復雜場景驗證(zheng)效能,Anthropic計劃在未來數周(zhou)正(zheng)式發布。

一、支持推理與工具調用無縫切換,可自主修正錯誤

不同于(yu)現(xian)有推(tui)(tui)理模(mo)型(xing)(xing),Anthropic新模(mo)型(xing)(xing)首次實現(xian)了“推(tui)(tui)理模(mo)式”與“工具調(diao)用(yong)”的無縫轉換(huan)。當Anthropic新模(mo)型(xing)(xing)使用(yong)外部工具受阻時,該(gai)模(mo)型(xing)(xing)可立(li)即切換(huan)至深度推(tui)(tui)理狀態,分析問題根(gen)源并自我修正。

雖然OpenAI等競爭對(dui)手宣稱其(qi)o3、o4-mini模(mo)型已具備和Anthropic類似的推理能力,但據外媒The Information爆料,Anthropic的深度(du)思(si)考(kao)模(mo)型在復雜任務(wu)處理效率上顯現優勢,在相同(tong)市(shi)場分(fen)析任務(wu)中,Anthropic新模(mo)型決策路徑縮短(duan)30%,數據調用精準度(du)提升22%。

以曼哈頓咖(ka)啡(fei)店選址為例,Anthropic新模型的(de)系統會先檢索全美趨勢數據,通(tong)過(guo)本地人口統計數據分析,自(zi)動修正初始方案的(de)偏差。

在(zai)軟件開發(fa)場景,Anthropic新模型具備代碼(ma)自動測試功能。Anthropic新模型在(zai)生成代碼(ma)后能立即啟動自檢程(cheng)序(xu),發(fa)現錯(cuo)誤即暫停執(zhi)行,通過多維度推理定(ding)位問題并修正(zheng)。

外(wai)媒The Information援引Anthropic新(xin)模(mo)型(xing)的(de)(de)測試人員證(zheng)實,Anthropic新(xin)模(mo)型(xing)的(de)(de)系(xi)統處理“提升應用運行速度”等抽象指令時,可在無(wu)需人工干預情(qing)況下,自主完成方案設計、測試驗(yan)證(zheng)全流程(cheng)。

二、前代產品評價兩極分化,企業仍加大核心計算技術投入

盡(jin)管用(yong)戶(hu)對前代Claude 3.7 Sonnet的評價(jia)呈(cheng)現兩極分化,但Anthropic仍持續加(jia)大“測試(shi)時計算(suan)量”投入。

一部分用戶對其稱贊有加(jia),在復雜的會計分析和(he)數據(ju)可(ke)視化任務中,Claude 3.7 Sonnet展現出(chu)極高效率,短(duan)短(duan)十秒即可(ke)完成(cheng)任務。

但另一部分(fen)用(yong)(yong)(yong)戶則(ze)提(ti)出(chu)諸多(duo)質疑,如模型(xing)知(zhi)識儲備(bei)存(cun)在局限,在回(hui)答(da)重要問題時容易出(chu)錯,甚至(zhi)在面(mian)對美國總統等(deng)常識性問題時也會(hui)誤答(da);使(shi)用(yong)(yong)(yong)成本高昂(ang),每百萬(wan)輸(shu)入(ru)token費用(yong)(yong)(yong)為3美元(yuan)(yuan)(折合人民幣約為25.59元(yuan)(yuan)),每百萬(wan)輸(shu)出(chu)token費用(yong)(yong)(yong)達(da)15美元(yuan)(yuan)(折合人民幣約為107.95元(yuan)(yuan)),特別是使(shi)用(yong)(yong)(yong)思考(kao)功(gong)能(neng)時開支顯著上升,對個(ge)人用(yong)(yong)(yong)戶和(he)小團隊而言負擔較重;還(huan)有用(yong)(yong)(yong)戶反饋模型(xing)存(cun)在忽視指令、過度工程(cheng)化傾(qing)向,以(yi)及在實際(ji)使(shi)用(yong)(yong)(yong)中上下(xia)文窗口利用(yong)(yong)(yong)效率(lv)存(cun)疑等(deng)問題。

這(zhe)項支撐(cheng)推理模型的(de)核心技術(shu),通過動態(tai)分配計算資源優化思考(kao)深度。據The Information報道,某(mou)知(zhi)情人士指出(chu),這(zhe)種技術(shu)路(lu)線選擇凸顯(xian)企業對(dui)該架構的(de)長期信心。

結語:Anthropic新框架預研,推動AI自主決策邁向實用

Anthropic的(de)(de)“推(tui)(tui)(tui)理-工具調用”框架雖仍處(chu)于(yu)預研階(jie)段,將AI自(zi)主決策能力推(tui)(tui)(tui)向實用化階(jie)段。該模型在代碼迭(die)代、商業邏輯推(tui)(tui)(tui)演等場景(jing)中已顯現(xian)效能提升(sheng)潛力。面對(dui)OpenAI等機(ji)構的(de)(de)技術路線競(jing)爭,以及(ji)模型指令對(dui)齊的(de)(de)行業性(xing)難題,相(xiang)關系(xi)統的(de)(de)工程化路徑尚未完全定型。

隨著各(ge)大機(ji)構加速逼近自(zi)(zi)主決策(ce)的技術(shu)臨界點(dian),如何在增強自(zi)(zi)主性與確保可控性之間取得平(ping)衡,或將成為下一(yi)代AI系統的關鍵(jian)挑戰。

來源:The Information