智東西(公眾號:zhidxcom)
編譯 |? 程茜
編輯 |? 云鵬

智東西4月17日報道,今日凌晨,OpenAI重磅發布兩大視覺推理模型OpenAI o3和o4-mini,這也是OpenAI o系列中首次可以使用圖像進行思維鏈推理的模型。OpenAI還開源了輕量級編程Agent?Codex CLI,發布不到7個小時(shi),Star數已超5500。

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

這兩個模型的區別在于,OpenAI o3是最強大的推理模型;OpenAI o4-mini是一個針對快速、成本效益推理進行優化的較小模型。新模(mo)型(xing)首次將(jiang)圖像融(rong)入思(si)維(wei)鏈過程,還(huan)能(neng)自主調用(yong)工具,在(zai)一分鐘內生成答案。

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

OpenAI開源的編程Agent Codex CLI能最大化(hua)模型(xing)推理(li)能力(li),可在(zai)端側(ce)部署。今日OpenAI還在(zai)AI編程領(ling)域曝出(chu)重磅收購(gou)交易。據外媒報道,OpenAI正在洽談以30億美元(約合人民幣219億元)收購AI輔助編程工具Windsurf(前身為Codeium),這將是OpenAI迄今(jin)規模最大的一筆收購

今天起,ChatGPT Plus、Pro和Team用戶(hu)今天起可(ke)(ke)(ke)以(yi)使用o3、o4-mini和o4-mini-high,這些模型會取(qu)代o1、o3-mini和o3-mini-high。ChatGPT企業(ye)和教育將在(zai)(zai)一周后(hou)獲得訪(fang)問權限。免費用戶(hu)可(ke)(ke)(ke)以(yi)在(zai)(zai)提交查詢前選擇“思考”來嘗(chang)試o4-mini。OpenAI預計在(zai)(zai)幾周內(nei)發(fa)布OpenAI o3-pro,并配備完整工具支(zhi)持。目(mu)前Pro用戶(hu)仍可(ke)(ke)(ke)訪(fang)問o1-pro。o3和o4-mini通過Chat Completions API和Responses API向(xiang)開發(fa)者開放。

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

OpenAI聯合創始人(ren)兼CEO Sam Altman在(zai)社交平臺X上發文盛贊o3、o4-mini是(shi)“天(tian)才水平”。

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

正(zheng)在被OpenAI洽(qia)談收購(gou)的(de)Windsurf,正(zheng)式名稱為Exafunction Inc.,成立于2021年,已籌集超過2億美(mei)元(yuan)的(de)風(feng)險(xian)投資(zi)資(zi)金,估值30億美(mei)元(yuan),近期與其洽(qia)談融(rong)資(zi)事宜還包括Kleiner Perkins和General Catalyst在內的(de)投資(zi)者。去年11月(yue),Windsurf發(fa)布了全(quan)球(qiu)首個智能體IDE。

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

Windsurf發布全球首個智能體(ti)IDE(Agentic IDE)

近期AI編程(cheng)創(chuang)企(qi)融資火爆,Cursor背后(hou)的(de)初創(chuang)公(gong)司Anysphere在今年早些時候與投資者洽談以近100億美(mei)元(yuan)(約合人民幣731億元(yuan))的(de)估值(zhi)獲得新融資。

此前(qian)OpenAI曾收購過(guo)向量數據庫(ku)公(gong)司(si)Rockset和遠程(cheng)協(xie)作平(ping)臺(tai)Multi。如果收購Windsurf的(de)新(xin)交易完(wan)成,OpenAI將進一步補充(chong)AI編程(cheng)助(zhu)手實力,與Anthropic、微(wei)軟旗(qi)下Github、Anysphere等知名AI編程(cheng)公(gong)司(si)展開更直接的(de)競爭。

交易條款尚未敲定,談判(pan)仍有(you)可能發生變(bian)化。

一、用圖像思考,手繪草圖、顛倒文字都能處理

o3和o4-mini模型可以直接(jie)將圖(tu)像整合到思維鏈中,用(yong)圖像來進行思考,并且其(qi)還會被訓練推理(li)在什么時間點使用(yong)哪種工具。

具體來看,模型可(ke)以解讀人們上傳的白板照片、教科書(shu)圖(tu)(tu)表或手繪(hui)草(cao)圖(tu)(tu),如(ru)果圖(tu)(tu)像(xiang)(xiang)模糊、顛倒,模型也能借(jie)助工具實(shi)時(shi)操作(zuo)圖(tu)(tu)像(xiang)(xiang),如(ru)進行旋轉、縮放或變換等,或者與Python數(shu)據(ju)分析(xi)、網(wang)絡(luo)搜索、圖(tu)(tu)像(xiang)(xiang)生成(cheng)等工具協同工作(zuo),這(zhe)些都是模型推理過(guo)程的一部分。

如用戶上(shang)傳一張隨手拍的圖(tu)片,可以詢問模型圖(tu)片“最大船(chuan)只的名字、在哪里停(ting)靠”等問題。

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

例如(ru)在使用(yong)內置文獻解決一(yi)道數學難題時(shi),OpenAI o3可以(yi)在不(bu)使用(yong)搜索的情(qing)況下給出正確答案,o1則無法提供(gong)正確響應。

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

面對幫助用戶(hu)“收集區(qu)域旅行(xing)數(shu)據、經濟(ji)統計數(shu)據和酒店入住率,病(bing)直觀分析趨勢并(bing)推薦(jian)理想的擴張地點”這一復(fu)雜問題時,OpenAI o3的結果引用了更多與(yu)行(xing)業相關的來源,并(bing)提(ti)出了詳細計劃,同時預(yu)測現實世界的挑戰并(bing)提(ti)供主動(dong)的緩解措施。相比之(zhi)下,01的結果更為寬泛(fan)。

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

在根據用(yong)戶上傳(chuan)的一張“手(shou)持節目單”照片進行(xing)分析后,OpenAI o3能(neng)夠(gou)準(zhun)確考(kao)慮日(ri)程(cheng)安排并(bing)輸出可用(yong)的計劃,而o1存在不(bu)準(zhun)確之處,某些節目時間錯誤。

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

模(mo)(mo)型能夠(gou)根據遇到(dao)的(de)信息(xi)做出(chu)反應和調整,例如,它(ta)們可以(yi)在(zai)(zai)搜(sou)索提供商的(de)幫(bang)助下多(duo)次搜(sou)索網絡、查(cha)看結果,并(bing)在(zai)(zai)需要更多(duo)信息(xi)時嘗試新的(de)搜(sou)索。這使得模(mo)(mo)型可以(yi)處理需要訪問(wen)超(chao)出(chu)模(mo)(mo)型內置知識、擴展(zhan)推理、綜合和跨(kua)模(mo)(mo)態輸出(chu)最新信息(xi)的(de)任務(wu)。

二、多模態任務大幅優于前代模型,視覺推理準確率高達97.5%

在成本和性能方面,OpenAI預計對于大多數實際應用,o3和o4-mini分別將比o1和o3-mini更智(zhi)能且更便宜

o4-mini和(he)o3-mini在成(cheng)本和(he)性能方面(mian)的對比:

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

o3和(he)o1在成本和(he)性能方(fang)面的對比(bi):

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

OpenAI在一系列人類考試和機器學習基準測試中測試了OpenAI o3和o4-mini,其結果顯示,這些新的視覺(jue)推理模型(xing)(xing)在所有(you)測試的多模態任務上都顯(xian)著優于前(qian)代模型(xing)(xing)

其(qi)中(zhong),無需瀏覽的(de)圖像思維(wei)幾(ji)乎(hu)在其(qi)所有評估的(de)感知基準測(ce)試(shi)中(zhong)均(jun)取得了顯著(zhu)提升。OpenAI o3和o4-mini在STEM問答(da)(MMMU、MathVista)、圖表閱(yue)讀和推(tui)理(li)(CharXiv)、感知原(yuan)語(VLMs are Blind)和視覺(jue)搜索(V*)方面均(jun)達(da)到了新(xin)的(de)最先進性能。在V*上,新(xin)模型的(de)視覺(jue)推(tui)理(li)方法達(da)到了95.7%的(de)準確率(lv)。

o3在分(fen)析圖像、圖表和圖形等視覺任務(wu)上表現更好。外部專家的(de)評(ping)估中,o3在困難、現實(shi)世界(jie)的(de)任務(wu)上比(bi)OpenAI o1少犯(fan)20%的(de)重(zhong)大錯誤。早期測試者強調了其在生物(wu)學、數學和工程(cheng)背(bei)景(jing)中分(fen)析嚴謹性問題的(de)能(neng)力(li),以(yi)及可以(yi)生成和批判性地(di)評(ping)估新穎假設的(de)能(neng)力(li)。

在(zai)專(zhuan)家評估中,o4-mini在(zai)非STEM任(ren)務以及數據科學等(deng)領(ling)域表現(xian)超過(guo)o3-mini。且(qie)o4-mini支持比(bi)o3高(gao)(gao)得多的(de)使(shi)用限制,具備高(gao)(gao)容(rong)量(liang)、高(gao)(gao)吞吐量(liang)的(de)優勢。

外部專家評估員認為這兩(liang)個模(mo)型都表現出比(bi)先前模(mo)型更(geng)好的(de)指令遵循能力和更(geng)有用、可驗(yan)證(zheng)的(de)響應(ying),此外,新(xin)模(mo)型在自然對話方面,可以參考記憶和過(guo)去(qu)的(de)對話來使響應(ying)更(geng)加個性(xing)化(hua)的(de)回答(da)。

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

多模態能力(li)的評估結果:

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

編碼(ma)能力的評估結果:

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

遵(zun)循指(zhi)令和代理工(gong)具(ju)使用(yong)的評估結果:

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

三、延續“更多計算=更好性能”思路,已開源輕量級編碼智能體

在OpenAI o3的開發過程中,研究人員觀察到大規模強化學習呈現出與GPT系列預訓練中觀察到的“更(geng)多(duo)計算=更(geng)好性能(neng)”的趨勢相同。

他們通過在(zai)(zai)(zai)強化學習(xi)中追溯擴展(zhan)路徑(jing),在(zai)(zai)(zai)訓練計算和推理時間上又推進了一個數量(liang)級后(hou),看到了模型明顯的(de)性(xing)能(neng)提升(sheng),這驗證了隨著模型被允(yun)許進行更多思考,其性(xing)能(neng)仍在(zai)(zai)(zai)持續提升(sheng)。

與OpenAI o1相同(tong)的延遲和成本下(xia),o3在ChatGPT中實(shi)現了更(geng)高的性能,并且其在博客中透露,研究人員已經驗證,如果讓模(mo)型思考更長的時間,其性能還會繼(ji)續提升。

研究人員還通過(guo)強化學習訓練了(le)新模型使(shi)(shi)用工(gong)具,不(bu)僅(jin)包(bao)括如(ru)何使(shi)(shi)用工(gong)具,還包(bao)括如(ru)何推理何時使(shi)(shi)用工(gong)具。新模型可以根據期望結(jie)果部署工(gong)具,使(shi)(shi)得(de)其(qi)在涉(she)及(ji)視覺推理和多(duo)步驟工(gong)作(zuo)流程(cheng)等開放(fang)式情境的表現更(geng)好。

OpenAI還分享了一個輕量(liang)級的編(bian)程Agent Codex CLI,用來最大化o3和o4-mini等(deng)模(mo)型的推理能力,用戶可以(yi)直接在(zai)終(zhong)端運行,OpenAI計劃支持GPT-4.1等(deng)更多API模(mo)型。

用(yong)戶可(ke)以(yi)通過(guo)傳遞截圖或低保真草圖到模(mo)型(xing),結合對(dui)本地代碼(ma)的訪(fang)問,從命令行(xing)獲(huo)得多模(mo)態推理(li)的好處。OpenAI認為這可(ke)以(yi)將(jiang)模(mo)型(xing)與用(yong)戶及其計算機連(lian)接(jie)起來。今天起,Codex CLI已完(wan)全開源(yuan)。

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

開(kai)源(yuan)地址:github.com/openai/codex

同時,OpenAI啟(qi)動了一項100萬美元倡議(yi),以支持使用Codex CLI和OpenAI模(mo)型(xing)的(de)工程項目,其將評估并接受以25000美元API信用額度(du)形式提(ti)供的(de)補助金申請。

四、仍有三大局限性:推理鏈過程、感知錯誤、可靠性不足

不過(guo),在博客中研究人員也提到,圖像推理(li)目前存在以下局限性:

過長的推理鏈:模(mo)型可能會執行冗余或不必要的(de)工(gong)具調用和圖像處理步驟(zou),導致過長的(de)思維鏈;

感知(zhi)錯誤(wu):模型仍然(ran)可(ke)能犯基本的感(gan)知錯誤。即(ji)使工具調用(yong)正(zheng)確推進推理過程(cheng),視覺誤解也可(ke)能導致(zhi)最(zui)終(zhong)答案不(bu)正(zheng)確;

可(ke)靠性:模(mo)型可(ke)能在多(duo)次嘗試解決問題時嘗試不同的(de)視覺(jue)推理過程,其中一(yi)些可(ke)能導致錯誤的(de)結果(guo)。

在(zai)安(an)全方面,OpenA重建了(le)安(an)全訓練數(shu)據,在(zai)生物威脅(生物風(feng)險)、惡意軟件生成(cheng)和越(yue)獄等領域添加(jia)了(le)新的拒絕提示。這使得o3和o4-mini在(zai)其內部拒絕基準測試中表現較好(hao)。

OpenAI還開發了系統級緩解措施,以標記前沿(yan)風險(xian)區域(yu)中的(de)危險(xian)提示。研(yan)究人員訓練了一(yi)個推理大模型監控(kong)器(qi)(qi),該監控(kong)器(qi)(qi)基于(yu)人類編寫的(de)可解釋安全規(gui)范。當應用(yong)于(yu)生(sheng)物風險(xian)時,該監控(kong)器(qi)(qi)成功標記了人類紅(hong)隊行動中約(yue) 99%的(de)對話。

研究人員更新了(le)應急準備框(kuang)(kuang)架(jia),對o3和(he)o4-mini在框(kuang)(kuang)架(jia)涵蓋的三(san)個跟蹤能力領域(yu)進行(xing)了(le)評(ping)估(gu):生物和(he)化學、網絡安全和(he)AI自我改進。根據這些評(ping)估(gu)的結果,其確定o3和(he)o4-mini在所有三(san)個類別中均低于框(kuang)(kuang)架(jia)的“高”閾值(zhi)。

結語:發力視覺推理,邁向多模態推理

OpenAI o3和o4-mini顯著提(ti)升了模(mo)型的視覺(jue)推(tui)理能(neng)力,這(zhe)些模(mo)型在視覺(jue)感知任務(wu)上的提(ti)升,使(shi)其能(neng)夠解決之前模(mo)型難以觸及的問題(ti),標(biao)志(zhi)著模(mo)型向多模(mo)態推(tui)理邁出(chu)的重要一步(bu)。

OpenAI在博客中提(ti)到,他們將o系(xi)列(lie)的(de)專(zhuan)業推理能(neng)力(li)與GPT系(xi)列(lie)的(de)自然(ran)對(dui)話能(neng)力(li)和工具使用能(neng)力(li)相結合,未(wei)來可(ke)以實現模型能(neng)支持無縫、自然(ran)的(de)對(dui)話,同時(shi)能(neng)主(zhu)動使用工具并解決更為復雜的(de)問題。

此外,研究(jiu)人員也在不斷優化模型使用圖像(xiang)進行(xing)推理的能力,使其更(geng)加簡(jian)潔、更(geng)少冗余(yu)、更(geng)可(ke)靠。