o3和o4-mini来了！OpenAI突破最强“看图思考”，开源AI编程神器，史上最大收购曝光

智東西（公眾號：zhidxcom）
編譯 |? 程茜
編輯 |? 云鵬

智東西4月17日報道，今日凌晨，OpenAI重磅發布兩大視覺推理模型OpenAI o3和o4-mini，這也是OpenAI o系列中首次可以使用圖像進行思維鏈推理的模型。OpenAI還開源了輕量級編程Agent?Codex CLI，發布不到7個小時(shi)，Star數已超5500。

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

這兩個模型的區別在于，OpenAI o3是最強大的推理模型；OpenAI o4-mini是一個針對快速、成本效益推理進行優化的較小模型。新模(mo)型(xing)首次將(jiang)圖像融(rong)入思(si)維(wei)鏈過程，還(huan)能(neng)自主調用(yong)工具，在(zai)一分鐘內生成答案。

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

OpenAI開源的編程Agent Codex CLI能最大化(hua)模型(xing)推理(li)能力(li)，可在(zai)端側(ce)部署。今日OpenAI還在(zai)AI編程領(ling)域曝出(chu)重磅收購(gou)交易。據外媒報道，OpenAI正在洽談以30億美元（約合人民幣219億元）收購AI輔助編程工具Windsurf（前身為Codeium），這將是OpenAI迄今(jin)規模最大的一筆收購。

今天起，ChatGPT Plus、Pro和Team用戶(hu)今天起可(ke)(ke)(ke)以(yi)使用o3、o4-mini和o4-mini-high，這些模型會取(qu)代o1、o3-mini和o3－mini－high。ChatGPT企業(ye)和教育將在(zai)(zai)一周后(hou)獲得訪(fang)問權限。免費用戶(hu)可(ke)(ke)(ke)以(yi)在(zai)(zai)提交查詢前選擇“思考”來嘗(chang)試o4-mini。OpenAI預計在(zai)(zai)幾周內(nei)發(fa)布OpenAI o3-pro，并配備完整工具支(zhi)持。目(mu)前Pro用戶(hu)仍可(ke)(ke)(ke)訪(fang)問o1-pro。o3和o4-mini通過Chat Completions API和Responses API向(xiang)開發(fa)者開放。

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

OpenAI聯合創始人(ren)兼CEO Sam Altman在(zai)社交平臺X上發文盛贊o3、o4-mini是(shi)“天(tian)才水平”。

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

正(zheng)在被OpenAI洽(qia)談收購(gou)的(de)Windsurf，正(zheng)式名稱為Exafunction Inc.，成立于2021年，已籌集超過2億美(mei)元(yuan)的(de)風(feng)險(xian)投資(zi)資(zi)金，估值30億美(mei)元(yuan)，近期與其洽(qia)談融(rong)資(zi)事宜還包括Kleiner Perkins和General Catalyst在內的(de)投資(zi)者。去年11月(yue)，Windsurf發(fa)布了全(quan)球(qiu)首個智能體IDE。

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

▲Windsurf發布全球首個智能體(ti)IDE（Agentic IDE）

近期AI編程(cheng)創(chuang)企(qi)融資火爆，Cursor背后(hou)的(de)初創(chuang)公(gong)司Anysphere在今年早些時候與投資者洽談以近100億美(mei)元(yuan)（約合人民幣731億元(yuan)）的(de)估值(zhi)獲得新融資。

此前(qian)OpenAI曾收購過(guo)向量數據庫(ku)公(gong)司(si)Rockset和遠程(cheng)協(xie)作平(ping)臺(tai)Multi。如果收購Windsurf的(de)新(xin)交易完(wan)成，OpenAI將進一步補充(chong)AI編程(cheng)助(zhu)手實力，與Anthropic、微(wei)軟旗(qi)下Github、Anysphere等知名AI編程(cheng)公(gong)司(si)展開更直接的(de)競爭。

交易條款尚未敲定，談判(pan)仍有(you)可能發生變(bian)化。

一、用圖像思考，手繪草圖、顛倒文字都能處理

o3和o4-mini模型可以直接(jie)將圖(tu)像整合到思維鏈中，用(yong)圖像來進行思考，并且其(qi)還會被訓練推理(li)在什么時間點使用(yong)哪種工具。

具體來看，模型可(ke)以解讀人們上傳的白板照片、教科書(shu)圖(tu)(tu)表或手繪(hui)草(cao)圖(tu)(tu)，如(ru)果圖(tu)(tu)像(xiang)(xiang)模糊、顛倒，模型也能借(jie)助工具實(shi)時(shi)操作(zuo)圖(tu)(tu)像(xiang)(xiang)，如(ru)進行旋轉、縮放或變換等，或者與Python數(shu)據(ju)分析(xi)、網(wang)絡(luo)搜索、圖(tu)(tu)像(xiang)(xiang)生成(cheng)等工具協同工作(zuo)，這(zhe)些都是模型推理過(guo)程的一部分。

如用戶上(shang)傳一張隨手拍的圖(tu)片，可以詢問模型圖(tu)片“最大船(chuan)只的名字、在哪里停(ting)靠”等問題。

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

例如(ru)在使用(yong)內置文獻解決一(yi)道數學難題時(shi)，OpenAI o3可以(yi)在不(bu)使用(yong)搜索的情(qing)況下給出正確答案，o1則無法提供(gong)正確響應。

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

面對幫助用戶(hu)“收集區(qu)域旅行(xing)數(shu)據、經濟(ji)統計數(shu)據和酒店入住率，病(bing)直觀分析趨勢并(bing)推薦(jian)理想的擴張地點”這一復(fu)雜問題時，OpenAI o3的結果引用了更多與(yu)行(xing)業相關的來源，并(bing)提(ti)出了詳細計劃，同時預(yu)測現實世界的挑戰并(bing)提(ti)供主動(dong)的緩解措施。相比之(zhi)下，01的結果更為寬泛(fan)。

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

在根據用(yong)戶上傳(chuan)的一張“手(shou)持節目單”照片進行(xing)分析后，OpenAI o3能(neng)夠(gou)準(zhun)確考(kao)慮日(ri)程(cheng)安排并(bing)輸出可用(yong)的計劃，而o1存在不(bu)準(zhun)確之處，某些節目時間錯誤。

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

模(mo)(mo)型能夠(gou)根據遇到(dao)的(de)信息(xi)做出(chu)反應和調整，例如，它(ta)們可以(yi)在(zai)(zai)搜(sou)索提供商的(de)幫(bang)助下多(duo)次搜(sou)索網絡、查(cha)看結果，并(bing)在(zai)(zai)需要更多(duo)信息(xi)時嘗試新的(de)搜(sou)索。這使得模(mo)(mo)型可以(yi)處理需要訪問(wen)超(chao)出(chu)模(mo)(mo)型內置知識、擴展(zhan)推理、綜合和跨(kua)模(mo)(mo)態輸出(chu)最新信息(xi)的(de)任務(wu)。

二、多模態任務大幅優于前代模型，視覺推理準確率高達97.5%

在成本和性能方面，OpenAI預計對于大多數實際應用，o3和o4-mini分別將比o1和o3-mini更智(zhi)能且更便宜。

o4-mini和(he)o3-mini在成(cheng)本和(he)性能方面(mian)的對比：

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

o3和(he)o1在成本和(he)性能方(fang)面的對比(bi)：

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

OpenAI在一系列人類考試和機器學習基準測試中測試了OpenAI o3和o4-mini，其結果顯示，這些新的視覺(jue)推理模型(xing)(xing)在所有(you)測試的多模態任務上都顯(xian)著優于前(qian)代模型(xing)(xing)。

其(qi)中(zhong)，無需瀏覽的(de)圖像思維(wei)幾(ji)乎(hu)在其(qi)所有評估的(de)感知基準測(ce)試(shi)中(zhong)均(jun)取得了顯著(zhu)提升。OpenAI o3和o4-mini在STEM問答(da)（MMMU、MathVista）、圖表閱(yue)讀和推(tui)理(li)（CharXiv）、感知原(yuan)語（VLMs are Blind）和視覺(jue)搜索（V*）方面均(jun)達(da)到了新(xin)的(de)最先進性能。在V*上，新(xin)模型的(de)視覺(jue)推(tui)理(li)方法達(da)到了95.7%的(de)準確率(lv)。

o3在分(fen)析圖像、圖表和圖形等視覺任務(wu)上表現更好。外部專家的(de)評(ping)估中，o3在困難、現實(shi)世界(jie)的(de)任務(wu)上比(bi)OpenAI o1少犯(fan)20%的(de)重(zhong)大錯誤。早期測試者強調了其在生物(wu)學、數學和工程(cheng)背(bei)景(jing)中分(fen)析嚴謹性問題的(de)能(neng)力(li)，以(yi)及可以(yi)生成和批判性地(di)評(ping)估新穎假設的(de)能(neng)力(li)。

在(zai)專(zhuan)家評估中，o4-mini在(zai)非STEM任(ren)務以及數據科學等(deng)領(ling)域表現(xian)超過(guo)o3-mini。且(qie)o4-mini支持比(bi)o3高(gao)(gao)得多的(de)使(shi)用限制，具備高(gao)(gao)容(rong)量(liang)、高(gao)(gao)吞吐量(liang)的(de)優勢。

外部專家評估員認為這兩(liang)個模(mo)型都表現出比(bi)先前模(mo)型更(geng)好的(de)指令遵循能力和更(geng)有用、可驗(yan)證(zheng)的(de)響應(ying)，此外，新(xin)模(mo)型在自然對話方面，可以參考記憶和過(guo)去(qu)的(de)對話來使響應(ying)更(geng)加個性(xing)化(hua)的(de)回答(da)。

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

多模態能力(li)的評估結果：

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

編碼(ma)能力的評估結果：

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

遵(zun)循指(zhi)令和代理工(gong)具(ju)使用(yong)的評估結果：

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

三、延續“更多計算=更好性能”思路，已開源輕量級編碼智能體

在OpenAI o3的開發過程中，研究人員觀察到大規模強化學習呈現出與GPT系列預訓練中觀察到的“更(geng)多(duo)計算=更(geng)好性能(neng)”的趨勢相同。

他們通過在(zai)(zai)(zai)強化學習(xi)中追溯擴展(zhan)路徑(jing)，在(zai)(zai)(zai)訓練計算和推理時間上又推進了一個數量(liang)級后(hou)，看到了模型明顯的(de)性(xing)能(neng)提升(sheng)，這驗證了隨著模型被允(yun)許進行更多思考，其性(xing)能(neng)仍在(zai)(zai)(zai)持續提升(sheng)。

與OpenAI o1相同(tong)的延遲和成本下(xia)，o3在ChatGPT中實(shi)現了更(geng)高的性能，并且其在博客中透露，研究人員已經驗證，如果讓模(mo)型思考更長的時間，其性能還會繼(ji)續提升。

研究人員還通過(guo)強化學習訓練了(le)新模型使(shi)(shi)用工(gong)具，不(bu)僅(jin)包(bao)括如(ru)何使(shi)(shi)用工(gong)具，還包(bao)括如(ru)何推理何時使(shi)(shi)用工(gong)具。新模型可以根據期望結(jie)果部署工(gong)具，使(shi)(shi)得(de)其(qi)在涉(she)及(ji)視覺推理和多(duo)步驟工(gong)作(zuo)流程(cheng)等開放(fang)式情境的表現更(geng)好。

OpenAI還分享了一個輕量(liang)級的編(bian)程Agent Codex CLI，用來最大化o3和o4-mini等(deng)模(mo)型的推理能力，用戶可以(yi)直接在(zai)終(zhong)端運行，OpenAI計劃支持GPT-4.1等(deng)更多API模(mo)型。

用(yong)戶可(ke)以(yi)通過(guo)傳遞截圖或低保真草圖到模(mo)型(xing)，結合對(dui)本地代碼(ma)的訪(fang)問，從命令行(xing)獲(huo)得多模(mo)態推理(li)的好處。OpenAI認為這可(ke)以(yi)將(jiang)模(mo)型(xing)與用(yong)戶及其計算機連(lian)接(jie)起來。今天起，Codex CLI已完(wan)全開源(yuan)。

o3和o4-mini來了！OpenAI突破最強“看圖思考”，開源AI編程神器，史上最大收購曝光

開(kai)源(yuan)地址：github.com/openai/codex

同時，OpenAI啟(qi)動了一項100萬美元倡議(yi)，以支持使用Codex CLI和OpenAI模(mo)型(xing)的(de)工程項目，其將評估并接受以25000美元API信用額度(du)形式提(ti)供的(de)補助金申請。

四、仍有三大局限性：推理鏈過程、感知錯誤、可靠性不足

不過(guo)，在博客中研究人員也提到，圖像推理(li)目前存在以下局限性：

過長的推理鏈：模(mo)型可能會執行冗余或不必要的(de)工(gong)具調用和圖像處理步驟(zou)，導致過長的(de)思維鏈；

感知(zhi)錯誤(wu)：模型仍然(ran)可(ke)能犯基本的感(gan)知錯誤。即(ji)使工具調用(yong)正(zheng)確推進推理過程(cheng)，視覺誤解也可(ke)能導致(zhi)最(zui)終(zhong)答案不(bu)正(zheng)確；

可(ke)靠性：模(mo)型可(ke)能在多(duo)次嘗試解決問題時嘗試不同的(de)視覺(jue)推理過程，其中一(yi)些可(ke)能導致錯誤的(de)結果(guo)。

在(zai)安(an)全方面，OpenA重建了(le)安(an)全訓練數(shu)據，在(zai)生物威脅（生物風(feng)險）、惡意軟件生成(cheng)和越(yue)獄等領域添加(jia)了(le)新的拒絕提示。這使得o3和o4-mini在(zai)其內部拒絕基準測試中表現較好(hao)。

OpenAI還開發了系統級緩解措施，以標記前沿(yan)風險(xian)區域(yu)中的(de)危險(xian)提示。研(yan)究人員訓練了一(yi)個推理大模型監控(kong)器(qi)(qi)，該監控(kong)器(qi)(qi)基于(yu)人類編寫的(de)可解釋安全規(gui)范。當應用(yong)于(yu)生(sheng)物風險(xian)時，該監控(kong)器(qi)(qi)成功標記了人類紅(hong)隊行動中約(yue) 99%的(de)對話。

研究人員更新了(le)應急準備框(kuang)(kuang)架(jia)，對o3和(he)o4-mini在框(kuang)(kuang)架(jia)涵蓋的三(san)個跟蹤能力領域(yu)進行(xing)了(le)評(ping)估(gu)：生物和(he)化學、網絡安全和(he)AI自我改進。根據這些評(ping)估(gu)的結果，其確定o3和(he)o4-mini在所有三(san)個類別中均低于框(kuang)(kuang)架(jia)的“高”閾值(zhi)。

結語：發力視覺推理，邁向多模態推理

OpenAI o3和o4-mini顯著提(ti)升了模(mo)型的視覺(jue)推(tui)理能(neng)力，這(zhe)些模(mo)型在視覺(jue)感知任務(wu)上的提(ti)升，使(shi)其能(neng)夠解決之前模(mo)型難以觸及的問題(ti)，標(biao)志(zhi)著模(mo)型向多模(mo)態推(tui)理邁出(chu)的重要一步(bu)。

OpenAI在博客中提(ti)到，他們將o系(xi)列(lie)的(de)專(zhuan)業推理能(neng)力(li)與GPT系(xi)列(lie)的(de)自然(ran)對(dui)話能(neng)力(li)和工具使用能(neng)力(li)相結合，未(wei)來可(ke)以實現模型能(neng)支持無縫、自然(ran)的(de)對(dui)話，同時(shi)能(neng)主(zhu)動使用工具并解決更為復雜的(de)問題。

此外，研究(jiu)人員也在不斷優化模型使用圖像(xiang)進行(xing)推理的能力，使其更(geng)加簡(jian)潔、更(geng)少冗余(yu)、更(geng)可(ke)靠。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、用圖像思考，手繪草圖、顛倒文字都能處理

二、多模態任務大幅優于前代模型，視覺推理準確率高達97.5%

三、延續“更多計算=更好性能”思路，已開源輕量級編碼智能體

四、仍有三大局限性：推理鏈過程、感知錯誤、可靠性不足

結語：發力視覺推理，邁向多模態推理

相關推薦