重磅！OpenAI推o3-mini新模型，被DeepSeek逼急？定价仍打不过

智東西（公眾號：zhidxcom）
作者 | ZeR0
編輯 | 漠影

智東西2月1日報道，今日凌晨，OpenAI發布全新推理模型o3-mini。

OpenAI稱這是其最具成本效益的推理模型，復雜推理和對話能力顯著提升，在科學、數學、編程等領域的性能表現超過前代o1模型，同時保持了o1-mini的低成本和低延遲，并可與聯網搜索功能搭配使用。

o3-mini已在ChatGPT和API中可用，企業版訪問權限將在一周內推出。

顯然DeepSeek登頂美國App Store免費榜給OpenAI制造了壓力。今天，ChatGPT首次向所有用戶免費提供推理模型：用戶可在ChatGPT中(zhong)選(xuan)擇“Reason”按(an)鈕來試用o3-mini。

ChatGPT Pro用戶可無限制訪問，Plus和Team用戶的速率限制從原來o1-mini的每天50條消息增加3倍到o3-mini的每天150條消息。

付費用戶還可以選擇更高智能的版本“o3-mini-high”。該版(ban)本需要更長的(de)時間才能生成響應。

和o1模型一樣，o3-mini模型的知識截止日期為2023年10月，上(shang)下文窗口為20萬個token，最(zui)多可(ke)輸出(chu)10萬個token。

有低（low）、中（medium）、高（high）三個版本的o3-mini，供開發(fa)者針(zhen)對其特定用例進行優化。

o3-mini目前(qian)不支(zhi)持視覺(jue)功能(neng)，因此開發者仍(reng)需使(shi)用o1進行(xing)視覺(jue)推(tui)理任(ren)務。

即日起，o3-mini在Chat Completions API、Assistants API、Batch API中推出。

OpenAI稱(cheng)相較推出GPT-4時(shi)，每個(ge)token的(de)(de)價格已經降低了(le)95%，同時(shi)保持(chi)了(le)頂級(ji)的(de)(de)推理能力。不過(guo)o3-mini的(de)(de)API定價還(huan)是高于(yu)DeepSeek模型。

▲OpenAI模型(xing)與DeepSeek模型(xing)API定價對比（智東西制(zhi)圖）

安(an)全(quan)方(fang)面，OpenAI發現o3-mini在具有挑戰性的(de)安(an)全(quan)性和越獄方(fang)面明顯(xian)超(chao)過GPT-4o。

一、詳解o3-mini：科學數學編程能力進化，延遲明顯降低

OpenAI發布(bu)了o3-mini的37頁詳細報(bao)告，涵(han)蓋模型的介(jie)紹、數(shu)據和訓練、測試范(fan)圍、安全挑戰(zhan)和評估、外部紅隊(dui)測試、準備(bei)框架評估、多(duo)(duo)語言性能以及結論等多(duo)(duo)個(ge)方面。

o3-mini針(zhen)對科學(xue)、數學(xue)、編程推理進行了優(you)化(hua)，同時響應速度更快。

該模(mo)型在GPQA Diamond（理化生）、AIME 2022-2024（數(shu)學）、Codeforces ELO（編程(cheng)）基準測試中(zhong)，o3-mini的分數(shu)分別為(wei)0.77、0.80、2036，比肩或超過o1推理模(mo)型。

在14種語言的MMLU測試集上，o3-mini的表現(xian)顯著優于o1-mini，展示了(le)其(qi)在多語言理解方(fang)面的進步。

外部專家測試人員(yuan)的評估表明，與(yu)o1-mini相(xiang)比，o3-mini的答案更(geng)準(zhun)確、更(geng)清晰，推理能(neng)力更(geng)強。

在(zai)人類(lei)偏好評估(gu)中，測試人員在(zai)56%的(de)時間(jian)里更喜歡(huan)o3-mini的(de)回答，并觀察到在(zai)困難的(de)現(xian)實問題(ti)上(shang)重大錯誤減少了39%。在(zai)中推理能力(li)下，o3-mini在(zai)一(yi)些(xie)最具挑戰性(xing)的(de)推理和智力(li)評估(gu)（包(bao)括AIME和GPQA）上(shang)的(de)表現(xian)與o1相當。

o3-mini的(de)(de)智能可媲(pi)美o1，提供了更(geng)快的(de)(de)性能、更(geng)高的(de)(de)效率。中推理能力(li)下，該模型還在額外的(de)(de)數學和事實性評(ping)估(gu)中表現出色(se)。在A/B測試(shi)中，o3-mini的(de)(de)響(xiang)應(ying)速度(du)比o1-mini快24%，平均響(xiang)應(ying)時間(jian)為7.7秒(miao)，而(er)o1-mini為10.16秒(miao)。

數(shu)學方面，在(zai)(zai)低(di)推理(li)能(neng)力下，o3-mini的表(biao)現(xian)與(yu)o1-mini相當，而(er)在(zai)(zai)中推理(li)能(neng)力下，o3-mini的表(biao)現(xian)與(yu)o1相當。同時，在(zai)(zai)高推理(li)能(neng)力下，o3-mini的表(biao)現(xian)優于o1-mini和(he)o1。

具有高推理能力的o3-mini在FrontierMath上(shang)的表現(xian)優于其前代。

在FrontierMath測試上，當被(bei)提示使(shi)用Python工具(ju)時(shi)，具(ju)有高推理能力的(de)o3-mini在第一次嘗試時(shi)解決(jue)了超過(guo)32%的(de)問題(ti)，其中包括超過(guo)28%的(de)具(ju)有挑戰性的(de)（T3）問題(ti)。

o3-mini隨著推理能力的(de)增(zeng)加逐(zhu)漸獲得更高(gao)的(de)Elo分數，均(jun)優于o1-mini。在中推理能力下，它的(de)表現與(yu)o1相當。

o3-mini是OpenAI在(zai)SWE-bench驗證(zheng)中表現最好的(de)模型。

關于SWE-bench驗證結果的更多(duo)數據如下圖所示(shi)。o3-mini (tools) 性(xing)能(neng)最好，為(wei)61%。使用Agentless而非內部(bu)工具的o3-mini上市候選產品得分(fen)為(wei)39%。o1是(shi)表現第二(er)好的模型，得分(fen)為(wei)48%。

在LiveBench編程測試中，高推理能(neng)力的(de)o3-mini得分全面超過o1-high。

二、多項安全評估超過GPT-4o

OpenAI還詳(xiang)細介紹了o3-mini在(zai)多個安全(quan)(quan)評(ping)估(gu)中的表現，稱(cheng)o3-mini在(zai)具有挑戰性的安全(quan)(quan)性和(he)越獄評(ping)估(gu)方面(mian)明(ming)顯超越了GPT-4o。

在不允許(xu)的內容評估中(zhong)，與GPT-4o相(xiang)比，o3-mini在標準(zhun)拒絕評估和挑戰性拒絕評估中(zhong)表現相(xiang)似，但在XSTest中(zhong)略遜一籌(chou)。

在越(yue)獄評(ping)估中(zhong)，o3-mini與o1-mini相(xiang)比(bi)，在生產越(yue)獄、越(yue)獄增(zeng)強示(shi)例、StrongReject和(he)人類來源的越(yue)獄評(ping)估中(zhong)表現相(xiang)當。

在(zai)幻覺評(ping)估中，使用PersonQA數據集，o3-mini的準(zhun)確率為21.7%，幻覺率為14.8%，與GPT-4o、o1-mini相比表現相當或(huo)更好(hao)。

在公平性和偏見評估中，o3-mini在BBQ評估中的表現(xian)與(yu)o1-mini相似，但在處理模糊問題時的準確性略有下降(jiang)。

外部紅隊測試顯示，o3-mini在與(yu)o1的比較中表現(xian)相(xiang)當，兩者都(dou)顯著優(you)于GPT-4o。

在(zai)Gray Swan Arena的越獄測(ce)試中，o3-mini的平均用(yong)戶攻擊成(cheng)功(gong)率為(wei)3.6%，與(yu)o1-mini和(he)GPT-4o相比(bi)略(lve)高。

準備框架評估(gu)涵蓋了網絡(luo)安全、CBRN（化(hua)學、生(sheng)(sheng)物、放(fang)射性(xing)、核）、說服力(li)、模型自(zi)主(zhu)性(xing)四(si)個風險(xian)(xian)類別。o3-mini在(zai)(zai)網絡(luo)安全方(fang)面被評為“低風險(xian)(xian)”，在(zai)(zai)CBRN、說服力(li)、模型自(zi)主(zhu)性(xing)方(fang)面被評為“中等(deng)(deng)風險(xian)(xian)”，在(zai)(zai)生(sheng)(sheng)物威脅創建(jian)方(fang)面的表現達到了“中等(deng)(deng)風險(xian)(xian)”閾值，但在(zai)(zai)核和放(fang)射性(xing)武器(qi)發展方(fang)面的能力(li)有限。

按其(qi)評級，只有(you)緩(huan)解后得分為“中(zhong)等(deng)”或以(yi)(yi)下的(de)模型才可以(yi)(yi)部署，得分“高(gao)等(deng)”或以(yi)(yi)下的(de)模型才可以(yi)(yi)進(jin)一步開發。

三、o3基準測試成本或超3000萬美元，OpenAI正談判2900億元新融資

自去年(nian)9月發布(bu)o1以來，OpenAI一直在迭代(dai)(dai)其推理(li)模型(xing)，去年(nian)年(nian)底發布(bu)的o3模型(xing)是其最新一代(dai)(dai)AI推理(li)模型(xing)。

高(gao)端(duan)版o3模(mo)型針對高(gao)計算應用(yong)，而o3-mini迎(ying)合了需(xu)要兼(jian)顧經濟(ji)高(gao)效的(de)用(yong)戶需(xu)求(qiu)。這反映了OpenAI試圖(tu)平衡可訪問性和高(gao)級付費產品的(de)策略。

這兩天也不知道是被(bei)DeepSeek逼急了，還是為(wei)了給o3-mini預熱，OpenAI聯(lian)合創始人兼CEO薩姆·阿(a)爾特(te)曼在(zai)社交(jiao)平臺(tai)上非常活(huo)躍(yue)，又是夸DeepSeek R1令人印(yin)象深刻(ke)，又說OpenAI將提供更(geng)好的模型，又強(qiang)調更(geng)多計算很重要。

昨天他還大張旗鼓地宣布第一個完整8機架GB200?NVL72服務器正在微(wei)軟Azure為OpenAI運(yun)行(xing)。

印度政府本周五發布的《2024-2025經濟調查》報告顯示，OpenAI可能已經花費超過3000萬美元來(lai)對(dui)其(qi)最新(xin)AI推(tui)理模型o3進(jin)行基(ji)準測試(shi)。

該報告寫道，OpenAI o3模型處理能力的突破付出了非常高的代價。ARC-AGI基準測試被認為是最具挑戰性的AI任務之一，OpenAI的低效配置模型導致了20萬美元的成本。高效模型的成本更是高達低效模型的172倍，也就是大約3440萬美元。

阿爾特曼前幾天還曬出和(he)微軟董(dong)事長兼CEO薩提亞·納德拉的(de)合(he)照(zhao)，說微軟和(he)OpenAI合(he)作的(de)下一(yi)階段將會比任何人想象的(de)都要好得多。

不過微軟(ruan)作為OpenAI最(zui)大投(tou)資者(zhe)的名號，可能要被日本軟(ruan)銀集團奪走。

近期軟銀集(ji)團創始人(ren)(ren)兼CEO孫正(zheng)義與阿爾特曼往來愈發密切，上周(zhou)宣布聯手成立AI巨型項目“星際之門（Stargate）”，未(wei)來四年投(tou)資5000億美(mei)元（約合人(ren)(ren)民幣(bi)3.6萬億元）建設AI基礎設施，昨(zuo)天又被外媒曝出將成為(wei)OpenAI新一輪巨額(e)融資的領投(tou)方。

據外媒報道，OpenAI正在進行初步談判，計劃在一輪融資中籌集至多400億美元（約合人民幣2901億元），估值將達到3000億美元（約合人民幣2.18萬億元）。日本軟銀集團將領投此輪融資，正在商談投資150億至250億美元，剩余資(zi)(zi)金將來(lai)自其他投資(zi)(zi)者。

加上之前軟銀承諾向“星際之門”投資的逾150億美元，最終軟銀可能會在與OpenAI的合作上投入超過400億美元。這將成為軟銀迄今最大的投資之一。

結語：狂卷性價比，高質AI推理模型走向普及

此(ci)前馬斯(si)克(ke)等科技大佬已經(jing)公開(kai)質疑(yi)過如何承擔建造“星際之門”的巨(ju)額(e)成本(ben)。在DeepSeek高性(xing)能低(di)成本(ben)開(kai)源模型的影(ying)響下，美(mei)國(guo)AI產(chan)業界和華爾街投資者對(dui)OpenAI等其他(ta)美(mei)國(guo)AI開(kai)發(fa)商(shang)的大手筆支出策略更是疑(yi)竇叢生(sheng)。

OpenAI最新(xin)推出的(de)o3-mini，也被視作抵御(yu)DeepSeek模(mo)型(xing)沖擊的(de)最新(xin)舉措，令(ling)業界尤其關注。

在(zai)新聞稿中，OpenAI稱(cheng)o3-mini的(de)發布標志(zhi)著該公司向(xiang)突破(po)高性價比(bi)智(zhi)能界限(xian)的(de)使命又邁進了(le)一步(bu)，讓高質量的(de)AI更加(jia)觸手可(ke)及，OpenAI致(zhi)力于走(zou)在(zai)前沿，構建能夠平衡(heng)智(zhi)能、效率和(he)安全性的(de)大規模模型。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、詳解o3-mini：科學數學編程能力進化，延遲明顯降低

二、多項安全評估超過GPT-4o

三、o3基準測試成本或超3000萬美元，OpenAI正談判2900億元新融資

結語：狂卷性價比，高質AI推理模型走向普及

相關推薦