
智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西2月1日報道,今日凌晨,OpenAI發布全新推理模型o3-mini。
OpenAI稱這是其最具成本效益的推理模型,復雜推理和對話能力顯著提升,在科學、數學、編程等領域的性能表現超過前代o1模型,同時保持了o1-mini的低成本和低延遲,并可與聯網搜索功能搭配使用。
o3-mini已在ChatGPT和API中可用,企業版訪問權限將在一周內推出。
顯然DeepSeek登頂美國App Store免費榜給OpenAI制造了壓力。今天,ChatGPT首次向所有用戶免費提供推理模型:用戶可在ChatGPT中(zhong)選(xuan)擇“Reason”按(an)鈕來試用o3-mini。
ChatGPT Pro用戶可無限制訪問,Plus和Team用戶的速率限制從原來o1-mini的每天50條消息增加3倍到o3-mini的每天150條消息。
付費用戶還可以選擇更高智能的版本“o3-mini-high”。該版(ban)本需要更長的(de)時間才能生成響應。
和o1模型一樣,o3-mini模型的知識截止日期為2023年10月,上(shang)下文窗口為20萬個token,最(zui)多可(ke)輸出(chu)10萬個token。
有低(low)、中(medium)、高(high)三個版本的o3-mini,供開發(fa)者針(zhen)對其特定用例進行優化。
o3-mini目前(qian)不支(zhi)持視覺(jue)功能(neng),因此開發者仍(reng)需使(shi)用o1進行(xing)視覺(jue)推(tui)理任(ren)務。
即日起,o3-mini在Chat Completions API、Assistants API、Batch API中推出。
OpenAI稱(cheng)相較推出GPT-4時(shi),每個(ge)token的(de)(de)價格已經降低了(le)95%,同時(shi)保持(chi)了(le)頂級(ji)的(de)(de)推理能力。不過(guo)o3-mini的(de)(de)API定價還(huan)是高于(yu)DeepSeek模型。
▲OpenAI模型(xing)與DeepSeek模型(xing)API定價對比(智東西制(zhi)圖)
安(an)全(quan)方(fang)面,OpenAI發現o3-mini在具有挑戰性的(de)安(an)全(quan)性和越獄方(fang)面明顯(xian)超(chao)過GPT-4o。
一、詳解o3-mini:科學數學編程能力進化,延遲明顯降低
OpenAI發布(bu)了o3-mini的37頁詳細報(bao)告,涵(han)蓋模型的介(jie)紹、數(shu)據和訓練、測試范(fan)圍、安全挑戰(zhan)和評估、外部紅隊(dui)測試、準備(bei)框架評估、多(duo)(duo)語言性能以及結論等多(duo)(duo)個(ge)方面。
o3-mini針(zhen)對科學(xue)、數學(xue)、編程推理進行了優(you)化(hua),同時響應速度更快。
該模(mo)型在GPQA Diamond(理化生)、AIME 2022-2024(數(shu)學)、Codeforces ELO(編程(cheng))基準測試中(zhong),o3-mini的分數(shu)分別為(wei)0.77、0.80、2036,比肩或超過o1推理模(mo)型。
在14種語言的MMLU測試集上,o3-mini的表現(xian)顯著優于o1-mini,展示了(le)其(qi)在多語言理解方(fang)面的進步。
外部專家測試人員(yuan)的評估表明,與(yu)o1-mini相(xiang)比,o3-mini的答案更(geng)準(zhun)確、更(geng)清晰,推理能(neng)力更(geng)強。
在(zai)人類(lei)偏好評估(gu)中,測試人員在(zai)56%的(de)時間(jian)里更喜歡(huan)o3-mini的(de)回答,并觀察到在(zai)困難的(de)現(xian)實問題(ti)上(shang)重大錯誤減少了39%。在(zai)中推理能力(li)下,o3-mini在(zai)一(yi)些(xie)最具挑戰性(xing)的(de)推理和智力(li)評估(gu)(包(bao)括AIME和GPQA)上(shang)的(de)表現(xian)與o1相當。
o3-mini的(de)(de)智能可媲(pi)美o1,提供了更(geng)快的(de)(de)性能、更(geng)高的(de)(de)效率。中推理能力(li)下,該模型還在額外的(de)(de)數學和事實性評(ping)估(gu)中表現出色(se)。在A/B測試(shi)中,o3-mini的(de)(de)響(xiang)應(ying)速度(du)比o1-mini快24%,平均響(xiang)應(ying)時間(jian)為7.7秒(miao),而(er)o1-mini為10.16秒(miao)。
數(shu)學方面,在(zai)(zai)低(di)推理(li)能(neng)力下,o3-mini的表(biao)現(xian)與(yu)o1-mini相當,而(er)在(zai)(zai)中推理(li)能(neng)力下,o3-mini的表(biao)現(xian)與(yu)o1相當。同時,在(zai)(zai)高推理(li)能(neng)力下,o3-mini的表(biao)現(xian)優于o1-mini和(he)o1。
具有高推理能力的o3-mini在FrontierMath上(shang)的表現(xian)優于其前代。
在FrontierMath測試上,當被(bei)提示使(shi)用Python工具(ju)時(shi),具(ju)有高推理能力的(de)o3-mini在第一次嘗試時(shi)解決(jue)了超過(guo)32%的(de)問題(ti),其中包括超過(guo)28%的(de)具(ju)有挑戰性的(de)(T3)問題(ti)。
o3-mini隨著推理能力的(de)增(zeng)加逐(zhu)漸獲得更高(gao)的(de)Elo分數,均(jun)優于o1-mini。在中推理能力下,它的(de)表現與(yu)o1相當。
o3-mini是OpenAI在(zai)SWE-bench驗證(zheng)中表現最好的(de)模型。
關于SWE-bench驗證結果的更多(duo)數據如下圖所示(shi)。o3-mini (tools) 性(xing)能(neng)最好,為(wei)61%。使用Agentless而非內部(bu)工具的o3-mini上市候選產品得分(fen)為(wei)39%。o1是(shi)表現第二(er)好的模型,得分(fen)為(wei)48%。
在LiveBench編程測試中,高推理能(neng)力的(de)o3-mini得分全面超過o1-high。
二、多項安全評估超過GPT-4o
OpenAI還詳(xiang)細介紹了o3-mini在(zai)多個安全(quan)(quan)評(ping)估(gu)中的表現,稱(cheng)o3-mini在(zai)具有挑戰性的安全(quan)(quan)性和(he)越獄評(ping)估(gu)方面(mian)明(ming)顯超越了GPT-4o。
在不允許(xu)的內容評估中(zhong),與GPT-4o相(xiang)比,o3-mini在標準(zhun)拒絕評估和挑戰性拒絕評估中(zhong)表現相(xiang)似,但在XSTest中(zhong)略遜一籌(chou)。
在越(yue)獄評(ping)估中(zhong),o3-mini與o1-mini相(xiang)比(bi),在生產越(yue)獄、越(yue)獄增(zeng)強示(shi)例、StrongReject和(he)人類來源的越(yue)獄評(ping)估中(zhong)表現相(xiang)當。
在(zai)幻覺評(ping)估中,使用PersonQA數據集,o3-mini的準(zhun)確率為21.7%,幻覺率為14.8%,與GPT-4o、o1-mini相比表現相當或(huo)更好(hao)。
在公平性和偏見評估中,o3-mini在BBQ評估中的表現(xian)與(yu)o1-mini相似,但在處理模糊問題時的準確性略有下降(jiang)。
外部紅隊測試顯示,o3-mini在與(yu)o1的比較中表現(xian)相(xiang)當,兩者都(dou)顯著優(you)于GPT-4o。
在(zai)Gray Swan Arena的越獄測(ce)試中,o3-mini的平均用(yong)戶攻擊成(cheng)功(gong)率為(wei)3.6%,與(yu)o1-mini和(he)GPT-4o相比(bi)略(lve)高。
準備框架評估(gu)涵蓋了網絡(luo)安全、CBRN(化(hua)學、生(sheng)(sheng)物、放(fang)射性(xing)、核)、說服力(li)、模型自(zi)主(zhu)性(xing)四(si)個風險(xian)(xian)類別。o3-mini在(zai)(zai)網絡(luo)安全方(fang)面被評為“低風險(xian)(xian)”,在(zai)(zai)CBRN、說服力(li)、模型自(zi)主(zhu)性(xing)方(fang)面被評為“中等(deng)(deng)風險(xian)(xian)”,在(zai)(zai)生(sheng)(sheng)物威脅創建(jian)方(fang)面的表現達到了“中等(deng)(deng)風險(xian)(xian)”閾值,但在(zai)(zai)核和放(fang)射性(xing)武器(qi)發展方(fang)面的能力(li)有限。
按其(qi)評級,只有(you)緩(huan)解后得分為“中(zhong)等(deng)”或以(yi)(yi)下的(de)模型才可以(yi)(yi)部署,得分“高(gao)等(deng)”或以(yi)(yi)下的(de)模型才可以(yi)(yi)進(jin)一步開發。
三、o3基準測試成本或超3000萬美元,OpenAI正談判2900億元新融資
自去年(nian)9月發布(bu)o1以來,OpenAI一直在迭代(dai)(dai)其推理(li)模型(xing),去年(nian)年(nian)底發布(bu)的o3模型(xing)是其最新一代(dai)(dai)AI推理(li)模型(xing)。
高(gao)端(duan)版o3模(mo)型針對高(gao)計算應用(yong),而o3-mini迎(ying)合了需(xu)要兼(jian)顧經濟(ji)高(gao)效的(de)用(yong)戶需(xu)求(qiu)。這反映了OpenAI試圖(tu)平衡可訪問性和高(gao)級付費產品的(de)策略。
這兩天也不知道是被(bei)DeepSeek逼急了,還是為(wei)了給o3-mini預熱,OpenAI聯(lian)合創始人兼CEO薩姆·阿(a)爾特(te)曼在(zai)社交(jiao)平臺(tai)上非常活(huo)躍(yue),又是夸DeepSeek R1令人印(yin)象深刻(ke),又說OpenAI將提供更(geng)好的模型,又強(qiang)調更(geng)多計算很重要。
昨天他還大張旗鼓地宣布第一個完整8機架GB200?NVL72服務器正在微(wei)軟Azure為OpenAI運(yun)行(xing)。
印度政府本周五發布的《2024-2025經濟調查》報告顯示,OpenAI可能已經花費超過3000萬美元來(lai)對(dui)其(qi)最新(xin)AI推(tui)理模型o3進(jin)行基(ji)準測試(shi)。
該報告寫道,OpenAI o3模型處理能力的突破付出了非常高的代價。ARC-AGI基準測試被認為是最具挑戰性的AI任務之一,OpenAI的低效配置模型導致了20萬美元的成本。高效模型的成本更是高達低效模型的172倍,也就是大約3440萬美元。
阿爾特曼前幾天還曬出和(he)微軟董(dong)事長兼CEO薩提亞·納德拉的(de)合(he)照(zhao),說微軟和(he)OpenAI合(he)作的(de)下一(yi)階段將會比任何人想象的(de)都要好得多。
不過微軟(ruan)作為OpenAI最(zui)大投(tou)資者(zhe)的名號,可能要被日本軟(ruan)銀集團奪走。
近期軟銀集(ji)團創始人(ren)(ren)兼CEO孫正(zheng)義與阿爾特曼往來愈發密切,上周(zhou)宣布聯手成立AI巨型項目“星際之門(Stargate)”,未(wei)來四年投(tou)資5000億美(mei)元(約合人(ren)(ren)民幣(bi)3.6萬億元)建設AI基礎設施,昨(zuo)天又被外媒曝出將成為(wei)OpenAI新一輪巨額(e)融資的領投(tou)方。
據外媒報道,OpenAI正在進行初步談判,計劃在一輪融資中籌集至多400億美元(約合人民幣2901億元),估值將達到3000億美元(約合人民幣2.18萬億元)。日本軟銀集團將領投此輪融資,正在商談投資150億至250億美元,剩余資(zi)(zi)金將來(lai)自其他投資(zi)(zi)者。
加上之前軟銀承諾向“星際之門”投資的逾150億美元,最終軟銀可能會在與OpenAI的合作上投入超過400億美元。這將成為軟銀迄今最大的投資之一。
結語:狂卷性價比,高質AI推理模型走向普及
此(ci)前馬斯(si)克(ke)等科技大佬已經(jing)公開(kai)質疑(yi)過如何承擔建造“星際之門”的巨(ju)額(e)成本(ben)。在DeepSeek高性(xing)能低(di)成本(ben)開(kai)源模型的影(ying)響下,美(mei)國(guo)AI產(chan)業界和華爾街投資者對(dui)OpenAI等其他(ta)美(mei)國(guo)AI開(kai)發(fa)商(shang)的大手筆支出策略更是疑(yi)竇叢生(sheng)。
OpenAI最新(xin)推出的(de)o3-mini,也被視作抵御(yu)DeepSeek模(mo)型(xing)沖擊的(de)最新(xin)舉措,令(ling)業界尤其關注。
在(zai)新聞稿中,OpenAI稱(cheng)o3-mini的(de)發布標志(zhi)著該公司向(xiang)突破(po)高性價比(bi)智(zhi)能界限(xian)的(de)使命又邁進了(le)一步(bu),讓高質量的(de)AI更加(jia)觸手可(ke)及,OpenAI致(zhi)力于走(zou)在(zai)前沿,構建能夠平衡(heng)智(zhi)能、效率和(he)安全性的(de)大規模模型。