
智東西(公眾號:zhidxcom)
作者 |? 陳駿達?李水青
編輯 |? 李水青
GPT-5終于(yu)來了!
智東西8月8日報道,今天凌晨1點,OpenAI發布了萬眾矚目的新一代旗艦模型GPT-5,即日起向所有免費、Plus、Pro、Team用戶推出,企業和教育用戶將在一周內獲得訪問權限。一經發布,GPT-5便沖上大(da)模(mo)型競技場榜首,并在文本、編(bian)程、數學等全方面排名第(di)一。
GPT-5將非推理模型與推理模型融為一體,支持“按需思考”,即(ji)根(gen)據任務難度,自行判(pan)斷是(shi)否進行思考,并提供合適的回答。它(ta)還擁有4種(zhong)“人(ren)格”,分(fen)別為憤世嫉俗者(zhe)、機(ji)器人(ren)、傾聽者(zhe)和書呆子(zi)。
OpenAI CEO Sam Altman認為,GPT-5已經達到了博(bo)士級(ji)別(bie)的智能,與其(qi)對話就像是(shi)與一位(wei)在任何領域都擁有博士(shi)學位(wei)的(de)專家溝通。同時,GPT-5不僅(jin)是(shi)用來(lai)“問問題”的(de),現在還能“為你做事”,完成日常規劃(hua)、發送邀請函(han)、采(cai)購物(wu)資等(deng)任務。
OpenAI研究員Tina Kim在發布中稱:“有了GPT-5,我們將淘汰所有舊(jiu)模型。”一個GPT-5模型就集成多模態、推理等多種能力,相當于融(rong)合(he)GPT和o系列模型,用(yong)戶(hu)無(wu)需再為(wei)復(fu)雜的(de)產品(pin)族選擇(ze)糾結(jie)。
多項基準測試中,GPT-5超過了OpenAI o3、GPT-4o等OpenAI最強大的模型,在(zai)數(shu)學、編碼、視覺感知和健(jian)康方(fang)面(mian)表現尤其出色。憑借GPT-5-pro的擴展推理,該模型還在科學知識基準測試GPQA上獲得了新的SOTA,無(wu)需(xu)工具即可得分88.4%。
不過,GPT-5也可能是OpenAI歷史上最(zui)復(fu)雜的模(mo)型家族之一,擁有GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四個(ge)版本。免費用戶的(de)GPT-5用量有(you)限,超過限額后將自動轉至GPT-5-mini。GPT-5-pro僅供Pro訂閱用戶使用,可憑(ping)借擴展推理功能,提供更全(quan)面、更準確的(de)答案。
GPT-5、GPT-5-mini、GPT-5-nano三款模型也提供API服務,GPT-5的輸入、輸出價格分別為每百萬token 1.25美(mei)(mei)元/10美(mei)(mei)元,GPT-5-mini的定價為GPT-5的1/5,而GPT-5-nano的定價為GPT-5的1/25。與主要競爭對手(shou)Anthropic和(he)谷歌(ge)相比,OpenAI的GPT-5模型對于開(kai)發人員(yuan)來(lai)說(shuo)成本(ben)相當甚至更低。
▲GPT-5 API與Anthropic、谷歌模(mo)型價格對比(bi)(圖源:VentureBeat)
GPT-5剛(gang)剛(gang)發布,馬斯克就在X社交平臺(tai)發起(qi)攻勢,稱“Grok 4在ARC-AGI上擊敗(bai)了(le)GPT-5”。對此,有網(wang)友(you)認(ren)為(wei)這是(shi)對Grok 4更(geng)強(qiang)推理和泛化能(neng)力(li)的證實,也(ye)有網(wang)友(you)認(ren)為(wei)氪(ke)金(jin)300美元才能(neng)用上的Grok 4趕不上免費的GPT-5更(geng)有性價(jia)比。
發布會上,Altman分享了一組數據:32個月之前,OpenAI發布了ChatGPT,并在發布首周獲得超100萬用戶。而如今,ChatGPT在全球范圍內已有超過7億用戶。GPT-5是對GPT-4的一次重大升級,也是邁向AGI的重要一步。
但GPT-5不是AGI。Altman稱:“我(wo)有點討厭‘通用(yong)人工智能(AGI)’這個詞,因為現(xian)在(zai)每(mei)個人都用它來指代略有不(bu)同的(de)事物,但(dan)GPT-5是朝著真正強大的(de)模(mo)型(xing)邁(mai)出的(de)重(zhong)要一(yi)步。我(wo)們仍然(ran)缺(que)少(shao)一(yi)些非(fei)常重(zhong)要的(de)東西。”這一(yi)重(zhong)要的(de)東西就是模(mo)型(xing)在(zai)部署過程(cheng)中能夠(gou)持續學習,而GPT-5卻沒有。
一、靠自主判斷規避“過度思考”,編程能力獲Cursor創始人認可
現場演示中,OpenAI首先展示了GPT-5按需(xu)思考的能力。工(gong)作人員讓GPT-5解釋(shi)伯努利現象(流體力學里的一(yi)個基本原理),這(zhe)對(dui)其(qi)而(er)言相對(dui)簡單。GPT-5判(pan)斷無(wu)需思考,并迅速(su)給出答案(an)。
緊接著,工作人員提出想讓GPT-5打造一張動態SVG演示圖,來進一步解釋這一概念。此時,無需手動調整,GPT-5便會自動進行思考,只需一個簡單的提示,GPT-5就創建了交互式的演示。用戶也可以在提示詞中引(yin)導(dao)GPT-5是否開啟思考,只需輸入認真想想、仔細思考等類似表述即可。
在其(qi)給出(chu)的(de)演示中,用戶可(ke)以(yi)拉(la)動進(jin)度條改變空(kong)氣速度,以(yi)查看升(sheng)力和(he)壓力變化,也可(ke)以(yi)調整迎(ying)角(jiao),看模擬的(de)飛(fei)機是否真的(de)會墜毀。所以GPT-5可以隨時將(jiang)任何硬(ying)核概(gai)念帶入(ru)生活,讓(rang)學習物化生和數學變得更加容(rong)易。
GPT-5在寫(xie)(xie)作(zuo)方面(mian)得到顯著(zhu)提升。比如OpenAI研(yan)發人員(yuan)現場讓GPT-5為GPT-4o寫(xie)(xie)了一(yi)篇悼文。研(yan)究人員(yuan)稱,從生成內容來看(kan),這不像(xiang)在跟AI聊天,而像(xiang)一(yi)位高智(zhi)商(shang)、高情(qing)商(shang)的朋友在交流和(he)上(shang)課。
研發人員稱,GPT-5是迄今為止最好的(de)編程模型。比如他讓(rang)GPT-5建立(li)了(le)一(yi)個學習法語的(de)網(wang)絡應用(yong),同時(shi)要求GPT-5嵌入(ru)一(yi)款教育游(you)戲(xi)。大(da)約兩分鐘后,GPT-5生成了(le)一(yi)個帶有標簽、抽認卡、測試等功(gong)能的(de)應用(yong),并(bing)且成功(gong)嵌入(ru)了(le)一(yi)款貪吃(chi)蛇游(you)戲(xi)。
為了進一步證明GPT-5在生產場景中的編程能力,OpenAI還特地邀請了明星AI編程創企Cursor聯合創始人兼首席執行官Michael Truell進行現場(chang)演示。Truell打開了OpenAI API GitHub頁面上的一(yi)(yi)則(ze)PR。這一(yi)(yi)問題歷經3周(zhou)還(huan)未被修復,說明(ming)存在一(yi)(yi)定難度。
Truell認為,GPT-5在API調用(yong)中展現出了不錯的(de)穩(wen)定性(xing),在Cursor里解決上述問題時,它面對的是一組從未見過的定制模型、從未見過的定制工具,還需要從網上抓取文本、在代碼庫里搜索等,解(jie)決問題(ti)的速度(du)比他本人要快很多(duo)。
在官網上,OpenAI也(ye)分享(xiang)了更(geng)多(duo)編(bian)程案(an)例。其開發出的小游(you)戲畫面精美,游(you)戲機制也(ye)比較合理。
還能遵循用戶指(zhi)令,打造出Lofi視(shi)覺化效(xiao)果器。從官方Demo來看,GPT-5的(de)前(qian)端能力較此前(qian)的(de)OpenAI模型有(you)了不錯的(de)提升(sheng)。
GPT-5改(gai)進(jin)了語音功能,聽起來就像跟(gen)人對話一樣自然。免費用戶(hu)每天(tian)可以(yi)聊上幾(ji)個(ge)小時。比(bi)如,結合ChatGPT學習(xi)模式,用戶(hu)可以(yi)以(yi)引(yin)導的方式教用戶(hu)學習(xi)韓語,OpenAI現(xian)場對此進(jin)行了演(yan)示。
OpenAI還宣布一項新功能,面向付費用戶推出更加定制化的ChatGPT,支持自定義聊天功能,可調整模型的性格,四項初始選項包括:憤世嫉(ji)俗(su)者、機器人、傾聽者和書呆子,還能改變聊天界面的顏色。
為了讓GPT-5更(geng)符合(he)個人(ren)用(yong)戶的溝通方式,研(yan)發團隊內存方面做了很(hen)多改進,使其具備(bei)更(geng)強(qiang)的記憶功能。比(bi)如這(zhe)使GPT-5在為用(yong)戶指定(ding)日(ri)程時,能顧(gu)考慮到此前提及的安(an)排,更(geng)符合(he)定(ding)制(zhi)化需求(qiu)。下周起Pro用(yong)戶可先接入(ru)Gmail和谷歌日(ri)歷,自動規劃日(ri)程、回復郵件。
在API中(zhong),所有GPT?5模型最多(duo)(duo)可(ke)接受(shou)272000個(272k)tokens,并(bing)生成最多(duo)(duo)128000個(128k)推理及輸出(chu)tokens,總上下(xia)文(wen)長(chang)度為400000個(400k)tokens。
通用Agent明星創企Manus聯合創始人兼首席科學家Yichao ‘Peak’ Ji稱,GPT?5 “在各種智能體任(ren)務中表現(xian)出色(se),即使在未修(xiu)改任(ren)何代(dai)碼或(huo)調整(zheng)提示的(de)情況下”。
OpenAI在API中引入了新功能,讓開發人員對模型回復具有更多控制權。GPT?5支持新的verbosity參數(取值:低、中、高),幫助控制控制回答是簡短扼要還是詳盡全面。GPT?5還支持最低模式,該(gai)模式會將GPT?5的推理(li)強度降到到最低,以快(kuai)速返(fan)回答案。
二、多項基準測試實現業界SOTA,事實性錯誤較o3減少80%
OpenAI稱,GPT?5是其迄今為止在編碼和智能體任務方面表現最佳的模型。它在編碼(ma)基準測試和實際(ji)應用場景中均(jun)優于o3,并且經過專門優化,在Cursor、Windsurf和Codex CLI等智能體編碼(ma)產(chan)品中表現(xian)尤為出色(se)。
GPT?5在關鍵編碼基準測試中處于行業領先水平 (SOTA),在SWE-bench驗證測試中(zhong)得分74.9%,較o3版本的69.1%有所提升。值得(de)注意的(de)(de)是(shi),GPT?5以更高的(de)(de)效率(lv)和速度(du)獲得(de)了高分(fen):與o3在(zai)高推理強度(du)下相(xiang)比(bi),GPT?5的(de)(de)輸出tokens數量減(jian)少了22%,工具調用次數減(jian)少了45%。
同時,GPT?5在Aider polyglot測試中得分88%。在內部測試中,其在70%的Web任務開發中表現和OpenAI o3。此外,GPT?5在深度分析代碼庫方面表(biao)現(xian)出(chu)色(se),能夠精準(zhun)解答關于代碼模塊運(yun)作機制及相互(hu)協作的問題(ti)。
GPT?5在長背景信息性能方面也展現出顯著提升。在OpenAI-MRCR(一種衡量長背景信息檢索能力的指標)中,GPT?5的表(biao)現優(you)于o3和GPT?4.1,且隨著(zhu)輸入長度的增加,這種(zhong)優勢會顯(xian)著(zhu)擴(kuo)大。
OpenAI與一些客戶就編程功能進行了合作。Cursor首席執行官Truell稱,GPT?5“具有顯著的智能,易于操控,甚至擁有其他模型中不具備的人格特質”。AI編程公司Windsurf相關負責人稱,GPT?5在其評(ping)估中達到最先進水平,且(qie)“與其他前沿模型(xing)相比,工具調(diao)用(yong)錯誤率僅為其一半(ban)”。
GPT?5在持續型智能體任務中同樣表現卓越,在兩個月前(qian)剛(gang)發布的工具調(diao)用基準測試(shi)τ2-bench telecom中,以96.7%的成績刷新了業界最優水平。
在事實性方面,GPT?5比其之前的模型更值得信賴。在事實準確性基準測試LongFact和FActScore中,GPT?5的(de)錯誤率僅為o3的(de)五分(fen)之一。這(zhe)使得GPT?5尤(you)其適用于正確性要(yao)求(qiu)高的智能體任務場(chang)景,特(te)別是在代碼(ma)生成、數據處理和(he)決策支持等關鍵領(ling)域(yu)。
GPT?5改進的工具智能使其能夠可(ke)靠地串聯數十次工具調(diao)用(無論(lun)串行還是并行),保持路徑一致性,這(zhe)使其在執(zhi)行復(fu)雜的現(xian)實世界端(duan)到端(duan)任(ren)務時(shi)表現(xian)得遠優于其他模型。它還更(geng)精確地(di)遵循(xun)工具(ju)指令,更(geng)好地(di)處理工具(ju)錯誤,并在長背(bei)景信息內容檢索方面表現(xian)出色。
OpenAI還開源了(le)BrowseComp Long Context?,這是一個用于評估長(chang)(chang)背景信(xin)息問答(da)的新基準。在此基準中,模(mo)型會收到用戶查詢、一長(chang)(chang)串相關搜索結(jie)果(guo),并必(bi)須基于搜索結(jie)果(guo)回(hui)答(da)問題。
以下是GPT-5的一些基準測試成績。但OpenAI研發人員稱,GPT-5訓練的(de)重點是現實的(de)實用性,而不是基準測試(shi)。
三、解決GPT“阿諛奉承”問題,靠新方法減少非必要“拒絕回復”
OpenAI的(de)多名研究(jiu)人員分享了(le)GPT-5背后的(de)技術創新。
在安(an)全(quan)問題上(shang),ChatGPT過去主要依賴于(yu)基(ji)于(yu)拒絕(jue)的安(an)全(quan)訓(xun)練:根(gen)據用戶的提示,模(mo)型應該要么(me)遵守,要么(me)拒絕(jue)。
這種類型的(de)(de)(de)訓練(lian)適用于明顯的(de)(de)(de)惡意提(ti)示詞,但是在(zai)用戶意圖模棱(leng)兩可(ke)的(de)(de)(de)情況下,可(ke)能出現問題(ti)。比如(ru)拒絕(jue)應該(gai)回(hui)答(da)的(de)(de)(de)問題(ti),或是給有(you)風(feng)險(xian)的(de)(de)(de)問題(ti)做出回(hui)答(da)。
對于GPT-5,OpenAI引入了一種新的安全訓練形式——安全完成(cheng)(safe completions)。這種訓練形式教會模型盡(jin)可(ke)能(neng)給出(chu)最有用(yong)的(de)答案(an),同(tong)時仍然保(bao)持在安(an)全范圍內。
如今(jin),對于一些(xie)可能有潛在風險(xian)的(de)(de)問題,GPT-5會減少(shao)不必要的(de)(de)過度拒(ju)絕,轉(zhuan)而告訴拒(ju)絕的(de)(de)原因,并提供安全的(de)(de)替(ti)代方案。
GPT-5還改善了GPT系列模型阿諛奉承的問(wen)題,減少(shao)了過度討好(hao)和無(wu)意(yi)義的表情符號的使用。OpenAI已經開(kai)發出新(xin)的評估(gu)方(fang)法(fa)(fa),來衡量模(mo)型(xing)阿諛奉承(cheng)的程度,并改進訓練方(fang)法(fa)(fa)了,使模(mo)型(xing)更少(shao)地阿諛奉承(cheng)。
在針對阿諛(yu)奉承問題的專(zhuan)門評(ping)估中(zhong),GPT-5顯(xian)著減少了此類回復的比(bi)例(從 14.5%降至不到 6%)。
GPT-5 Pro是OpenAI推理模型OpenAI o3-pro的替代品,能提出給出更為全面、高質量的答案,這得益于一項名為并(bing)行測試時(shi)計(ji)算的技術(同時(shi)進行多項推理)。
在多個具有挑戰性的基準測試中,GPT-5 Pro實現了同家族模型中的最佳性能。OpenAI還進行了1000個實際測試,67.8%外部專家更偏好GPT-5 pro的回答(da),而非開(kai)啟思考模式的(de)GPT-5。GPT-5 pro犯下重(zhong)大錯(cuo)誤的(de)比例降低了 22%,在健(jian)康、科學、數學和編程方面表現尤為出色。
在發布會的尾聲,OpenAI首席科學家Jakub Pochocki做了一番總結。他稱,GPT-5的模型的誕生,是多年研究的結果,這些研究不僅以推出新版本為目的,還旨在構建對底層技術本身的理解。GPT-5呈現的許(xu)多技術,會在未來(lai)得到進一步發展。
Pochocki稱,OpenAI仍然有很多(duo)需(xu)要了解(jie)的東西,并(bing)期待AI能夠發現全(quan)新(xin)的知識,并(bing)真正地使(shi)我們的生活變得更好。
結語:靠“視覺欺騙”夸大性能提升?GPT-5實際表現有待進一步驗證
GPT-5的(de)發布,毫無疑問是今年AI圈最(zui)受(shou)關注的(de)事件之一(yi)(yi)。GPT-5官(guan)宣推文發布2小時后,已經獲得(de)超(chao)160萬瀏覽,并(bing)且(qie)仍在持(chi)續(xu)增長。然而,這一(yi)(yi)發布也(ye)帶來(lai)了(le)一(yi)(yi)定爭議(yi)——OpenAI在發布會使用了(le)“視覺騙局”的(de)方式呈(cheng)現(xian)基(ji)準測試,柱狀圖中(zhong)OpenAI o3的(de)高度被不成比例地壓縮(suo)了(le),這從某種(zhong)程度上夸大了(le)GPT-5實現(xian)的(de)能力提升。
GPT-5在(zai)真(zhen)實(shi)使用(yong)場景中(zhong)的(de)性能與體驗(yan),尚待市場反饋,但OpenAI的(de)估值已經(jing)飆升(sheng)。此前周(zhou)三(san)外媒The Information消息稱,OpenAI正(zheng)洽談潛在(zai)的(de)二級股票發行,估值飆升(sheng)至5000億美元(yuan)(約合(he)3.6萬億人民(min)幣),比年初翻了一倍。