刚刚！GPT-5淘汰所有OpenAI模型，地表最强编程惊艳全场，马斯克不服开怼

智東西（公眾號：zhidxcom）
作者 |? 陳駿達?李水青
編輯 |? 李水青

GPT-5終于(yu)來了！

智東西8月8日報道，今天凌晨1點，OpenAI發布了萬眾矚目的新一代旗艦模型GPT-5，即日起向所有免費、Plus、Pro、Team用戶推出，企業和教育用戶將在一周內獲得訪問權限。一經發布，GPT-5便沖上大(da)模(mo)型競技場榜首，并在文本、編(bian)程、數學等全方面排名第(di)一。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

GPT-5將非推理模型與推理模型融為一體，支持“按需思考”，即(ji)根(gen)據任務難度，自行判(pan)斷是(shi)否進行思考，并提供合適的回答。它(ta)還擁有4種(zhong)“人(ren)格”，分(fen)別為憤世嫉俗者(zhe)、機(ji)器人(ren)、傾聽者(zhe)和書呆子(zi)。

OpenAI CEO Sam Altman認為，GPT-5已經達到了博(bo)士級(ji)別(bie)的智能，與其(qi)對話就像是(shi)與一位(wei)在任何領域都擁有博士(shi)學位(wei)的(de)專家溝通。同時，GPT-5不僅(jin)是(shi)用來(lai)“問問題”的(de)，現在還能“為你做事”，完成日常規劃(hua)、發送邀請函(han)、采(cai)購物(wu)資等(deng)任務。

OpenAI研究員Tina Kim在發布中稱：“有了GPT-5，我們將淘汰所有舊(jiu)模型。”一個GPT-5模型就集成多模態、推理等多種能力，相當于融(rong)合(he)GPT和o系列模型，用(yong)戶(hu)無(wu)需再為(wei)復(fu)雜的(de)產品(pin)族選擇(ze)糾結(jie)。

多項基準測試中，GPT-5超過了OpenAI o3、GPT-4o等OpenAI最強大的模型，在(zai)數(shu)學、編碼、視覺感知和健(jian)康方(fang)面(mian)表現尤其出色。憑借GPT-5-pro的擴展推理，該模型還在科學知識基準測試GPQA上獲得了新的SOTA，無(wu)需(xu)工具即可得分88.4%。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

不過，GPT-5也可能是OpenAI歷史上最(zui)復(fu)雜的模(mo)型家族之一，擁有GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四個(ge)版本。免費用戶的(de)GPT-5用量有(you)限，超過限額后將自動轉至GPT-5-mini。GPT-5-pro僅供Pro訂閱用戶使用，可憑(ping)借擴展推理功能，提供更全(quan)面、更準確的(de)答案。

GPT-5、GPT-5-mini、GPT-5-nano三款模型也提供API服務，GPT-5的輸入、輸出價格分別為每百萬token 1.25美(mei)(mei)元/10美(mei)(mei)元，GPT-5-mini的定價為GPT-5的1/5，而GPT-5-nano的定價為GPT-5的1/25。與主要競爭對手(shou)Anthropic和(he)谷歌(ge)相比，OpenAI的GPT-5模型對于開(kai)發人員(yuan)來(lai)說(shuo)成本(ben)相當甚至更低。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

▲GPT-5 API與Anthropic、谷歌模(mo)型價格對比(bi)（圖源：VentureBeat）

GPT-5剛(gang)剛(gang)發布，馬斯克就在X社交平臺(tai)發起(qi)攻勢，稱“Grok 4在ARC-AGI上擊敗(bai)了(le)GPT-5”。對此，有網(wang)友(you)認(ren)為(wei)這是(shi)對Grok 4更(geng)強(qiang)推理和泛化能(neng)力(li)的證實，也(ye)有網(wang)友(you)認(ren)為(wei)氪(ke)金(jin)300美元才能(neng)用上的Grok 4趕不上免費的GPT-5更(geng)有性價(jia)比。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

發布會上，Altman分享了一組數據：32個月之前，OpenAI發布了ChatGPT，并在發布首周獲得超100萬用戶。而如今，ChatGPT在全球范圍內已有超過7億用戶。GPT-5是對GPT-4的一次重大升級，也是邁向AGI的重要一步。

但GPT-5不是AGI。Altman稱：“我(wo)有點討厭‘通用(yong)人工智能（AGI）’這個詞，因為現(xian)在(zai)每(mei)個人都用它來指代略有不(bu)同的(de)事物，但(dan)GPT-5是朝著真正強大的(de)模(mo)型(xing)邁(mai)出的(de)重(zhong)要一(yi)步。我(wo)們仍然(ran)缺(que)少(shao)一(yi)些非(fei)常重(zhong)要的(de)東西。”這一(yi)重(zhong)要的(de)東西就是模(mo)型(xing)在(zai)部署過程(cheng)中能夠(gou)持續學習，而GPT-5卻沒有。

一、靠自主判斷規避“過度思考”，編程能力獲Cursor創始人認可

現場演示中，OpenAI首先展示了GPT-5按需(xu)思考的能力。工(gong)作人員讓GPT-5解釋(shi)伯努利現象（流體力學里的一(yi)個基本原理），這(zhe)對(dui)其(qi)而(er)言相對(dui)簡單。GPT-5判(pan)斷無(wu)需思考，并迅速(su)給出答案(an)。

緊接著，工作人員提出想讓GPT-5打造一張動態SVG演示圖，來進一步解釋這一概念。此時，無需手動調整，GPT-5便會自動進行思考，只需一個簡單的提示，GPT-5就創建了交互式的演示。用戶也可以在提示詞中引(yin)導(dao)GPT-5是否開啟思考，只需輸入認真想想、仔細思考等類似表述即可。

在其(qi)給出(chu)的(de)演示中，用戶可(ke)以(yi)拉(la)動進(jin)度條改變空(kong)氣速度，以(yi)查看升(sheng)力和(he)壓力變化，也可(ke)以(yi)調整迎(ying)角(jiao)，看模擬的(de)飛(fei)機是否真的(de)會墜毀。所以GPT-5可以隨時將(jiang)任何硬(ying)核概(gai)念帶入(ru)生活，讓(rang)學習物化生和數學變得更加容(rong)易。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

GPT-5在寫(xie)(xie)作(zuo)方面(mian)得到顯著(zhu)提升。比如OpenAI研(yan)發人員(yuan)現場讓GPT-5為GPT-4o寫(xie)(xie)了一(yi)篇悼文。研(yan)究人員(yuan)稱，從生成內容來看(kan)，這不像(xiang)在跟AI聊天，而像(xiang)一(yi)位高智(zhi)商(shang)、高情(qing)商(shang)的朋友在交流和(he)上(shang)課。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

研發人員稱，GPT-5是迄今為止最好的(de)編程模型。比如他讓(rang)GPT-5建立(li)了(le)一(yi)個學習法語的(de)網(wang)絡應用(yong)，同時(shi)要求GPT-5嵌入(ru)一(yi)款教育游(you)戲(xi)。大(da)約兩分鐘后，GPT-5生成了(le)一(yi)個帶有標簽、抽認卡、測試等功(gong)能的(de)應用(yong)，并(bing)且成功(gong)嵌入(ru)了(le)一(yi)款貪吃(chi)蛇游(you)戲(xi)。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

為了進一步證明GPT-5在生產場景中的編程能力，OpenAI還特地邀請了明星AI編程創企Cursor聯合創始人兼首席執行官Michael Truell進行現場(chang)演示。Truell打開了OpenAI API GitHub頁面上的一(yi)(yi)則(ze)PR。這一(yi)(yi)問題歷經3周(zhou)還(huan)未被修復，說明(ming)存在一(yi)(yi)定難度。

Truell認為，GPT-5在API調用(yong)中展現出了不錯的(de)穩(wen)定性(xing)，在Cursor里解決上述問題時，它面對的是一組從未見過的定制模型、從未見過的定制工具，還需要從網上抓取文本、在代碼庫里搜索等，解(jie)決問題(ti)的速度(du)比他本人要快很多(duo)。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

在官網上，OpenAI也(ye)分享(xiang)了更(geng)多(duo)編(bian)程案(an)例。其開發出的小游(you)戲畫面精美，游(you)戲機制也(ye)比較合理。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

還能遵循用戶指(zhi)令，打造出Lofi視(shi)覺化效(xiao)果器。從官方Demo來看，GPT-5的(de)前(qian)端能力較此前(qian)的(de)OpenAI模型有(you)了不錯的(de)提升(sheng)。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

GPT-5改(gai)進(jin)了語音功能，聽起來就像跟(gen)人對話一樣自然。免費用戶(hu)每天(tian)可以(yi)聊上幾(ji)個(ge)小時。比(bi)如，結合ChatGPT學習(xi)模式，用戶(hu)可以(yi)以(yi)引(yin)導的方式教用戶(hu)學習(xi)韓語，OpenAI現(xian)場對此進(jin)行了演(yan)示。

OpenAI還宣布一項新功能，面向付費用戶推出更加定制化的ChatGPT，支持自定義聊天功能，可調整模型的性格，四項初始選項包括：憤世嫉(ji)俗(su)者、機器人、傾聽者和書呆子，還能改變聊天界面的顏色。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

為了讓GPT-5更(geng)符合(he)個人(ren)用(yong)戶的溝通方式，研(yan)發團隊內存方面做了很(hen)多改進，使其具備(bei)更(geng)強(qiang)的記憶功能。比(bi)如這(zhe)使GPT-5在為用(yong)戶指定(ding)日(ri)程時，能顧(gu)考慮到此前提及的安(an)排，更(geng)符合(he)定(ding)制(zhi)化需求(qiu)。下周起Pro用(yong)戶可先接入(ru)Gmail和谷歌日(ri)歷，自動規劃日(ri)程、回復郵件。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

在API中(zhong)，所有GPT?5模型最多(duo)(duo)可(ke)接受(shou)272000個（272k）tokens，并(bing)生成最多(duo)(duo)128000個（128k）推理及輸出(chu)tokens，總上下(xia)文(wen)長(chang)度為400000個（400k）tokens。

通用Agent明星創企Manus聯合創始人兼首席科學家Yichao ‘Peak’ Ji稱，GPT?5 “在各種智能體任(ren)務中表現(xian)出色(se)，即使在未修(xiu)改任(ren)何代(dai)碼或(huo)調整(zheng)提示的(de)情況下”。

OpenAI在API中引入了新功能，讓開發人員對模型回復具有更多控制權。GPT?5支持新的verbosity參數（取值：低、中、高），幫助控制控制回答是簡短扼要還是詳盡全面。GPT?5還支持最低模式，該(gai)模式會將GPT?5的推理(li)強度降到到最低，以快(kuai)速返(fan)回答案。

二、多項基準測試實現業界SOTA，事實性錯誤較o3減少80%

OpenAI稱，GPT?5是其迄今為止在編碼和智能體任務方面表現最佳的模型。它在編碼(ma)基準測試和實際(ji)應用場景中均(jun)優于o3，并且經過專門優化，在Cursor、Windsurf和Codex CLI等智能體編碼(ma)產(chan)品中表現(xian)尤為出色(se)。

GPT?5在關鍵編碼基準測試中處于行業領先水平（SOTA），在SWE-bench驗證測試中(zhong)得分74.9%，較o3版本的69.1%有所提升。值得(de)注意的(de)(de)是(shi)，GPT?5以更高的(de)(de)效率(lv)和速度(du)獲得(de)了高分(fen)：與o3在(zai)高推理強度(du)下相(xiang)比(bi)，GPT?5的(de)(de)輸出tokens數量減(jian)少了22%，工具調用次數減(jian)少了45%。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

同時，GPT?5在Aider polyglot測試中得分88%。在內部測試中，其在70%的Web任務開發中表現和OpenAI o3。此外，GPT?5在深度分析代碼庫方面表(biao)現(xian)出(chu)色(se)，能夠精準(zhun)解答關于代碼模塊運(yun)作機制及相互(hu)協作的問題(ti)。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

GPT?5在長背景信息性能方面也展現出顯著提升。在OpenAI-MRCR（一種衡量長背景信息檢索能力的指標）中，GPT?5的表(biao)現優(you)于o3和GPT?4.1，且隨著(zhu)輸入長度的增加，這種(zhong)優勢會顯(xian)著(zhu)擴(kuo)大。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

OpenAI與一些客戶就編程功能進行了合作。Cursor首席執行官Truell稱，GPT?5“具有顯著的智能，易于操控，甚至擁有其他模型中不具備的人格特質”。AI編程公司Windsurf相關負責人稱，GPT?5在其評(ping)估中達到最先進水平，且(qie)“與其他前沿模型(xing)相比，工具調(diao)用(yong)錯誤率僅為其一半(ban)”。

GPT?5在持續型智能體任務中同樣表現卓越，在兩個月前(qian)剛(gang)發布的工具調(diao)用基準測試(shi)τ2-bench telecom中，以96.7%的成績刷新了業界最優水平。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

在事實性方面，GPT?5比其之前的模型更值得信賴。在事實準確性基準測試LongFact和FActScore中，GPT?5的(de)錯誤率僅為o3的(de)五分(fen)之一。這(zhe)使得GPT?5尤(you)其適用于正確性要(yao)求(qiu)高的智能體任務場(chang)景，特(te)別是在代碼(ma)生成、數據處理和(he)決策支持等關鍵領(ling)域(yu)。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

GPT?5改進的工具智能使其能夠可(ke)靠地串聯數十次工具調(diao)用（無論(lun)串行還是并行），保持路徑一致性，這(zhe)使其在執(zhi)行復(fu)雜的現(xian)實世界端(duan)到端(duan)任(ren)務時(shi)表現(xian)得遠優于其他模型。它還更(geng)精確地(di)遵循(xun)工具(ju)指令，更(geng)好地(di)處理工具(ju)錯誤，并在長背(bei)景信息內容檢索方面表現(xian)出色。

OpenAI還開源了(le)BrowseComp Long Context?，這是一個用于評估長(chang)(chang)背景信(xin)息問答(da)的新基準。在此基準中，模(mo)型會收到用戶查詢、一長(chang)(chang)串相關搜索結(jie)果(guo)，并必(bi)須基于搜索結(jie)果(guo)回(hui)答(da)問題。

以下是GPT-5的一些基準測試成績。但OpenAI研發人員稱，GPT-5訓練的(de)重點是現實的(de)實用性，而不是基準測試(shi)。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

三、解決GPT“阿諛奉承”問題，靠新方法減少非必要“拒絕回復”

OpenAI的(de)多名研究(jiu)人員分享了(le)GPT-5背后的(de)技術創新。

在安(an)全(quan)問題上(shang)，ChatGPT過去主要依賴于(yu)基(ji)于(yu)拒絕(jue)的安(an)全(quan)訓(xun)練：根(gen)據用戶的提示，模(mo)型應該要么(me)遵守，要么(me)拒絕(jue)。

這種類型的(de)(de)(de)訓練(lian)適用于明顯的(de)(de)(de)惡意提(ti)示詞，但是在(zai)用戶意圖模棱(leng)兩可(ke)的(de)(de)(de)情況下，可(ke)能出現問題(ti)。比如(ru)拒絕(jue)應該(gai)回(hui)答(da)的(de)(de)(de)問題(ti)，或是給有(you)風(feng)險(xian)的(de)(de)(de)問題(ti)做出回(hui)答(da)。

對于GPT-5，OpenAI引入了一種新的安全訓練形式——安全完成(cheng)（safe completions）。這種訓練形式教會模型盡(jin)可(ke)能(neng)給出(chu)最有用(yong)的(de)答案(an)，同(tong)時仍然保(bao)持在安(an)全范圍內。

如今(jin)，對于一些(xie)可能有潛在風險(xian)的(de)(de)問題，GPT-5會減少(shao)不必要的(de)(de)過度拒(ju)絕，轉(zhuan)而告訴拒(ju)絕的(de)(de)原因，并提供安全的(de)(de)替(ti)代方案。

GPT-5還改善了GPT系列模型阿諛奉承的問(wen)題，減少(shao)了過度討好(hao)和無(wu)意(yi)義的表情符號的使用。OpenAI已經開(kai)發出新(xin)的評估(gu)方(fang)法(fa)(fa)，來衡量模(mo)型(xing)阿諛奉承(cheng)的程度，并改進訓練方(fang)法(fa)(fa)了，使模(mo)型(xing)更少(shao)地阿諛奉承(cheng)。

在針對阿諛(yu)奉承問題的專(zhuan)門評(ping)估中(zhong)，GPT-5顯(xian)著減少了此類回復的比(bi)例（從 14.5%降至不到 6%）。

GPT-5 Pro是OpenAI推理模型OpenAI o3-pro的替代品，能提出給出更為全面、高質量的答案，這得益于一項名為并(bing)行測試時(shi)計(ji)算的技術（同時(shi)進行多項推理）。

在多個具有挑戰性的基準測試中，GPT-5 Pro實現了同家族模型中的最佳性能。OpenAI還進行了1000個實際測試，67.8%外部專家更偏好GPT-5 pro的回答(da)，而非開(kai)啟思考模式的(de)GPT-5。GPT-5 pro犯下重(zhong)大錯(cuo)誤的(de)比例降低了 22%，在健(jian)康、科學、數學和編程方面表現尤為出色。

在發布會的尾聲，OpenAI首席科學家Jakub Pochocki做了一番總結。他稱，GPT-5的模型的誕生，是多年研究的結果，這些研究不僅以推出新版本為目的，還旨在構建對底層技術本身的理解。GPT-5呈現的許(xu)多技術，會在未來(lai)得到進一步發展。

Pochocki稱，OpenAI仍然有很多(duo)需(xu)要了解(jie)的東西，并(bing)期待AI能夠發現全(quan)新(xin)的知識，并(bing)真正地使(shi)我們的生活變得更好。

結語：靠“視覺欺騙”夸大性能提升？GPT-5實際表現有待進一步驗證

GPT-5的(de)發布，毫無疑問是今年AI圈最(zui)受(shou)關注的(de)事件之一(yi)(yi)。GPT-5官(guan)宣推文發布2小時后，已經獲得(de)超(chao)160萬瀏覽，并(bing)且(qie)仍在持(chi)續(xu)增長。然而，這一(yi)(yi)發布也(ye)帶來(lai)了(le)一(yi)(yi)定爭議(yi)——OpenAI在發布會使用了(le)“視覺騙局”的(de)方式呈(cheng)現(xian)基(ji)準測試，柱狀圖中(zhong)OpenAI o3的(de)高度被不成比例地壓縮(suo)了(le)，這從某種(zhong)程度上夸大了(le)GPT-5實現(xian)的(de)能力提升。

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

GPT-5在(zai)真(zhen)實(shi)使用(yong)場景中(zhong)的(de)性能與體驗(yan)，尚待市場反饋，但OpenAI的(de)估值已經(jing)飆升(sheng)。此前周(zhou)三(san)外媒The Information消息稱，OpenAI正(zheng)洽談潛在(zai)的(de)二級股票發行，估值飆升(sheng)至5000億美元(yuan)（約合(he)3.6萬億人民(min)幣），比年初翻了一倍。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、靠自主判斷規避“過度思考”，編程能力獲Cursor創始人認可

二、多項基準測試實現業界SOTA，事實性錯誤較o3減少80%

三、解決GPT“阿諛奉承”問題，靠新方法減少非必要“拒絕回復”

結語：靠“視覺欺騙”夸大性能提升？GPT-5實際表現有待進一步驗證

相關推薦