
智東西(公眾號:zhidxcom)
編譯 |? 陳駿達
編輯 |? 李水青
全網首(shou)份(fen)GPT-5聊天記錄曝光了!
智(zhi)東西8月4日(ri)報道,今天,OpenAI首席執行官(guan)Sam Altman在(zai)X平臺上發出了GPT-5的(de)對話記(ji)錄(lu),提(ti)前劇(ju)透了GPT-5的(de)使用體(ti)驗(yan)。
對(dui)話中(zhong),Altman讓(rang)GPT-5給(gei)他推薦幾部以AI為主題、最引(yin)人深思的(de)電(dian)視劇,GPT-5向(xiang)Altman發送了一部片(pian)單,位列第一的(de)正是Altman發文推薦的(de)美劇《萬神殿(dian)(Pantheon)》。
Altman還發推稱,軟件即服務(SaaS)行業將很快進入“快時尚”時代,這或許意味著,即將發布的GPT-5會給軟件開發流程帶來深刻影響,顯著提升軟(ruan)件(jian)的(de)迭(die)代速度,并降低開發成本。
不過,不少網友們對GPT-5的這一表現并不買賬。可以看到,GPT-5在其回答中使用(yong)了(le)大量(liang)破折(zhe)號,這是廣受用戶詬病的“AI味兒”的來源(yuan)之一。
此外,GPT-5并沒有進行推理,這導致(zhi)其反思能力(li)有限,推薦(jian)的第二部劇便偏(pian)離了一開始的要求(qiu),與AI無關,反倒是和(he)量子計算扯上了關系。
在(zai)評(ping)論區中,一條獲(huo)得(de)2萬多閱讀(du)量的帖子,或許反映了網(wang)友們的集(ji)體心聲(sheng):“GPT-5看上去(qu)也和GPT-4o沒什么區別啊。”
這位發帖的網友還進一步吐槽,GPT-5的用詞毫無必要的夸張、花哨,語言(yan)怪癖和GPT-4o一模一樣。
Altman近期已在多個場合高調宣傳了GPT-5的能力,稱“GPT-5在幾乎每個方面都比我們聰明”。網友清一色的質疑,反映(ying)出已曝(pu)出的GPT-5表(biao)現與用戶預期之間(jian)的明顯差距。
近日(ri),外媒The Information曝光了(le)GPT-5“難產”背后的諸多細節(jie),揭示了(le)OpenAI在(zai)技(ji)術突破、團(tuan)隊管理及與(yu)合作(zuo)方博弈中所面臨的重重挑戰。
事實上,GPT-5的發布已經嚴重延期。原本這一模型早在數月前便應該發布,卻因能力提升有限,而被(bei)迫(po)降檔為GPT-4.5。研(yan)究人員(yuan)發(fa)現(xian),適用于較小模(mo)型(xing)(xing)的(de)微(wei)調技(ji)術,并不適用于超(chao)大規模(mo)模(mo)型(xing)(xing);此(ci)外(wai),在將推理模(mo)型(xing)(xing)轉化(hua)為適合(he)聊天、API使(shi)用的(de)“學(xue)生模(mo)型(xing)(xing)”時,其性能出現(xian)明顯(xian)下降。
據知情人(ren)士透露,OpenAI下一代旗(qi)艦模型(xing)GPT-5在編程和數學(xue)任(ren)務方面相較現(xian)有模型(xing)有所提升(sheng),GPT-5生成的(de)代碼更注重用戶體驗(yan)和美觀性;在支持AI智能體執行(xing)復雜(za)任(ren)務時也更加高效(xiao),所需的(de)人(ren)工干預更少(shao)。
不過,也有知情人士認為,其進步幅(fu)度難以與(yu)GPT-3到(dao)GPT-4那(nei)樣的代(dai)際(ji)飛躍相提(ti)并論。
一、GPT-5研發進展不及預期,推理模型實際應用后“降智”明顯
GPT-5的問題(ti),從2024年底便開始醞釀。
OpenAI彼時(shi)正開(kai)發一款內(nei)部(bu)代號為“Orion”的模型,原本計劃將其(qi)作為GPT-5發布。據參與者透露,Orion原本被寄予厚(hou)望,目標是大幅(fu)超(chao)越2024年5月(yue)發布的GPT-4o。
但Orion未(wei)能實現預期性能,OpenAI最終于2025年2月將其作為GPT-4.5發布。除了150美元/百萬輸出tokens的驚人定價,這一模型并未給用戶帶來深刻的印象。今年7月,OpenAI決定將GPT-4.5的API服務下線,原因是成本過高。這一模型,也成為OpenAI史上最短命的模型之(zhi)一。
部分失敗原因在于預訓練階段的局限性。在(zai)這個階(jie)段,模型會處理(li)來(lai)自網絡和其它來(lai)源的(de)數據,從(cong)而學(xue)習概念之間的(de)關聯。研(yan)究人員發(fa)現,高質量網頁數據的(de)供給正(zheng)在(zai)枯(ku)竭,而且,他們對小規(gui)模模型的(de)調(diao)優手(shou)段在(zai)模型變大(da)后不再奏效。
據參與OpenAI研(yan)發的知情人士(shi)透(tou)露,截至今年6月,OpenAI還沒有開(kai)發出一款能被稱之為(wei)“GPT-5”的模型。
OpenAI的(de)另一大挑戰,源自于推理模型范式在實際(ji)應用(yong)中出現的(de)意外情況。
去(qu)年秋天,OpenAI推出了(le)第一(yi)個推理模型o1,這次發布使OpenAI在AI領域重新獲得(de)海量(liang)關注,也為后續發展能(neng)夠處理復雜任(ren)務的AI智能(neng)體奠定了(le)基礎。
到2024年底,OpenAI又基于GPT-4o打造(zao)了下(xia)一代(dai)推(tui)理模型(xing)o3,與o1屬于同一語言模型(xing)家族。但知情人士稱(cheng),o3的(de)(de)“教師(shi)模型(xing)(teacher model)”在(zai)科學和(he)其(qi)他專業(ye)領域的(de)(de)理解能力,比o1的(de)(de)教師(shi)模型(xing)有(you)顯著(zhu)的(de)(de)飛(fei)躍(yue)。
這些提升一部分來自于OpenAI給o3教師模型配置了更多的GPU服(fu)務器,從而提供了更強的算力來理解復雜概念;另一部分則源于讓模型具備搜索網絡(luo)和訪問代(dai)碼庫的能力(li)。
OpenAI在全球范(fan)圍內廣泛(fan)宣傳(chuan)這些推理(li)模型在測(ce)試中的強大表現,社交媒體上(shang)一片沸(fei)騰。但現實很快潑了冷水。
據兩位參與開發的人士透露,當OpenAI研究人員將o3的教師模型轉化為聊天版本(學生模型),以便ChatGPT用戶能與其交互時,其性能(neng)大幅下降,與o1相(xiang)比沒有(you)明顯(xian)進步,最初公布的性能(neng)提(ti)升幾(ji)乎消失(shi)了,通過API接口供企業使用的(de)版本也存在同(tong)樣(yang)問(wen)題。
一位人士認(ren)為,這是因為這些推理模型(xing)理解概念的方式與(yu)人類(lei)語(yu)言(yan)有差(cha)異。
當被強制用自然語言回答問題時,這種“天才級模型”會被“壓縮”到(dao)一(yi)個(ge)更低的表(biao)達水平(ping),失去(qu)了(le)原有的(de)推理深(shen)度(du)。這(zhe)種差異(yi)也體現(xian)在推理模型“思考”過程中的(de)亂(luan)碼(ma)輸出上。
另一位參與者(zhe)表示,OpenAI在模型對話能力訓練方面投入不足,也導致溝通效果不佳。
盡管(guan)存在性(xing)能退化,OpenAI今年發布的o3推(tui)理模型仍(reng)然(ran)幫助了(le)核聚變和(he)病原體(ti)檢測等科(ke)學研究者提出(chu)新的假(jia)設(she)與實驗(yan)設(she)計。
不過,大(da)語言模(mo)型和聊天型推(tui)理模(mo)型的發展,未能達(da)到OpenAI高層和研(yan)究員(yuan)的預期。o系列模(mo)型也在(zai)ChatGPT產品線中引發用(yong)戶的困惑,Altman因此(ci)告訴員(yuan)工(gong),公司將回歸(gui)GPT命名體(ti)系。
二、研發通用驗證器,OpenAI稱有望實現GPT-8
推理(li)模(mo)型(xing)范(fan)式(shi)受阻后,OpenAI的(de)研究人員采(cai)用(yong)了一些業內常見的(de)辦法(fa),來維持(chi)模(mo)型(xing)的(de)性能提(ti)升。
OpenAI一直在開發被稱為“通用驗證器”的工具,據知情人士稱,這項技術可自動化(hua)驗證模型在強化(hua)學習過程中的回(hui)答(da)質量。
通用驗證器的(de)(de)核心是讓一個(ge)模型來檢(jian)查并評(ping)分(fen)另一個(ge)模型的(de)(de)答案,前者會借助多個(ge)來源來查證答案的(de)(de)正確性。
日前,OpenAI資深研究員Alexander Wei在X上發文稱,OpenAI在IMO競賽中取得所謂的“金牌”成績模型,使用的正是“通用型(xing)”的強(qiang)化學(xue)習,這或許意味著,其驗(yan)證(zheng)手段可應用(yong)于一些沒有標(biao)準答案、評判標(biao)準主觀的(de)任(ren)務領域。
通用驗證(zheng)器(qi)的(de)進展正在幫助OpenAI開發(fa)GPT-5,不僅在編程等(deng)可驗證(zheng)性強的(de)任務中有所提升,也(ye)在創(chuang)意寫(xie)作(zuo)等(deng)主觀性強的(de)領域展現出進步。
整個行業,包(bao)括xAI和谷歌,也都在強(qiang)化學(xue)習上加大(da)投入(ru)。負責(ze)OpenAI強(qiang)化學(xue)習系統的Tworek公開(kai)向外界表態,OpenAI模(mo)型背后的強(qiang)化學(xue)習系統實際(ji)上就是AGI的核(he)心(xin)。
這些新進展也解釋了為何OpenAI高管近期在與部分投資人會面時宣稱,有(you)信(xin)心(xin)做到“GPT-8”。
盡(jin)管GPT-5距離AGI還有(you)明顯(xian)差(cha)距,但(dan)它在編程和推(tui)理之(zhi)外,也具備一些更具吸引力的新特性。據微軟內部測試反饋,GPT-5在不顯(xian)著增加計算資源消耗的前(qian)提下,生(sheng)成的代碼和文本質量(liang)都有(you)提升。
一位微軟員工稱,這是因為GPT-5相比以往的模型更擅長判斷不同任務所(suo)需(xu)的算力強度,從而實現更高效的資源分(fen)配(pei)。
自動化編程(cheng)已經成(cheng)為OpenAI重點攻克的(de)方向。部分原(yuan)因在(zai)于競爭對手Anthropic去(qu)年在(zai)向開發者(zhe)和工具(如Cursor)提供代碼(ma)生(sheng)成(cheng)模型方面取得了先機。
OpenAI內部(bu)也認為,自動化(hua)(hua)編程不僅對公司未來業務至關重(zhong)要,更是推動AI研究工作自動化(hua)(hua)的關鍵。
三、Meta挖人引發團隊動蕩,還有員工拒絕與微軟分享新技術
Altman此前曾公(gong)開表態(tai):憑(ping)借現(xian)有(you)(you)的(de)(de)技術路徑,OpenAI有(you)(you)望實現(xian)具有(you)(you)人類智能(neng)(neng)水平的(de)(de)AI,也就是通用人工(gong)智能(neng)(neng)(AGI)。
不(bu)(bu)過,在(zai)實現AGI的(de)路上,技術并不(bu)(bu)是唯(wei)一的(de)挑戰。作為當前最受矚目的(de)AI創(chuang)企,OpenAI時時刻刻面(mian)臨著競爭對手的(de)挖角。
最近,Meta挖走了十多位OpenAI研究員,其中(zhong)包(bao)括參與了OpenAI近期核心技術進展的人(ren)員。Meta給(gei)這些研究員開出(chu)了“頂級球星”水平的薪(xin)酬方(fang)案(an),部分人員的甚至拿到(dao)了十幾(ji)億美(mei)元的薪(xin)酬包(bao)。
這波(bo)離(li)職和隨之(zhi)而來(lai)(lai)的人(ren)員(yuan)重組給OpenAI的高級(ji)員(yuan)工帶來(lai)(lai)了壓力。上(shang)周,OpenAI研(yan)究(jiu)副總裁(cai)Jerry Tworek就在公司(si)內部Slack中向研(yan)究(jiu)負責人(ren)Mark Chen表達對團隊調整的不滿,稱(cheng)自己(ji)需(xu)要請一周假來(lai)(lai)重新評(ping)估,但最終并未休(xiu)假。
此外,還有部分高級研(yan)究(jiu)人(ren)員抵制將(jiang)其技術發明交給微軟,盡管根據OpenAI與微軟的協議,微軟可以在2030年之前,使(shi)用OpenAI的技術(shu)。
OpenAI與其(qi)最大外(wai)部股東微(wei)軟之間(jian)財務關系緊(jin)密(mi),但(dan)圍繞合(he)作(zuo)協(xie)議條款一直存(cun)在摩擦(ca),雙方均試圖在OpenAI重組(zu)營利部門、為未來上(shang)市鋪(pu)路的過程中爭取(qu)更多(duo)讓(rang)步。
據兩位接觸過談判的人士透露,雙方的談判正在朝積極方向推進。一些要點仍在討論中,但也有內容趨于明朗,例如微軟預計將在OpenAI的營利實體中獲得約33%的股(gu)權。
結語:OpenAI的優勢,還能持續多久?
當GPT-5正式(shi)發(fa)布時(shi),它將承載外界(jie)極高的(de)期(qi)望。上(shang)周(zhou),Altman在一(yi)檔播(bo)客節目(mu)中談及GPT-5的(de)能(neng)力時(shi)表示,他曾(ceng)提出一(yi)個(ge)連自己都聽不懂的(de)問題,而(er)GPT-5卻(que)能(neng)輕(qing)松作答。
然而,過(guo)去一年中,OpenAI在(zai)模型(xing)性能(neng)上的(de)進展放緩,加之宣傳與實際能(neng)力(li)之間屢(lv)次出現明顯落差,也(ye)引發了外界的(de)質疑:OpenAI能(neng)否在(zai)AI能(neng)力(li)上繼(ji)續領(ling)先谷歌、Anthropic等閉源(yuan)競爭(zheng)對(dui)手(shou),以及DeepSeek、Qwen、Kimi等頭部開(kai)源(yuan)模型(xing)?