
智東西(公眾號:zhidxcom)
編譯 | 程茜
編輯 | 李水青
智(zhi)東西9月18日(ri)消息(xi),今天凌(ling)晨,OpenAI和谷歌前后(hou)腳(jiao)宣布,自家模型在全球(qiu)知名編程(cheng)競賽ICPC 2025獲得金(jin)牌級別的(de)表現(xian)。
OpenAI推理系統答對了全部12道題目,并且一次性答對11道題,最難的題目提交了9次后成功,與人類團隊相比可排第一;Gemini 2.5 Deep Think高級版本在677分鐘內解出(chu)10道(dao)題(ti),與(yu)人類團隊相比可位列(lie)第二。
ICPC的要求是參賽者在5個小時(shi)內解(jie)出12道(dao)復雜算法(fa)問(wen)題(ti),解(jie)題(ti)方案是否完美、解(jie)題(ti)耗時(shi)都會影響積(ji)分。
最終139支(zhi)隊伍中(zhong)獲得金牌的只有前四名(ming),分別為圣彼得堡(bao)國立大(da)學、東京大(da)學、北京交通大(da)學、清(qing)華(hua)大(da)學,解(jie)出(chu)題目最多的是圣彼得堡(bao)國立大(da)學,共11道。
▲ICPC拿下(xia)金牌的人類團隊(dui)
這(zhe)是(shi)繼2個月前,OpenAI推理(li)系統、谷歌(ge)Gemini 2.5 Deep Think在(zai)國(guo)際數學奧林匹克(ke)競(jing)賽(IMO)之后(hou),又一次在(zai)頂尖國(guo)際競(jing)賽中證明(ming)了自己的實力。
谷(gu)歌(ge)Gemini 2.5 Deep Think高級(ji)版本參加ICPC總決(jue)賽的代碼已(yi)經在GitHub開源(yuan)。
GitHub地址:
一、OpenAI拿下滿分,谷歌錯兩道
ICPC是全球公認的(de)歷史最悠久(jiu)、規模最大(da)、最負盛名的(de)大(da)學級算法編程競賽,每年來自(zi)近3000所大(da)學和超(chao)過103個(ge)國(guo)家的(de)參(can)與者(zhe)競相解決現實世界(jie)的(de)編程問題。
OpenAI和谷歌都參與并獲得金牌級別表現,OpenAI推理系統解答了12道題,谷歌Gemini 2.5 Deep Think高級版本答出10道題,最好的人類團隊答出11道題。
1、OpenAI:拿下滿分,11道題一次就做對
OpenAI推理系統獲得滿(man)分(fen)。
OpenAI提到(dao)并沒(mei)有專門為ICPC訓練模(mo)型,其(qi)采用通用推理模(mo)型組合(he)的方式參賽。
比賽(sai)中,GPT-5與一款實驗性(xing)推理模型(xing)共同生(sheng)成解題方(fang)案,由該實驗性(xing)推理模型(xing)負責篩(shai)選待提交的方(fang)案。最(zui)終(zhong),GPT-5正確(que)解答(da)了11道題目(mu),而最(zui)后一道也是難度最(zui)高(gao)的一道題目(mu)由這款實驗性(xing)推理模型(xing)解決。
其模型一(yi)次(ci)性答對(dui)了11道(dao)題(ti),最(zui)難的(de)問題在第(di)9次提交時成功了。
2、谷歌:答對10道題,45分鐘解出8道題
Gemini 2.5 Deep Think高級(ji)版本按照ICPC規則在遠程在線環(huan)境(jing)中進行(xing)現場比賽,比人(ren)類參賽者晚10分鐘(zhong)開始(shi)。Gemini總共(gong)花(hua)費677分鐘(zhong),解決了12個問(wen)題中的10個,其中8個花(hua)費45分鐘(zhong),另外2個問(wen)題花(hua)費3個小時(shi)。
下圖(tu)是2025年ICPC總決賽中解決每(mei)個問題所用(yong)的(de)時間(jian),Gemini所花的(de)時間(jian)以(yi)藍色顯示(shi),最快的(de)大學生(sheng)團隊(dui)的(de)時間(jian)以(yi)灰色顯示(shi)。
Gemini在(zai)3道題目上的解(jie)題時間都超(chao)過(guo)了(le)人類(lei)。
▲ICPC總決賽(sai)中解決每個問(wen)題所(suo)用的時間
此(ci)外,谷(gu)歌DeepMind還提(ti)到一道困住(zhu)所(suo)有人類團隊的(de)難題,被Gemini在半小時內成功解答。
問題(ti)C要求團隊設計(ji)一套解決方案,通(tong)過相(xiang)互連接的(de)管道網絡將液體輸送至一組儲液罐(guan)(guan),目(mu)標是找到一種管道配置,以最快(kuai)速度(du)將所有儲液罐(guan)(guan)注滿。
該(gai)問(wen)題存在無限多種可能的(de)配置,因為(wei)每條管道均可處于開啟(qi)、關閉(bi)甚至部分開啟(qi)的(de)狀態,這使得尋(xun)找最優配置的(de)難度(du)極大。
▲問題C簡介
Gemini找到了有(you)效的解決方案:它首先假設每個水庫都有(you)一個“優先級值”,代表每個水庫與其他水庫相(xiang)比應該獲(huo)得的優先程度。
當給定一組優(you)先級值時,可以(yi)使用動態(tai)規劃算法(fa)找到(dao)管道的最佳配置(zhi)。
Gemini發現,通過應用(yong)極小(xiao)極大定理(Minimax Theorem),原問題可轉化為尋找能使最(zui)終流量受到最(zui)大約束的優先(xian)級數值。
借助優先級數值(zhi)與(yu)最優流(liu)量之間(jian)的(de)關聯,Gemini在類似碗狀的(de)凸性解空間(jian)中,通(tong)過嵌(qian)套三分搜索(Nested Ternary Searches)快速找到最優優先級數值(zhi),最終(zhong)解決了(le)C題。
目前訂閱Google AI Ultra的(de)Gemini用戶已經(jing)可以(yi)在Gemini App中(zhong)使(shi)用輕量級版本的(de)Gemini 2.5 Deep Think。
二、ICPC金牌水平,展現大模型抽象推理能力
谷歌DeepMind的博客中提到,Gemini的表現得益于其在預訓練(lian)、訓練(lian)后、強化(hua)學習技術、多步驟(zou)推理和平行思維方面的技術創新。
例(li)如,在強化學(xue)習過程中(zhong),研究人員(yuan)訓練(lian)Gemini為(wei)(wei)編程人員(yuan)面(mian)臨的一些最困難的問題進(jin)行(xing)推(tui)理和(he)生成代碼(ma),從結果反饋(kui)中(zhong)學(xue)習并改進(jin)其方法。為(wei)(wei)了解決(jue)一個問題,多個Gemini Agent會各(ge)自提出自己的解決(jue)方案,使用終端執行(xing)代碼(ma)和(he)測試(shi),然后根據所有嘗試(shi)迭代解決(jue)方案。
谷歌DeepMind的內部研究表明,Gemini 2.5 Deep Think高級版本也能在2023年和2024年ICPC世界總決賽中取得金牌級別的表現,表現(xian)不亞于全球前20名競技開發(fa)者。
在ICPC上獲得金牌水平(ping)對軟件開(kai)發具(ju)有直接的實際影(ying)響,如果將比(bi)賽中(zhong)最好的AI和(he)人類解(jie)決方案結合起(qi)來(lai),所有12個問題都會得到徹底和(he)正確的解(jie)決。這表明AI有潛(qian)力提(ti)供獨特思路,為(wei)人類專(zhuan)家提(ti)供補(bu)充(chong)。
除了數學和編程外,Gemini 2.5 Deep Think高級版本還展示了在抽象推理方面的能力。
這是因為,ICPC的問題需(xu)要模(mo)型理解復雜(za)的問題、設計多(duo)步驟(zou)的邏輯計劃、完美實施,這一過程(cheng)與許多(duo)科(ke)學和工程(cheng)領域所(suo)需(xu)的技能相同(tong),包括設計新(xin)藥或微(wei)芯片等(deng)領域。
OpenAI的(de)研究人員在X上發布帖子稱,他們采用同一組模(mo)型(xing)參加IMO和IOI競賽,展示了模(mo)型(xing)性(xing)能以及通用型(xing)。
結語:大模型復雜抽象問題解決能力提升
從國際數(shu)學(xue)奧林(lin)匹克競賽(sai)(IMO)到此(ci)次的(de)編程競賽(sai),OpenAI以(yi)及谷歌的(de)模型在(zai)解決更具(ju)挑戰(zhan)的(de)數(shu)學(xue)、推理難(nan)題上迸(beng)發(fa)出(chu)巨大潛力。ICPC全球執(zhi)行董事Bill Poucher博(bo)士稱,ICPC一直(zhi)致力于在(zai)解決問題方面設定最(zui)高標(biao)準,Gemini在(zai)這(zhe)一領域取得的(de)成績,標(biao)志著定義下一代所需(xu)AI工具(ju)和學(xue)術標(biao)準的(de)關鍵時刻(ke)。
這(zhe)些在(zai)競爭性編程和數學推理(li)方面的突破共同證明了(le)大模型在(zai)抽象(xiang)推理(li)問題解(jie)(jie)決方面的性能飛躍(yue),或能與(yu)人類專(zhuan)家(jia)結合(he),解(jie)(jie)決更(geng)加復雜的難題。