智東西(公眾號:zhidxcom)
編譯 |? 徐豫
編輯 |? 云鵬

智(zhi)東西2月8日消息,谷歌旗下頂尖(jian)AI研(yan)究實驗室DeepMind于2月7日發(fa)布論(lun)文,其開發(fa)的一(yi)套名(ming)為AlphaGeometry2的AI系統(tong),解決國際數學奧林匹克(ke)競賽(IMO)幾何問題(ti)的表現,超越了金(jin)牌得主的平均(jun)水平。

AlphaGeometry2是(shi)(shi)DeepMind去年(nian)1月(yue)發(fa)布的(de)AlphaGeometry系統的(de)升級版。在最近發(fa)表的(de)一項研究中,AlphaGeometry2能夠解決過去25年(nian)IMO中84%的(de)幾何問題(ti),而(er)OpenAI的(de)o1推理模(mo)型一道題(ti)都(dou)答不上來。IMO是(shi)(shi)一個高中生的(de)全球頂尖數學(xue)比(bi)賽。

據(ju)DeepMind團隊(dui)分享(xiang),AlphaGeometry2融合(he)了(le)神經(jing)(jing)網(wang)絡理論和符號AI方(fang)法,其一方(fang)面采用基于神經(jing)(jing)網(wang)絡架構搭建的谷歌Gemini系列模型,同時另(ling)一方(fang)面遵循(xun)符號AI的操作規則,以此提升AI系統理解、推理和邏輯證明(ming)能(neng)力,打開了(le)實現(xian)通用AI的新思路。

事實(shi)上,今年夏(xia)天(tian),DeepMind曾(ceng)展示(shi)了(le)(le)一套(tao)結(jie)合(he)AlphaGeometry2和AlphaProof的(de)系統(tong),后者是一個(ge)用于(yu)形式數學推理(li)的(de)AI模型。該系統(tong)成功解決了(le)(le)2024年IMO六道題中(zhong)的(de)四道。

再創歷史!DeepMind AI超進化,能拿奧數金牌了

那么,DeepMind為何會關(guan)注一個高中數學競賽?

DeepMind認為,解開復雜幾(ji)(ji)何問題的新(xin)方(fang)法(fa),可能是(shi)開發(fa)更(geng)強大(da)AI系統的關鍵,尤其是(shi)歐幾(ji)(ji)里得幾(ji)(ji)何問題(Euclidean geometry problems)。

證明數學定理(li)這件事,例(li)如邏輯性地說明為(wei)什么勾股定理(li)(Pythagorean Theorem)成(cheng)立(li),不(bu)僅需要(yao)推理(li)能力(li),還需要(yao)從多種(zhong)可能的(de)解(jie)決步驟中(zhong)作(zuo)出(chu)選擇。DeepMind認為(wei),這種(zhong)解(jie)決問題的(de)能力(li)或許能夠成(cheng)為(wei)未來通(tong)用AI模型的(de)核心組成(cheng)部分。

此(ci)外,除(chu)了幾何問題,AlphaGeometry2這套(tao)方法(fa)還可以擴(kuo)展到(dao)其他數學(xue)或科學(xue)領域,例如可以為復雜的工程(cheng)計算提供幫助。

一、雙引擎核心發力,兼顧邏輯推理和大規模數據處理

AlphaGeometry2內含(han)多個關鍵(jian)組(zu)件(jian),其(qi)中既有谷歌Gemini系(xi)列語言模型,也有一個“符號(hao)引擎”。同時,這(zhe)個符號(hao)引擎在Gemini模型的(de)(de)幫助(zhu)下,可以(yi)更(geng)好地利用數學規則推導出問題的(de)(de)解決方案,從(cong)而(er)為給定的(de)(de)幾何定理(li)找到行(xing)得通的(de)(de)證明。

再創歷史!DeepMind AI超進化,能拿奧數金牌了

▲IMO考試中的一(yi)道典型幾何(he)問題的示意(yi)圖(tu)。(圖(tu)源:TechCrunch)

IMO中的幾何問題(ti)通常需要(yao)添(tian)(tian)加(jia)輔(fu)(fu)助線(xian)(xian),例如點、直線(xian)(xian)或圓(yuan)等輔(fu)(fu)助構造(zao),才(cai)能解答。AlphaGeometry2的Gemini模型可以(yi)預(yu)測圖中需要(yao)添(tian)(tian)加(jia)哪些輔(fu)(fu)助線(xian)(xian),然(ran)后(hou)符號引擎(qing)則(ze)基于這(zhe)些輔(fu)(fu)助線(xian)(xian)進行推(tui)理。

簡(jian)單(dan)來說,AlphaGeometry2的(de)(de)Gemini模型用一種形式化的(de)(de)數學語言,為符號引擎(qing)提供(gong)建議,而符號引擎(qing)可依據特定的(de)(de)規則(ze),來檢查(cha)這些步(bu)驟是否符合邏輯(ji)。

此外(wai),該系統(tong)還(huan)配備了一(yi)種搜(sou)索算法,支持(chi)并行搜(sou)索多個解決方案(an),并且(qie)會把可能(neng)有用的發現(xian)存儲(chu)在(zai)公共知(zhi)識庫(ku)中。

AlphaGeometry2認(ren)定一個問題已(yi)被解決的(de)條(tiao)件是,得(de)出(chu)的(de)答案(an)能夠結合Gemini模(mo)型的(de)建議,以(yi)及符號引擎的(de)已(yi)知原則,完成證明閉環。

另(ling)外(wai),由(you)于將幾何證明轉換(huan)成(cheng)AI可理解格式的(de)過(guo)程較為(wei)復雜,幾何問題的(de)訓練(lian)(lian)數據極為(wei)稀缺。為(wei)此(ci)DeepMind自創了(le)合成(cheng)數據集,生成(cheng)了(le)超過(guo)3億個復雜程度不同(tong)的(de)定理和證明,用于訓練(lian)(lian)AlphaGeometry2的(de)語言模型。

二、橫殺過去25年的競賽幾何題,成績媲美金牌得主

DeepMind的(de)(de)(de)研究(jiu)團隊選取了過去(qu)25年(nian)(nian),即2000年(nian)(nian)至2024年(nian)(nian),IMO中的(de)(de)(de)45個幾何問(wen)題(ti)(ti),并將這些問(wen)題(ti)(ti)轉換(huan)成一組(zu)共有50道題(ti)(ti)的(de)(de)(de)大(da)題(ti)(ti)組(zu)。這45個幾何問(wen)題(ti)(ti)中既有線性方(fang)程(cheng),也有涉及平面幾何對象移動(dong)的(de)(de)(de)方(fang)程(cheng)。

不過,由于技(ji)術原因(yin),目(mu)前(qian)大題組(zu)中的部分(fen)題目(mu)需要被拆分(fen)處理。

根(gen)據論文,AlphaGeometry2成(cheng)功解(jie)決(jue)了大題組中的42道(dao)題目,超過了金牌(pai)得主40.9分的平(ping)均成(cheng)績。

但同時,AlphaGeometry2也存在(zai)一定的局限性。

盡管(guan)得分可以(yi)說(shuo)表現(xian)優(you)異,AlphaGeometry2仍存在(zai)一些技(ji)術限制。例如,它暫時無法解決點數(shu)可變、非線性方程和不等式的(de)問題(ti)。

在另一組難度(du)更大一些的IMO題目中,AlphaGeometry2的表現稍(shao)遜(xun)。DeepMind研究團隊挑選了29道(dao)曾(ceng)被數學專家提名,但未曾(ceng)出現在競賽中的題目。而AlphaGeometry2僅(jin)成功(gong)解決了其中的20道(dao)。

此外,AlphaGeometry2也(ye)并(bing)非第一個(ge)達到幾何(he)金牌水平的(de)AI系統,不過(guo)它是(shi)第一個(ge)在如此大規模題集上取得這一成就(jiu)的(de)AI系統。

三、符號AI與神經網絡學派各執一詞,DeepMind提出融合新法

DeepMind這項(xiang)研究結果,可能會加劇關于(yu)AI系統是否應(ying)該基于(yu)符(fu)號操(cao)作(zuo)(zuo)構(gou)建的(de)爭論。換句(ju)話說,AI系統是應(ying)該使用規則來(lai)操(cao)作(zuo)(zuo)代(dai)表知(zhi)識的(de)符(fu)號,還是基于(yu)更類人腦的(de)神經(jing)網絡來(lai)構(gou)建。

AlphaGeometry2采用了混(hun)合方法,其Gemini模型使用的是神經網絡(luo)架構,而符號(hao)引擎則是基于規則。

神經網絡理論(lun)支持者認為(wei),從(cong)語(yu)音(yin)識別到圖像生成,智能(neng)行為(wei)可以通(tong)過大量數(shu)據和計算資源(yuan)自發涌現(xian)。

而(er)符(fu)號(hao)系統(tong)支持(chi)者則(ze)認為(wei),符(fu)號(hao)系統(tong)通過定義(yi)一組專門用于(yu)特(te)定任務的符(fu)號(hao)操作規則(ze)來(lai)解(jie)決問題,例(li)如在(zai)文(wen)字處理軟件中(zhong)編輯(ji)一行文(wen)字。而(er)神經(jing)網絡則(ze)需要通過統(tong)計相似數據和大量示例(li),才(cai)學(xue)會如何解(jie)決任務。

一(yi)方面(mian),神經網絡是OpenAI o1推(tui)(tui)理模型等(deng)強(qiang)大的AI系(xi)統的基石;另一(yi)方面(mian),符號AI的支持者認(ren)為,神經網絡并非萬(wan)能的,符號AI或(huo)許(xu)在高效(xiao)編(bian)碼(ma)真實世界知識(shi)、推(tui)(tui)理復雜情境和自證解答過程(cheng)等(deng)方面(mian),更具優勢(shi)。

AlphaGeometry2的(de)成功表明,這兩(liang)種方(fang)法(fa)的(de)結合,或許(xu)是開發通用(yong)AI一條(tiao)行(xing)之有效的(de)路徑(jing)。

事實上,根據DeepMind的論文,基于神經網絡架(jia)構的OpenAI o1推(tui)理(li)模型,無法解答AlphaGeometry2所解出的任何一道(dao)IMO問題。

然而(er),這種情(qing)況(kuang)(kuang)也(ye)許(xu)不會永遠持續下去(qu)。在論文(wen)中,DeepMind團(tuan)隊稱,他們發現了(le)初步證據,可以說明AlphaGeometry2的(de)語(yu)言模型有時候能夠在沒有符(fu)號引擎輔助的(de)情(qing)況(kuang)(kuang)下,生成部分解(jie)決方(fang)案。

“這(zhe)些(xie)結果在一定(ding)程度上支撐了(le),大模(mo)型可以在不依賴(lai)符號引擎等外部(bu)工具(ju)的情況下,自(zi)(zi)給自(zi)(zi)足的觀點,”DeepMind團隊(dui)在論文中寫道,“但在模(mo)型速度得到提升,且幻覺問(wen)題完全解決之前(qian),這(zhe)些(xie)外部(bu)工具(ju)對于AI數學應(ying)用來(lai)說,仍將至關重要。”

結語:AI解難題更聰明了,但簡單問題仍會“犯渾”

DeepMind的(de)(de)(de)AI系統AlphaGeometry2成功挑戰(zhan)IMO競(jing)賽金(jin)牌得主水平,一方面體(ti)現出(chu)AI數學、推理、邏輯證明能力的(de)(de)(de)進步,可以與高(gao)中生競(jing)爭(zheng);另一方面也為AI界(jie)提(ti)(ti)供(gong)了(le)通向AGI的(de)(de)(de)新(xin)路徑,在神經(jing)網絡派(pai)和(he)符號AI派(pai)的(de)(de)(de)爭(zheng)論中,論證了(le)二者相互配合(he)提(ti)(ti)效AI推理的(de)(de)(de)可行性。

與此同時,AI從(cong)紙上談兵到(dao)實戰演練,仍有很長(chang)的(de)路要走。如何保證簡單任(ren)務執行的(de)準確性(xing)、拓寬復雜任(ren)務處理的(de)可能性(xing)、降低(di)開發和部署成本等,都是AI玩家亟待解決的(de)議題。

卡(ka)內基梅隆大學(xue)計算(suan)機(ji)科學(xue)教授(shou)Vince Conitzer告訴TechCrunch,AI系統在這(zhe)些基準測試(shi)上(shang)持(chi)續(xu)取得令(ling)人矚目的(de)(de)進(jin)展,但(dan)與(yu)此(ci)同時,語言模(mo)型和(he)最(zui)近推出的(de)(de)具有推理(li)功(gong)能的(de)(de)模(mo)型,仍會在一些簡單(dan)的(de)(de)常識(shi)問題上(shang)苦苦掙扎,這(zhe)種對比令(ling)人震(zhen)驚。

他補充道(dao),我并不(bu)認為(wei)(wei)這一切進展(zhan)都是(shi)虛(xu)張聲勢,但(dan)它確實(shi)表明了(le),我們仍然不(bu)清(qing)楚下(xia)一個AI系(xi)統會(hui)有什么樣的(de)行為(wei)(wei)。這也意味著,這些AI系(xi)統可能(neng)會(hui)帶來重大影響,因此我們迫切需要深入(ru)了(le)解它們,以及它們可能(neng)造成的(de)風險。

來源:TechCrunch