智東西(公眾號:zhidxcom)
編譯 |? 尹非非
編輯 |? 云鵬

智東(dong)西3月(yue)14日(ri)(ri)(ri)消(xiao)息,近日(ri)(ri)(ri),日(ri)(ri)(ri)本(ben)AI初創公(gong)司Sakana AI于社交媒體上聲稱,其AI生成(cheng)論文通過首(shou)批同行(xing)評審。這篇(pian)論文由AI Scientist的改進(jin)版本(ben)AI Scientist-v2生成(cheng),通過了ICLR研(yan)討會的雙盲審查。

歷史性一刻!AI科學家論文首次通過同行評審

AI Scientist-v2的前(qian)身AI Scientist由Sakana AI于去(qu)年推出,是世界(jie)上第(di)一個用于自動化科學研究和端(duan)(duan)到(dao)端(duan)(duan)論文生(sheng)成(cheng)的的人工(gong)智(zhi)能系(xi)統。只要(yao)給定(ding)初(chu)始代(dai)(dai)碼庫的研究方向(xiang),AI Scientist可以完成(cheng)構(gou)思、文獻搜索、實驗設計、實驗迭代(dai)(dai)、圖表生(sheng)成(cheng)、手稿撰寫(xie)和審查等(deng)步驟。

而ICLR則是機器學習和人工智(zhi)能研究領域的三個(ge)頂級(ji)會議之一,另外兩個(ge)會議是NeurIPS和ICML。相比(bi)于去年僅僅創作(zuo)論文,AI Scientist這次將論文交由ICLR研討(tao)會進行同行審核(he)的動作(zuo),則說明其向自(zi)動化科學研究邁出更深一步的探(tan)索。

歷史性一刻!AI科學家論文首次通過同行評審

一、AI研究AI,如何“舉一反三”

這篇騙過評(ping)審員的論文到底講了什(shen)么呢?

文章的標題為《組(zu)合(he)正則化(hua):增(zeng)強神經網絡(luo)泛化(hua)能力中的意外障(zhang)礙(ai)》,組(zu)合(he)泛化(hua)(Compositional Generalization)是指(zhi)模型能夠理解和生成由已知(zhi)組(zu)件(如符(fu)號、詞匯、操作符(fu)),并按規(gui)則組(zu)合(he)而成的新組(zu)合(he)的能力,這是人類認知(zhi)的一個基(ji)本方面(mian),通俗來講就是“舉一反三(san)”。

而?研究的難(nan)點在于,盡管(guan)現在的AI模型(xing)(比(bi)如常用(yong)的LSTM神經網絡)在許多任務(wu)中(zhong)表(biao)現出色,但面(mian)對這類需要“舉一(yi)反三”的任務(wu)時,常常遇到困難(nan),這限制了它們在系統性(xing)推理任務(wu)中(zhong)的應(ying)用(yong)。

?之前(qian)的(de)(de)(de)研究探索了各種(zhong)(zhong)方法來增強組合泛化(hua),包括架(jia)構(gou)修改和訓練策略(lve)。其中(zhong)一(yi)種(zhong)(zhong)有前(qian)景的(de)(de)(de)方法是引入正則(ze)化(hua)項,以鼓勵AI學(xue)習。正則(ze)化(hua)項(Regularization Term)?是機(ji)器學(xue)習中(zhong)一(yi)種(zhong)(zhong)用于(yu)防(fang)止(zhi)模(mo)型(xing)過(guo)(guo)擬(ni)合的(de)(de)(de)技術,通過(guo)(guo)在(zai)(zai)損失函數中(zhong)添加額外(wai)的(de)(de)(de)約束或懲罰項,限制(zhi)模(mo)型(xing)參數的(de)(de)(de)復雜度(du),從而提高模(mo)型(xing)在(zai)(zai)未見過(guo)(guo)數據上(shang)的(de)(de)(de)泛化(hua)能力。簡單(dan)來說就是在(zai)(zai)訓練過(guo)(guo)程中(zhong)給AI定規矩,有賞有罰。

歷史性一刻!AI科學家論文首次通過同行評審

于(yu)是(shi),這篇論文提(ti)出了一(yi)種通(tong)過在訓練損失中加入(ru)顯式的組合(he)(he)正(zheng)則化項來增強神(shen)經網絡組合(he)(he)泛(fan)化的方(fang)法(fa)。具體來說就是(shi):

·模型架構:使用基于(yu)LSTM的神(shen)經網絡來建模從輸入表達(da)式到計算結(jie)果(guo)的映射。該模型包(bao)括一(yi)個嵌入層、一(yi)個LSTM層和一(yi)個全連接輸出層。

·?組合正則化:定義組合正則化項為(wei)連續隱(yin)藏狀態(tai)之間的均方差異:

歷史性一刻!AI科學家論文首次通過同行評審

其中,T是輸入序列的(de)長(chang)度(du)。該正(zheng)則化項懲罰隱藏狀(zhuang)態之間的(de)較大變化,鼓勵模型形成加法表示(shi),這是一種(zhong)簡單(dan)的(de)組合形式。

·訓練目標:總損失是(shi)主要損失(預(yu)測結果與(yu)真實結果之(zhi)間的均方誤(wu)差)和組(zu)合(he)正(zheng)則化項的加權和:

歷史性一刻!AI科學家論文首次通過同行評審

其中,λ是超參數,用于調整(zheng)組合正則化項的權重。

1、實驗設計

數據收集:生(sheng)成(cheng)(cheng)包含(han)數(shu)字和運算符的(de)(de)算術表達式合成(cheng)(cheng)數(shu)據集。數(shu)據集包括訓練集和測(ce)試集,測(ce)試集中的(de)(de)表達式包含(han)未見過的(de)(de)數(shu)字和運算符組合,以(yi)及更(geng)高(gao)復雜度的(de)(de)運算符。

?實驗設置:

  • 模型使用Adam優化器和均方誤差損失進行訓練,共訓練30個epoch。
  • 組合正則化項的權重λ默認設置為0.1,除非另有說明。
  • 使用測試準確率(在容差范圍內的正確預測百分比)和組合損失來評估模型性能。

?樣本選擇:通(tong)過不同的(de)超參數(shu)和運算符復雜度(du)進行多次實驗,以評估其對模型性能(neng)的(de)影響。

2、結果與分析

?基線性能:基(ji)線LSTM模型在(zai)沒(mei)有組合正(zheng)則(ze)化的(de)情況下,測試準確率達到約84%。組合損失在(zai)整(zheng)個訓(xun)練過程中保持相對穩定,表明模型本身并(bing)沒(mei)有發展出組合表示(shi)。

歷史性一刻!AI科學家論文首次通過同行評審

組合正則化的影響:引入組合正則化項后,隨著λ值的增(zeng)加,組合(he)損失減少,但測試準確(que)率并未提(ti)高,甚至在某些情況下下降。這表明,盡管組合(he)正則化(hua)鼓勵(li)了組合(he)表示的學習(xi),但它可能與主要學習(xi)目(mu)標產生沖突(tu),限(xian)制了模(mo)型擬合(he)訓練(lian)數據(ju)的能力。

歷史性一刻!AI科學家論文首次通過同行評審

運算符復雜性的影響:隨著(zhu)算術表達式中(zhong)運(yun)算符(fu)復(fu)(fu)雜(za)性的增加(jia),模(mo)型的泛化能力顯著(zhu)下降(jiang)。無論是(shi)基線(xian)模(mo)型還是(shi)帶有組合正則化的模(mo)型,都(dou)無法有效處理高復(fu)(fu)雜(za)度的表達式。

歷史性一刻!AI科學家論文首次通過同行評審

3、總體結論

論(lun)文提出了(le)一種通過(guo)組(zu)(zu)合正(zheng)則化項(xiang)來增強神經網絡組(zu)(zu)合泛化的(de)方法。實驗結果表(biao)明:

組(zu)(zu)(zu)合正則化(hua)(hua)(hua)并未(wei)帶來預期的泛(fan)化(hua)(hua)(hua)性(xing)(xing)能提(ti)升,反而在某些情(qing)況下阻礙了學(xue)習(xi)過程。此外(wai),算術表達式(shi)復雜(za)(za)性(xing)(xing)的增加顯著加劇了模型的泛(fan)化(hua)(hua)(hua)困難,突顯了組(zu)(zu)(zu)合正則化(hua)(hua)(hua)在處理(li)復雜(za)(za)組(zu)(zu)(zu)合結構時的局限(xian)性(xing)(xing)。未(wei)來建議探索替代的正則化(hua)(hua)(hua)策略,改進(jin)組(zu)(zu)(zu)合性(xing)(xing)的定(ding)義,并在更(geng)復雜(za)(za)的數據(ju)集上進(jin)行(xing)測試。

這(zhe)篇論文的亮點或許不在于“成功解(jie)決(jue)問(wen)(wen)題”,而(er)在于提(ti)出新的問(wen)(wen)題與矛盾,?推動新討(tao)論,即(ji)使結果為“負面”,這(zhe)類(lei)研究仍對領域發展至關重要。

總之,AI學組合就像教小(xiao)孩解奧數(shu)題——光靠刷題不行,還得培(pei)養邏輯思維和創(chuang)造力。這次嘗試雖然失敗(bai)了,但(dan)為(wei)未來的研(yan)究指明(ming)了方向。

二、同行內部雙評審,努力沖頂會

ICLR評審:3篇論文中1篇通過,排名約45%

在這(zhe)次實驗項(xiang)目中,Sakana與不列顛哥倫比亞大學(xue)和牛(niu)津大學(xue)的(de)研(yan)究(jiu)人員合(he)作(zuo),選擇(ze)AI生成的(de)3篇(pian)論(lun)文(wen)(wen)參與ICLR2025研(yan)討會的(de)雙盲(mang)審查,其中有2篇(pian)論(lun)文(wen)(wen)未(wei)達(da)到接受標準,1篇(pian)論(lun)文(wen)(wen)也(ye)就(jiu)是上文(wen)(wen)的(de)《組合(he)正(zheng)則(ze)化》的(de)平均(jun)得(de)分(fen)為6.33,這(zhe)篇(pian)論(lun)文(wen)(wen)在所(suo)有提交的(de)作(zuo)品中排名(ming)約為45%。這(zhe)些分(fen)數高于研(yan)討會上許多真人撰(zhuan)寫的(de)論(lun)文(wen)(wen),同(tong)時高于平均(jun)接受閾值。

具體的分數與(yu)閾值關系為:

評分:6:略(lve)高于接受(shou)閾值(zhi)

評分:7:好(hao)論文,接受

評分:6:略高(gao)于接受閾值

內部審查:仍有缺陷,無法通過頂會

除了同行評(ping)(ping)審,其內部的(de)(de)AI研(yan)究人員,也對3篇(pian)論文進行自我分析,將之視為(wei)提交(jiao)給ICLR主會的(de)(de)手稿來審查(cha),并為(wei)每篇(pian)論文撰(zhuan)寫了全面的(de)(de)綜(zong)述,同時添加了內嵌評(ping)(ping)論。

歷史性一刻!AI科學家論文首次通過同行評審

內嵌評(ping)論中提及了一些論文(wen)缺陷以及AI常常出(chu)現的硬(ying)傷,比如(ru)文(wen)獻綜(zong)述部分存(cun)在不(bu)準確或不(bu)完整的問(wen)題;圖表部分多出(chu)現圖表數據不(bu)完整、標(biao)注(zhu)不(bu)清(qing)(qing)、陰影區域(yu)未(wei)解(jie)釋等問(wen)題。此外,論文(wen)對于(yu)研(yan)究(jiu)(jiu)方法的描述不(bu)夠清(qing)(qing)晰,未(wei)充分覆蓋組(zu)合泛化(hua)領域(yu)的關鍵研(yan)究(jiu)(jiu)(如(ru)遞歸網絡、結(jie)構感知模型),這(zhe)可能會導致讀者難以理解(jie)本文(wen)方法的創新性,同時對部分技(ji)術(shu)細節(jie)(如(ru)組(zu)合正(zheng)則化(hua)的設計動機)缺乏(fa)深入解(jie)釋,有可能影響(xiang)方法的可復現性。

在(zai)實(shi)驗變量(liang)控制方(fang)面,論文也未充分說明(ming)不同超參數(如嵌入維度、正(zheng)則化權重(zhong))對結(jie)(jie)果的獨立影響,這可能混淆(xiao)關鍵結(jie)(jie)論。在(zai)實(shi)驗結(jie)(jie)果部(bu)分,AI往往發揮誘(you)導(dao)作(zuo)用,導(dao)致結(jie)(jie)論與數據矛盾,例如,注意力機制的實(shi)驗結(jie)(jie)果顯示基(ji)線模型表現(xian)更好,但作(zuo)者未充分討論這一反直覺現(xian)象,反而得(de)出正(zheng)則化效果更好的結(jie)(jie)論。

AI Scientist偶爾也會犯令人尷尬的引用錯誤。例(li)如,它錯誤地(di)將“基于(yu)LSTM的神經網絡”歸于(yu)Goodfellow(2016年),而(er)不是正(zheng)確(que)的作(zuo)者(zhe)Hochreiter和Schmidhuber(1997年)。

歷史性一刻!AI科學家論文首次通過同行評審

除了(le)審查(cha)和(he)(he)評論外(wai),AI研究人員(yuan)們(men)還(huan)在初始審查(cha)階段(duan)為每篇論文提(ti)供了(le)初步評估分數,評估依據(ju)NeurIPS和(he)(he)ICLR等頂級ML會議的指南進行(xing)。此(ci)外(wai),他們(men)還(huan)進行(xing)了(le)代碼審查(cha),以確保AI Scientist-v2所做的實(shi)驗結(jie)果可(ke)重復(fu)。但論文還(huan)是會犯一些初代AI Scientist就已經存在的錯(cuo)誤,諸如缺失圖表(biao)、過多(duo)缺失引(yin)文和(he)(he)格(ge)式問題等。為了(le)提(ti)高結(jie)果的科學準確性、可(ke)重復(fu)性和(he)(he)統計嚴(yan)謹性,他們(men)鼓勵AI Scientist多(duo)次重復(fu)每個實(shi)驗。

最(zui)終,研究人員得(de)出結論,3篇論文都(dou)沒有通(tong)過內部審(shen)查(cha),并在(zai)GitHub倉庫中(zhong)公開了(le)內部人類評審(shen)意見,以(yi)及這3篇AI生成論文。

總結:倫理與技術——AI科學家的未來

社交媒(mei)體(ti)上,關于AI科學(xue)家的未來,眾人莫衷(zhong)一是。

AI公司Shapes Inc創始人Anushk認(ren)為(wei):”AI科學家能(neng)對其自身工作進行批(pi)判和(he)迭代將(jiang)是下一個前(qian)沿,科學加速即將(jiang)到來。”

3X創始人Arsen Ibragimov則更關(guan)(guan)心這次事件對學術界的(de)沖擊:“有趣(qu)的(de)實驗!不過這也引發了許多關(guan)(guan)于未(wei)來學術出版和同行評(ping)審流程的(de)問題(ti)。我(wo)很好(hao)奇他們這篇由AI撰寫(xie)的(de)論文與審稿人關(guan)(guan)系(xi)的(de)透明度如何?”

一名AI領域的研究生Sachit gaudi則(ze)分(fen)享(xiang)了ICLR 2025中,由(you)人(ren)類撰寫的關于組合泛化(hua)的論文,并認為:”雖然每個人(ren)都既擔心又興奮地關注(zhu)著由(you)LLM完(wan)全(quan)生成的論文被ICLR研討會接收,但(dan)LLMs永遠無(wu)法匹(pi)配(pei)我的合作(zuo)者的創造力。”

歷史性一刻!AI科學家論文首次通過同行評審

不論是(shi)從研發(fa)之(zhi)初就存(cun)在(zai)的(de)學(xue)術(shu)倫理問題(ti),還是(shi)本次同行(xing)評審通過對學(xue)術(shu)界造成的(de)沖擊,AI Scientist一直是(shi)一個(ge)充(chong)滿爭議性與創造性的(de)存(cun)在(zai)。

從全球趨勢(shi)看,AI生成論文(wen)正加速(su)進入學(xue)術領域(yu):2023年,Nature在官網發(fa)布報(bao)道,指出一些(xie)(xie)研究者使用ChatGPT撰寫論文(wen),但并未披露對AI的使用,某(mou)些(xie)(xie)論文(wen)在發(fa)表后被人(ren)發(fa)現有明顯的AI撰寫痕跡,于是被撤(che)稿。Science在2023年禁止AI寫作(zuo)投稿,在2024年才開(kai)始(shi)解(jie)禁。這些(xie)(xie)事件反映出學(xue)術界對AI工具的審慎態度。

但不(bu)可否認(ren),AI寫(xie)作也正在(zai)重(zhong)塑學術評(ping)價(jia)體系。ICLR 2025允(yun)許AI論(lun)文參評(ping),或許也標志著評(ping)審標準(zhun)從(cong)“人類主(zhu)導”轉向(xiang)“結果導向(xiang)”;而月之暗面(mian)Kimi“論(lun)文工(gong)廠”的高效(xiao)產出模式,更對傳(chuan)統科(ke)研周期(qi)形成沖擊。

學術(shu)倫理與技(ji)(ji)術(shu)創新的(de)(de)博(bo)弈仍在持續。歐盟將學術(shu)AI列為高(gao)風險技(ji)(ji)術(shu)、中國(guo)禁止AI生(sheng)成論文(wen)用于(yu)職(zhi)稱(cheng)評定(ding),國(guo)內各(ge)大(da)高(gao)校對AI的(de)(de)態度(du)也各(ge)有不同,這(zhe)些監管(guan)動向并非(fei)否定(ding)技(ji)(ji)術(shu)價(jia)值,而是強調科學精神的(de)(de)不可替(ti)代(dai)性。正如(ru)Sakana AI創始人所言(yan),AI的(de)(de)目標應是“推(tui)動人類(lei)繁榮”,而非(fei)替(ti)代(dai)人類(lei)思考。未來,或許會出現真正意義(yi)上被承認的(de)(de)AI論文(wen),但在此之前,如(ru)何界定(ding)AI的(de)(de)學術(shu)角色(se)、保障(zhang)科研(yan)的(de)(de)原創性與透明度(du),仍是待解的(de)(de)命題。

來源:Sakana官網,Techcrunch