智東西(公眾號:zhidxcom)
編譯 | 陳家陽
編輯 | 漠影

智東(dong)西4月17日報(bao)道,近日,Nature雜志對(dui)21世(shi)紀(ji)以來引用次(ci)數最多的(de)25篇論(lun)(lun)文(wen)進行了分(fen)析,揭示(shi)出一個有趣的(de)現象(xiang):在科學界(jie),講述方法(fa)和軟件的(de)論(lun)(lun)文(wen)比著名的(de)科學發現更常(chang)被引用,這(zhe)些論(lun)(lun)文(wen)主(zhu)要(yao)集中在人(ren)工(gong)智能(AI)、研究方法(fa)或綜(zong)述、癌癥統(tong)計和軟件研究等領域。

特別值得(de)關(guan)注的(de)是,于2016年發表(biao)的(de)《應用于圖像識別中的(de)深度(du)殘差(cha)學習(Deep Residual Learning for Image Recognition)》成為(wei)21世紀(ji)被引(yin)用次數最多的(de)論(lun)文(wen),何愷明是該文(wen)第一作者(zhe),當時正(zheng)在北京的(de)微軟(ruan)亞洲研究(jiu)院工作。

此外,Nature在這篇分析中還討(tao)論(lun)了其他高被引論(lun)文(wen),包括改(gai)進的(de)(de)圖像處(chu)理網絡(luo)架構“U-net”,開源的(de)(de)“隨機(ji)森林(lin)”(random forest)機(ji)器學習算法,谷歌研究人員發表的(de)(de)有(you)關Transformer模型(xing)的(de)(de)論(lun)文(wen)等。

Nature公布21世紀高被引論文,何愷明的ResNet登頂

▲Nature統計的21世(shi)紀10篇(pian)被引(yin)用(yong)量最高的論文

一、ResNet研究位居榜首,何愷明是第一作者

作為計算(suan)機(ji)視覺(jue)和AI領域的頂級(ji)科學(xue)家(jia),何(he)愷明在(zai)(zai)學(xue)術生(sheng)涯早期(qi)便(bian)展(zhan)現出(chu)了非凡的研究才能,在(zai)(zai)微軟(ruan)亞洲研究院工作期(qi)間,因提(ti)出(chu)深度殘差網絡(ResNet)而名聲大噪。

ResNet解決了深度(du)神(shen)經網(wang)(wang)絡(luo)(luo)訓練(lian)中的梯度(du)消失問題(即隨著網(wang)(wang)絡(luo)(luo)層數的增加,網(wang)(wang)絡(luo)(luo)的性能反而可能下降(jiang)),使得(de)研究人(ren)員能夠(gou)訓練(lian)約150層的神(shen)經網(wang)(wang)絡(luo)(luo),比以(yi)往使用的神(shen)經網(wang)(wang)絡(luo)(luo)層數多5 倍以(yi)上。

該論文在(zai)2015年底作為預印本發布,2016年正式發表,隨后于ImageNet競賽中(zhong)得(de)到驗證(zheng),并(bing)促進(jin)(jin)各種圖像識別(bie)任務取(qu)得(de)了(le)突破性(xing)進(jin)(jin)展(zhan)。

ResNet的影響力不僅限于(yu)計(ji)算機(ji)視(shi)覺領域,其思(si)想(xiang)也(ye)被廣(guang)泛應用(yong)于(yu)現代深(shen)度學(xue)習模(mo)型中。能夠(gou)下(xia)棋(qi)的AlphaGo、預測蛋白質結構的AlphaFold以(yi)及大語(yu)言(yan)模(mo)型GPT等AI工具(ju)的出現,都離不開ResNet,它使神經(jing)網(wang)絡能夠(gou)達到(dao)前所未有的深(shen)度,重新(xin)定義了深(shen)度學(xue)習的潛(qian)力邊界。

“在ResNet之前(qian),‘深(shen)度(du)學習’并沒有那么深(shen)入,”目前(qian)在麻(ma)省理工學院(yuan)工作(zuo)的何愷明說。

作為“深度學(xue)習三巨頭”之(zhi)一(yi)的楊立(li)昆,曾(ceng)在采訪(fang)中(zhong)對(dui)ResNet研究取得(de)的成就(jiu)表示贊賞,“這(zhe)顯示了全球范(fan)圍(wei)內都存在著(zhu)杰出的科學(xue)家,并且(qie)創新的靈(ling)感可以源自世界的任(ren)何一(yi)個角落。”

二、21世紀,AI領域論文的黃金時代

“AI教(jiao)父(fu)”杰弗里·辛頓(Geoff Hinton)表示,AI領(ling)域(yu)的論文在引(yin)用(yong)方(fang)面具(ju)有天然優勢(shi),這些領(ling)域(yu)的論文與許多(duo)學科(ke)相關,特別(bie)是在21世紀AI行業實現快速發展。

不少人把深(shen)度(du)(du)學習(xi)革(ge)命歸功于辛(xin)頓(dun)在(zai)2012年合(he)著的(de)一篇(pian)論(lun)文,其中提到的(de)名(ming)為“AlexNet”的(de)網絡,在(zai)識別和標(biao)記圖像時以壓(ya)倒性優勢(shi)擊(ji)敗了(le)其他(ta)方(fang)法(fa)。這篇(pian)論(lun)文在(zai)此次排名(ming)中位列第八(ba),而辛(xin)頓(dun)另一篇(pian)關于深(shen)度(du)(du)學習(xi)的(de)綜述論(lun)文排名(ming)第十六(liu)。

在提出AlexNet三年后,一篇(pian)有影響(xiang)力(li)的(de)論文介紹了名為“U-net”的(de)網絡,可以用(yong)更少的(de)訓練數據來處理圖像。該論文現在排名第十二位。其合著者之一奧拉夫(fu)·倫內伯格(Olaf Ronneberger)因該論文被DeepMind招募。

2017年,谷歌研究人員(yuan)在發表(biao)的(de)《“注意(yi)力就是你所需要的(de)(Attension is All You Need)”》 一文(wen)中首次提出(chu)了Transformer神經(jing)網絡架(jia)構,通(tong)過自(zi)注意(yi)力機制(self-attention)來提升(sheng)大(da)型語(yu)言模型的(de)性(xing)能。這篇論文(wen)在本世紀高(gao)被引(yin)論文(wen)中排名第七(qi)。

在(zai)機器學(xue)習(xi)領域,許(xu)多(duo)早期的(de)學(xue)術(shu)論文(wen)是開源(yuan)的(de),這(zhe)也提(ti)高了其(qi)引用次數。《隨機森林(Random forest)》得益(yi)于提(ti)出開源(yuan)、免費且(qie)易(yi)于使用的(de)機器學(xue)習(xi)算法,而引用量激(ji)增(zeng),在(zai)此次排名中位列第六。

結語:科學方法與軟件是影響論文引用量的重要因素

引用,是(shi)(shi)作者在(zai)文獻中(zhong)核實知(zhi)識(shi)來源的(de)(de)方式,是(shi)(shi)衡量論文影響力的(de)(de)重要標準之一。

Nature通過研究分析(xi)表明,被引用次數最多的論文,通常不是(shi)(shi)介紹(shao)著名的科(ke)學發(fa)現,而是(shi)(shi)傾向于描述科(ke)學方法或(huo)軟件(jian),即科(ke)學家所(suo)依賴(lai)的基礎工(gong)具。

“科學(xue)(xue)家(jia)們說他們重視(shi)方法(fa)、理論和(he)經驗發現,但(dan)實際上(shang)方法(fa)被(bei)引(yin)用得更多,”密歇根(gen)大學(xue)(xue)安娜堡分校的(de)(de)社會學(xue)(xue)家(jia)米沙·特普(pu)利(li)茨基(Misha Teplitskiy)指出。這些(xie)高引(yin)用論文,不僅展(zhan)示了(le)它們在(zai)學(xue)(xue)術界的(de)(de)影響力,也反(fan)映了(le)科學(xue)(xue)界對方法(fa)的(de)(de)廣泛(fan)認可和(he)應用。

來源:Nature、澎湃(pai)新(xin)聞