
智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 李水青
智東西6月26日報道,近日,計算機視覺大牛、MIT教授何愷明入職谷歌DeepMind,他在個人主頁上更新了自己的最新職位——谷歌DeepMind杰出科學家(兼職)。同時,何愷明也仍然保留了MIT電氣工程與計算機科學學院(EECS)的終身教職。
何愷明是深度殘差網絡(ResNet)的提出者之一。他作為第一作者發表的ResNet論文《Deep Residual Learning for Image Recognition》,是21世紀被引次數最多的論文。
文中所提出的殘差連接在現代深度學習模型中無處不在,包括Transformers、AlphaGo Zero、AlphaFold以及當今幾乎所有的生成式AI模型。截至今年5月,何愷明的各類出版物總被(bei)引量(liang)已經(jing)超過70萬次。
2024年(nian)加入MIT之前,何(he)愷明(ming)始終活躍(yue)于產業界與(yu)學(xue)(xue)術界,曾陸續(xu)在(zai)微軟亞洲(zhou)研究(jiu)(jiu)院(MSRA)、Facebook AI研究(jiu)(jiu)院(FAIR)擔任研究(jiu)(jiu)科(ke)學(xue)(xue)家。他擁有清華大(da)(da)學(xue)(xue)物理系基礎科(ke)學(xue)(xue)班學(xue)(xue)士學(xue)(xue)位(wei)和香(xiang)港中文(wen)(wen)大(da)(da)學(xue)(xue)信息工程博士學(xue)(xue)位(wei),在(zai)本科(ke)期間,曾在(zai)微軟亞洲(zhou)研究(jiu)(jiu)院視(shi)覺(jue)計算(suan)組實習,師從計算(suan)機(ji)視(shi)覺(jue)大(da)(da)牛孫劍;在(zai)香(xiang)港中文(wen)(wen)大(da)(da)學(xue)(xue)期間師從香(xiang)港中文(wen)(wen)大(da)(da)學(xue)(xue)多(duo)媒體(ti)實驗室創(chuang)始人、商湯科(ke)技(ji)創(chuang)始人湯曉鷗。
除了ResNet之外,何愷(kai)明還曾發表多項極具學(xue)術價值、對AI、計算機視覺產生深遠影響的研究成果。
2009年,在香港中文大學期間,何愷明在其第一篇發表的學術論文中提出了“圖像去霧算法”,這篇論文一經發表便斬獲了當年度的計算機視覺頂會CVPR年度最佳論文獎,何愷明也成為CVPR歷史上首位獲此殊榮(rong)的(de)華人。
2015年,何愷(kai)明在(zai)微軟(ruan)亞洲研究院工(gong)作時提出的ResNet在(zai)ImageNet圖像識別大賽中(zhong)奪冠,相(xiang)關論文(wen)獲(huo)得了2016年的CVPR最佳論文(wen)獎。
在(zai)FaceBook AI研究院工作期(qi)間(jian),何愷明還(huan)在(zai)圖像(xiang)分割領域做出重要貢獻(xian),作為(wei)第一作者和(he)第二作者分別發(fa)表了Mask R-CNN、Faster R-CNN兩篇重要論文(wen)。相關研究將(jiang)圖像(xiang)分割的(de)準確(que)度和(he)效(xiao)率提升(sheng)到新(xin)的(de)水準,Mask R-CNN論文(wen)獲得了2017年的(de)ICCV最佳論文(wen)獎。
何愷明(ming)還(huan)曾獲(huo)得2018年(nian)PAMI青年(nian)研(yan)究員獎(jiang)、ECCV 2018、CVPR 2021最佳(jia)論(lun)文榮譽獎(jiang)和ICCV 2021埃(ai)弗(fu)林漢姆獎(jiang)等著(zhu)名獎(jiang)項。
目(mu)前,谷歌DeepMind和何愷明本人都尚未披露后(hou)者入職后(hou)具(ju)體(ti)的安排。不過,我們可以從(cong)何愷明近期在CVPR、NeurIPS大會上的分享中,了解到他眼中具(ju)有學術(shu)價值(zhi)的研究(jiu)方向。
自AlexNet以來,識別模型已普遍實現端到端訓練和推理,但當前主流的生成模型在概念上類似于“分層訓練”,通常涉及多個步驟的推理與計算。何愷明帶領的團隊已于2025年發表了單步生成模型理論框架MeanFlow。未來,他可能會持續探索適用于端到端生成建模的框架。
同時,何愷明還稱識別與生成是一體兩面的問題,識(shi)別是(shi)(shi)從數(shu)據(ju)到嵌(qian)入的“流動”,而生(sheng)成(cheng)(cheng)是(shi)(shi)從嵌(qian)入到數(shu)據(ju)的“流動”。未來,識(shi)別與生(sheng)成(cheng)(cheng)一體化的框架(jia)也可(ke)能(neng)成(cheng)(cheng)為(wei)其重要研(yan)究方向(xiang)之一。
在2024年于NeurIPS大會上分(fen)享時,何(he)愷明強調:“未來才是真正的(de)測(ce)試集”。他主張研究者應該關注尚未見過(guo)的(de)(de)新數據、新配置、新用例和新情境,以減少(shao)研究的(de)(de)“過(guo)擬合”。
在同一場大會上,何愷明稱研究的本質在于尋找“驚喜”。在加入(ru)谷歌DeepMind后,我們或許可(ke)以期待他(ta)帶來更多令人驚喜的科研(yan)成果(guo)。
來(lai)源:何愷明個人主頁