智東西(公眾號:zhidxcom)
編譯 | Glu
編輯 | 李水青

智東西7月7日(ri)報道(dao),在7月6日(ri)舉行的(de)2023世界人(ren)(ren)工智能大會(WAIC)開幕(mu)式上,人(ren)(ren)工智能專家、香港中(zhong)文大學教授、商湯科技(ji)創(chuang)始人(ren)(ren)兼執行董事湯曉鷗發(fa)表了主題為《你好(hao),上海》的(de)演講。

這個(ge)主(zhu)題由電影《你好,李煥(huan)英》延伸而來。他解(jie)釋說(shuo),從1994年(nian)的(de)(de)(de)2500萬(wan)元(yuan)到(dao)2021年(nian)的(de)(de)(de)54億(yi)元(yuan)票房,是中(zhong)國(guo)原(yuan)創電影人創造的(de)(de)(de)奇跡;而現(xian)在,中(zhong)國(guo)科(ke)技原(yuan)創者也(ye)逐(zhu)漸看到(dao)了曙光。

▲人工智能專家、香港中文大學教授、商湯科技創始人兼執(zhi)行董事湯曉鷗(ou)

接(jie)著,他(ta)分享(xiang)了(le)他(ta)的(de)三名學(xue)生(sheng)王(wang)曉剛(gang)、何愷明(ming)、林(lin)達(da)華在(zai)深(shen)度(du)學(xue)習領(ling)(ling)域(yu)追夢的(de)故事:王(wang)曉剛(gang)讓機器的(de)人臉(lian)識別首(shou)次超(chao)越了(le)人類(lei)眼睛;何愷明(ming)開(kai)發(fa)了(le)計算機視覺領(ling)(ling)域(yu)的(de)流行架(jia)構(gou)——深(shen)度(du)殘差(cha)網(wang)絡(ResNets),解決了(le)深(shen)度(du)網(wang)絡梯度(du)傳(chuan)遞的(de)問題,成為GPT等大模(mo)型(xing)系列的(de)基礎;林(lin)達(da)華主導發(fa)起了(le)國(guo)際上最具影(ying)響力的(de)視覺算法開(kai)源項(xiang)目OpenMMLab。

商湯湯曉鷗:我的三個學生,如何影響AI世界

▲Yann LeCun、Geoffrey Hinton、Yoshua Bengio ,圖源網絡

湯(tang)曉鷗認為,2018年(nian),深(shen)度(du)學習(xi)領(ling)域的(de)(de)三位研究員Yoshua Bengio、Geoffrey Hintion、Yann LeCun被授(shou)予(yu)計算(suan)機(ji)界最負盛名(ming)的(de)(de)“圖靈(ling)獎”,打開了(le)深(shen)度(du)學習(xi)的(de)(de)大(da)(da)門(men)。但開啟這扇大(da)(da)門(men)的(de)(de)第(di)一聲門(men)鈴(ling),是由(you)學者鄧力、Hintion按響的(de)(de),他們2011年(nian)在語音(yin)識(shi)別中引入DNN(深(shen)度(du)神經網絡),從而取得了(le)深(shen)度(du)學習(xi)語音(yin)識(shi)別領(ling)域劃時代(dai)的(de)(de)突破;2012年(nian),他們在計算(suan)機(ji)視覺(jue)識(shi)別領(ling)域中同樣(yang)取得了(le)劃時代(dai)的(de)(de)突破。

“那么(me),2011年(nian)到2013年(nian)深度(du)學習剛(gang)起步的(de)時候,我們(men)做了(le)什么(me)呢?”湯(tang)曉(xiao)鷗引(yin)出(chu)了(le)他的(de)第(di)一個學生,商湯(tang)集團聯合(he)創(chuang)始人、執(zhi)行董(dong)事兼首席科學家王(wang)曉(xiao)剛(gang)的(de)故事。

一、王曉剛:讓機器人臉識別超過人眼,曾打敗谷歌

王曉剛本科是(shi)中(zhong)國科學技術大學(簡(jian)稱:中(zhong)科大)少年(nian)班(ban),并且是(shi)中(zhong)科大最好班(ban)級之一00班(ban)的第一名,碩士期間就讀于湯曉鷗實驗室,并在(zai)2009年(nian)博士畢業后(hou),再次回到了該(gai)實驗室。

商湯湯曉鷗:我的三個學生,如何影響AI世界

▲ 商湯集團(tuan)聯(lian)合創(chuang)始人(ren)、執(zhi)行(xing)董事兼首席科學家王曉剛,圖(tu)源網絡

湯曉鷗(ou)說:“2011年(nian)到2013年(nian)的(de)(de)(de)國際計(ji)算(suan)機(ji)視(shi)覺與(yu)模式識(shi)別(bie)(bie)會(hui)議(CVPR)和(he)國際計(ji)算(suan)機(ji)視(shi)覺大會(hui)(ICCV)這兩個計(ji)算(suan)機(ji)視(shi)覺最重(zhong)要的(de)(de)(de)會(hui)議上(shang),全(quan)球(qiu)共有(you)29篇文章以(yi)深(shen)度(du)(du)(du)學習為主題(ti),其中有(you)14篇出自我(wo)們實(shi)驗室(shi)。我(wo)們有(you)18項工作是(shi)在全(quan)世界第一次(ci)將深(shen)度(du)(du)(du)學習用到視(shi)覺問(wen)題(ti)上(shang),包(bao)括人臉(lian)識(shi)別(bie)(bie)、人臉(lian)檢測、人臉(lian)重(zhong)建、物(wu)體檢測、人體姿態、圖像超分、三維形狀識(shi)別(bie)(bie)等計(ji)算(suan)機(ji)視(shi)覺最核心的(de)(de)(de)問(wen)題(ti)。在深(shen)度(du)(du)(du)學習的(de)(de)(de)大門上(shang),我(wo)們按(an)了(le)18次(ci)門鈴。”

湯曉(xiao)鷗還(huan)介紹(shao)道,王曉(xiao)剛(gang)研(yan)發了DeepID人(ren)臉識別(bie)(bie)技術,讓機器做的人(ren)臉識別(bie)(bie)首次超過人(ren)類的眼睛(jing),這比Facebook(現Meta公司)做的還(huan)早。此外,王曉(xiao)剛(gang)2015年帶隊打敗了谷(gu)歌,取得了中國學者史(shi)上的第(di)一(yi)個(ge)大規(gui)模視(shi)覺識別(bie)(bie)挑戰(zhan)賽ImageNet世(shi)界冠軍。

二、何愷明:GPT類大模型都在用他的網絡結構

第二個(ge)學生是何(he)(he)愷明(ming)。何(he)(he)愷明(ming)是2003年(nian)廣東高考狀(zhuang)元,本科(ke)就(jiu)讀于(yu)清華物理系(xi),碩士、博士期間(jian)師(shi)從(cong)湯曉鷗。

商湯湯曉鷗:我的三個學生,如何影響AI世界

▲ Facebook AI Lab研究員何愷明,圖源網(wang)絡

湯曉鷗說,何(he)愷(kai)明讀碩士期間就(jiu)發了第(di)一(yi)篇(pian)文章(zhang),并取得了2009年(nian)的(de)CVPR最(zui)(zui)佳論(lun)文,這是(shi)CVPR整(zheng)個25年(nian)歷史上第(di)一(yi)篇(pian)出自(zi)亞洲的(de)最(zui)(zui)佳論(lun)文。當(dang)時湯曉鷗和何(he)愷(kai)明開玩笑:“你一(yi)出手就(jiu)到了巔峰,從此以后,你的(de)學術生(sheng)涯就(jiu)只能往(wang)下走了。”但后來,他(ta)去微軟和Facebook工作后一(yi)路走高。

2011年(nian),何(he)愷(kai)明加入微軟(ruan)亞(ya)洲研究院(MSRA),繼續研究計(ji)算機視覺和深(shen)(shen)度學(xue)習。在2015年(nian)之前,深(shen)(shen)度學(xue)習最(zui)多(duo)只能訓練到20多(duo)層(ceng)(ceng),他在網(wang)絡的(de)每(mei)一(yi)層(ceng)(ceng)引入了一(yi)個直聯通道,從而解決了深(shen)(shen)度網(wang)絡梯度傳遞的(de)問題,獲得了2016年(nian)的(de)最(zui)佳(jia)論(lun)文。此后,學(xue)界可以訓練超過(guo)百層(ceng)(ceng)的(de)深(shen)(shen)度學(xue)習。在大模型時代(dai),以Transformer為核心的(de)大模型,包括GPT系列,也是普遍采(cai)用了這(zhe)個結(jie)構(gou),以支撐上百層(ceng)(ceng)的(de)堆疊模型。

湯(tang)曉鷗笑說:“何愷明把網絡(luo)做深了(le),谷歌(ge)把網絡(luo)的入口拉大了(le),又深又大,才成就了(le)今天的大模型(xing)。”

何愷明(ming)2016年加入Facebook AI Research(FAIR),在(zai)這期(qi)間,他(ta)首次(ci)提出(chu)了一個(ge)真正高性能(neng)的(de)物體檢(jian)測和(he)算法框(kuang)架(jia)MaskR-CNN,并獲得了ICCV?2017年最(zui)佳論文(wen)。

湯曉(xiao)鷗稱(cheng),何愷明(ming)是世界上唯一一個(ge)在(zai)畢業不到(dao)十年內,三次(ci)以(yi)第(di)一作者的(de)(de)(de)身(shen)份獲得CVPR、ICCV最佳論文的(de)(de)(de)人。他首次(ci)把基于(yu)源碼(ma)的(de)(de)(de)自編(bian)碼(ma)思想用于(yu)視覺領(ling)域(yu)的(de)(de)(de)非監(jian)督學習(xi),開啟了計算機(ji)視覺領(ling)域(yu)自監(jian)督學習(xi)大門,并(bing)被推(tui)廣到(dao)三維、音頻甚(shen)至是AI領(ling)域(yu)。

湯曉鷗還透(tou)露,何愷明即(ji)將會有一個“比(bi)較震撼(han)的動作”。

三、林達華:主導OpenMMLab,開發書生系列大模型

第(di)三個(ge)學(xue)生是林達華,他(ta)(ta)本科就讀(du)于中國科大,碩士在香(xiang)港中文大學(xue),博士是MIT(麻省(sheng)理(li)(li)工(gong)大學(xue))。他(ta)(ta)2010年在MIT讀(du)博士期間,獲得(de)機器(qi)學(xue)習的(de)最高獎——NIPS(神(shen)經(jing)信息處(chu)理(li)(li)系統大會)最佳學(xue)生論文,2014年回到湯曉鷗的(de)實驗室做(zuo)教授。

商湯湯曉鷗:我的三個學生,如何影響AI世界

▲香(xiang)港中文(wen)大學教(jiao)授林達華(hua),圖源(yuan)網(wang)絡

湯曉鷗稱:“林達華(hua)的第(di)一(yi)項工作(zuo)成(cheng)果是(shi)OpenMMLab,2018年從(cong)一(yi)個(ge)小團隊開(kai)始(shi),在沒(mei)有推廣投入的情況下,以口口相傳的形式成(cheng)為(wei)國際上最具(ju)影(ying)響(xiang)力(li)的視覺(jue)算法開(kai)源體系,在GitHub上累積了(le)8萬(wan)多(duo)個(ge)星標,目前用(yong)戶遍及全球140多(duo)個(ge)國家和地(di)區,60%用(yong)戶來(lai)自海(hai)外。”

湯(tang)曉鷗(ou)還介紹了林(lin)達華的(de)其他兩項(xiang)工作成(cheng)果,即將正式發布的(de)千億參(can)數(shu)、8K的(de)多語(yu)種大語(yu)言模(mo)型(xing)“書(shu)生·浦語(yu)”,和2000億參(can)數(shu)、覆蓋100平(ping)方(fang)公里的(de)城市級實景三維(wei)大模(mo)型(xing)LandMark。

四、AI大樹“結果”:全華團隊首次獲CVPR最佳論文

對于三名學(xue)生在人(ren)工智(zhi)能領域的(de)成果,湯曉(xiao)鷗評價:“王(wang)曉(xiao)剛在深(shen)(shen)度學(xue)習興起的(de)最初幾(ji)年,灑下了很多原創的(de)種子;何愷(kai)明將深(shen)(shen)度學(xue)習的(de)根基打得(de)非常(chang)(chang)牢、非常(chang)(chang)深(shen)(shen);林達華通(tong)過(guo)開發(fa)和大模型讓(rang)它枝繁葉(xie)茂。”

他(ta)還(huan)說:“讓(rang)我非常欣慰的(de)(de)是(shi),這顆大樹已經開始(shi)開花結果(guo)。就在(zai)兩周前,我們的(de)(de)自動駕駛(shi)大模(mo)型從9155篇文(wen)章中脫穎而出(chu),獲得(de)了CVPR?2023年的(de)(de)最佳(jia)論(lun)文(wen)獎。”湯曉鷗援引谷歌學術統計(ji),稱這是(shi)改(gai)革(ge)開放40多年來第一篇全部(bu)由中國學者完成的(de)(de)國際計(ji)算機視覺三大頂會的(de)(de)最佳(jia)論(lun)文(wen),論(lun)文(wen)的(de)(de)牽頭作(zuo)者是(shi)王曉剛帶出(chu)來的(de)(de)博士(shi)。此外,OpenMMLab是(shi)林達華帶出(chu)來的(de)(de)博士(shi)陳(chen)愷(kai)做出(chu)來的(de)(de)。

當年湯曉鷗(ou)實驗室的另(ling)一(yi)篇“超(chao)(chao)過(guo)人眼(yan)的人臉(lian)識(shi)別(bie)技術(shu)”論(lun)文的作(zuo)者陸(lu)超(chao)(chao)超(chao)(chao),也(ye)從劍橋大學博(bo)士(shi)畢業回到(dao)了上(shang)海,正在和中國唯一(yi)的圖靈獎獲得者姚期智(zhi)(zhi)先生在上(shang)海的期智(zhi)(zhi)研究(jiu)院合作(zuo),從事AI基礎理論(lun)研究(jiu)。湯曉鷗(ou)不(bu)禁感慨道(dao):“人工智(zhi)(zhi)能領域,新(xin)一(yi)代(dai)的學生已經在上(shang)海成(cheng)功起步!”

在演講(jiang)的最后,湯曉鷗再一(yi)次(ci)感謝上海,感謝合作過(guo)的學生與老(lao)師(shi),并援引(yin)了(le)于謙在電影《好(hao)老(lao)師(shi)》的一(yi)句(ju)臺(tai)詞:“我(wo)不是(shi)在最好(hao)的時(shi)光(guang)遇見了(le)你們(men),而是(shi)遇見了(le)你們(men)才有了(le)這段(duan)最好(hao)的時(shi)光(guang)。”

作為一個在(zai)上(shang)海工作的東北人,湯曉鷗帶(dai)有東北人自帶(dai)的幽默感(gan),他最后感(gan)嘆(tan)到,自己每天(tian)晚上(shang)睡(shui)覺前(qian),都(dou)是一邊聽著于謙老師的相聲,一邊在(zai)想:“機(ji)器怎么可能超過這樣有趣(qu)的靈魂?我(wo)不(bu)信。”

結語:中國AI高峰背后,幾代人砥礪前行

在2023 WAIC上(shang),湯曉鷗(ou)分享了自己的(de)(de)(de)三(san)名學(xue)生在大模型(xing)領域做(zuo)出的(de)(de)(de)原創貢獻,包括(kuo)王曉剛讓機器的(de)(de)(de)人(ren)臉識別能(neng)力超過人(ren)眼;何愷明開發深(shen)(shen)度(du)殘差網(wang)絡(luo),把網(wang)絡(luo)做(zuo)深(shen)(shen),助力今天的(de)(de)(de)大模型(xing);林達華開發書生系列千(qian)億級參數大模型(xing)。通(tong)過梳理這(zhe)三(san)名學(xue)者的(de)(de)(de)研究成果,也向(xiang)我(wo)們展示(shi)了中(zhong)國的(de)(de)(de)深(shen)(shen)度(du)學(xue)習研究從起步、成長到進一步枝繁葉(xie)茂(mao)的(de)(de)(de)過程。

現在,人(ren)工智(zhi)能已經成(cheng)為(wei)國家發展重(zhong)點(dian)戰略,今年的CVPR最(zui)佳論文更是(shi)由全(quan)中國學者所完成(cheng)的。這(zhe)不僅僅是(shi)一批人(ren)的成(cheng)就(jiu),更展現了(le)一代代中國人(ren)工智(zhi)能學者薪火相傳、勇攀高峰的過程(cheng)。