
繼「學術(shu)新(xin)青年講(jiang)座」、「CVPR 2021特別(bie)企劃」之后,智東西公開課AI教研組又有新(xin)動(dong)作(zuo)啦(la)~
當下(xia),人工(gong)智能(neng)正(zheng)熱,而其(qi)備(bei)受(shou)關(guan)注、取得(de)革命性進步背(bei)后的“推手”正(zheng)是(shi)機(ji)器(qi)學(xue)(xue)習(xi)(xi)。關(guan)于(yu)機(ji)器(qi)學(xue)(xue)習(xi)(xi)的定義有很多,但(dan)它(ta)的基本目標是(shi)一致的,即在訓練樣本的基礎上進行(xing)泛(fan)(fan)化(hua),讓機(ji)器(qi)學(xue)(xue)習(xi)(xi)模(mo)型成功解釋之(zhi)前從未“見過”的數據。近年來,有很多新型的機(ji)器(qi)學(xue)(xue)習(xi)(xi)技術(shu)受(shou)到人們(men)的廣泛(fan)(fan)關(guan)注,像(xiang)深(shen)度學(xue)(xue)習(xi)(xi)、強化(hua)學(xue)(xue)習(xi)(xi)、遷(qian)移學(xue)(xue)習(xi)(xi)、對抗(kang)學(xue)(xue)習(xi)(xi)、元學(xue)(xue)習(xi)(xi)等(deng),它(ta)們(men)在數據挖掘、計(ji)算機(ji)視覺(jue)、自(zi)然語(yu)言處理、生物特征識別(bie)、搜索引(yin)擎、醫(yi)學(xue)(xue)診斷、檢測信用卡欺詐、證券市場(chang)分(fen)析、DNA序列測序、語(yu)音(yin)和手寫識別(bie)、游戲(xi)和機(ji)器(qi)人等(deng)領域有著廣泛(fan)(fan)的應用。
ICML是(shi)國際機(ji)器學習領(ling)域最(zui)具(ju)影響(xiang)力的(de)學術會議(yi)之一(yi),亦是(shi)探討(tao)機(ji)器學習前沿研(yan)究(jiu)成(cheng)果和技術實踐應用(yong)的(de)重要(yao)舞(wu)臺。為了(le)(le)(le)讓大家更到(dao)的(de)了(le)(le)(le)解ICML的(de)最(zui)新研(yan)究(jiu)成(cheng)果,智東(dong)西公開課全新策(ce)劃推出了(le)(le)(le)「ICML 2021一(yi)作講壇(tan)」。
首期我們邀請到3位ICML 2021論文一作,講解他們各自在ICML 2021上的(de)最(zui)新研究成果。
8月30日早(zao)10點,來(lai)自萊斯大(da)學(xue)的查道琛博(bo)士將率先帶來(lai)「ICML 2021一作講(jiang)(jiang)壇」第1講(jiang)(jiang)的直播講(jiang)(jiang)解(jie),講(jiang)(jiang)解(jie)主題(ti)為《游戲AI探究:從零開始通過自我(wo)博(bo)弈強化學(xue)習來(lai)學(xue)打斗地主》。
強(qiang)化(hua)學(xue)(xue)習(xi)(xi)(xi)是機器學(xue)(xue)習(xi)(xi)(xi)大家族(zu)中重要的(de)(de)(de)分支(zhi),相較于有監督學(xue)(xue)習(xi)(xi)(xi)和無監督學(xue)(xue)習(xi)(xi)(xi),強(qiang)化(hua)學(xue)(xue)習(xi)(xi)(xi)最(zui)大的(de)(de)(de)特點(dian)是在交(jiao)互(hu)中學(xue)(xue)習(xi)(xi)(xi),即智能體在與環(huan)境(jing)的(de)(de)(de)交(jiao)互(hu)中根(gen)據獲(huo)得的(de)(de)(de)獎(jiang)勵(li)或懲(cheng)罰不斷的(de)(de)(de)學(xue)(xue)習(xi)(xi)(xi)知識,更加適應環(huan)境(jing)。正(zheng)因如此,強(qiang)化(hua)學(xue)(xue)習(xi)(xi)(xi)非常適合應用(yong)在游(you)戲(xi)領域,通過提(ti)供指向高等級目標的(de)(de)(de)獎(jiang)勵(li)信號,讓(rang)游(you)戲(xi)角色制定出獲(huo)得高額獎(jiang)勵(li)的(de)(de)(de)最(zui)優策略(lve),從而有助于設(she)計出更強(qiang)的(de)(de)(de)游(you)戲(xi)角色。
現階(jie)段(duan),強化學習已經(jing)應(ying)用在(zai)了很多棋牌(pai)類游戲中,如AlphoGo(圍棋)、冷(leng)撲(pu)大師(德州撲(pu)克)、Suphx(麻(ma)將)。而(er)斗地主(zhu)因其(qi)極大的(de)(de)狀態空(kong)間、豐富的(de)(de)隱含信(xin)息(xi)、復雜的(de)(de)牌(pai)型(xing)、并(bing)存(cun)的(de)(de)合作與(yu)競技(ji),一直是一個極具挑戰的(de)(de)領(ling)域。
本(ben)次講座(zuo)中,查博將深入講解他(ta)們在ICML 2021上最新提(ti)出的(de)(de)工作(zuo),面向斗地主(zhu)的(de)(de)DouZero AI人工智能系統。講解的(de)(de)內容主(zhu)要包括基于(yu)蒙特(te)卡羅算(suan)法(fa)(fa)的(de)(de)優化算(suan)法(fa)(fa);以(yi)及RLCard工具包。RLCard集成了(le)DouZero中的(de)(de)算(suan)法(fa)(fa),并且(qie)支(zhi)持八種(zhong)游戲實現(包括斗地主(zhu)、麻將、德州撲克等)以(yi)及各種(zhong)強化學習算(suan)法(fa)(fa)(比如(ru)DouZero中使用的(de)(de)算(suan)法(fa)(fa)DMC、DQN、CFR等)。
第2講將于(yu)8月31日晚7點進(jin)行,由蒙特利爾學習算法(fa)研究院研究生徐民凱主講,主題為《基于(yu)二階(jie)規劃的端到(dao)端3D結構生成框架》。
深(shen)度學習已經在分子性質預測,分子生成等領域取得了(le)極大的(de)進展,在這(zhe)些場景中,分子通(tong)(tong)常(chang)被(bei)表示為(wei)以原子為(wei)節點、共價(jia)化學鍵為(wei)邊(bian)的(de)圖。然而,在現實(shi)應用(yong)中分子通(tong)(tong)常(chang)以三維結構進行表示。相(xiang)比圖結構,3D結構更加本質,通(tong)(tong)常(chang)蘊含著更豐(feng)富的(de)信息,也決定了(le)許多化學和生物(wu)學特性。
最近大多數工作首(shou)先預(yu)測(ce)原(yuan)子(zi)之間的(de)(de)距(ju)離,然后通過求(qiu)解距(ju)離幾何問題(ti),根據預(yu)測(ce)的(de)(de)距(ju)離生成分子(zi)構(gou)象(xiang)。這種基(ji)于距(ju)離幾何的(de)(de)方法(fa)有效地考慮了(le)分子(zi)構(gou)象(xiang)的(de)(de)旋轉和平移(yi)不(bu)變性(xing),因此取得了(le)很好(hao)的(de)(de)性(xing)能。但是(shi),這種兩階段的(de)(de)方法(fa)通常會(hui)遭受誤(wu)差傳遞的(de)(de)負面影響,即(ji)如果第(di)一階段預(yu)測(ce)的(de)(de)距(ju)離本身就(jiu)不(bu)能支撐一個合理(li)的(de)(de)三維結(jie)構(gou),那么第(di)二個生成階段會(hui)生成非(fei)常不(bu)合理(li)的(de)(de)分子(zi)構(gou)象(xiang)。
在(zai)本次講座中(zhong),徐民凱(kai)老師(shi)講解他(ta)們在(zai)ICML 2021上發表的最(zui)新研究成果:一種基于條件VAE的架(jia)構ConfVAE。分子圖(tu)首先會(hui)被映射到(dao)特征空間(jian),然(ran)后通過求(qiu)解一個雙層優化問題來生成他(ta)的3D結構。
第3講將由伊利諾伊大學(xue)厄巴納(na)香檳分校在讀博士王昊翔主(zhu)(zhu)講,時間為(wei)9月1日早10點。王博將以(yi)《聯(lian)結多任務學(xue)習(xi)與元學(xue)習(xi):快速(su)訓練與高效遷移》為(wei)主(zhu)(zhu)題講解他們在ICML 2021上(shang)的(de)最新(xin)成果。
多任務(wu)(wu)(wu)學(xue)習(xi)(xi)主要是(shi)通(tong)過在(zai)多個任務(wu)(wu)(wu)上同時訓(xun)練來提升泛化(hua)能力。而元學(xue)習(xi)(xi)是(shi)通(tong)過在(zai)有限(xian)的數據快(kuai)速學(xue)習(xi)(xi)從未(wei)見過的新任務(wu)(wu)(wu)。多任務(wu)(wu)(wu)學(xue)習(xi)(xi)和元學(xue)習(xi)(xi)在(zai)算(suan)法框(kuang)架(jia)上存(cun)在(zai)著很(hen)大的差別,但當(dang)利用訓(xun)練任務(wu)(wu)(wu)之間的共享(xiang)結構,將多任務(wu)(wu)(wu)學(xue)習(xi)(xi)和元學(xue)習(xi)(xi)進(jin)行結合,便能得到更好的泛化(hua)和適(shi)應(ying)能力。
在(zai)本次講座中(zhong),王博將詳細剖析多(duo)任(ren)務(wu)學(xue)習和元學(xue)習之間的(de)(de)(de)密切聯系,證明多(duo)任(ren)務(wu)學(xue)習與(yu)一類基(ji)于梯度的(de)(de)(de)元學(xue)習算(suan)法 (Gradient-Based Meta-Learning,GBML) 共享相(xiang)同(tong)的(de)(de)(de)優化形(xing)式,并且可(ke)以(yi)在(zai)同(tong)一數(shu)據集上(shang)會學(xue)到相(xiang)似的(de)(de)(de)模型。通過多(duo)個實驗證明,多(duo)任(ren)務(wu)學(xue)習算(suan)法可(ke)以(yi)在(zai)小于10%的(de)(de)(de)訓練(lian)時(shi)間上(shang),訓練(lian)出達到最先進的(de)(de)(de)GBML的(de)(de)(de)水平的(de)(de)(de)模型。
「ICML 2021一作講(jiang)(jiang)壇」將在智東西(xi)公開課知識(shi)社區進行,包含主講(jiang)(jiang)和(he)問(wen)答(da)兩(liang)個(ge)部分(fen)(fen)。其中(zhong)主講(jiang)(jiang)環(huan)(huan)節(jie)40分(fen)(fen)鐘,問(wen)答(da)環(huan)(huan)節(jie)20分(fen)(fen)鐘。每個(ge)環(huan)(huan)節(jie)主講(jiang)(jiang)老師都(dou)將通過視(shi)頻直播進行實時講(jiang)(jiang)解與(yu)互動。
「ICML 2021一(yi)作(zuo)講壇」籌備不易,歡(huan)迎大(da)家踴(yong)躍報名。同時后續更多的ICML 2021 論文一(yi)作(zuo)我們也在(zai)持續邀(yao)請(qing)中,大(da)家敬請(qing)期待!
課程介紹
課程時間:8月30日早10點
課程主題:游戲AI探究:從零開始通過自我博弈強化學習來學打斗地主
講師介紹(shao):萊斯大學四年級在讀博士查道琛
課程時間:8月31日晚7點
課程主題:基于二階規劃的端到端3D結構生成框架
講師介紹:蒙特利爾學習算(suan)法(fa)研(yan)究院研(yan)究生徐民凱
課程時間:9月1日早10點
課程主題:聯結多任務學習與元學習:快速訓練與高效遷移
講(jiang)師(shi)介紹:伊(yi)利諾伊(yi)大學厄巴納-香檳分校在讀博士王(wang)昊翔