深(shen)度(du)強化學習(xi)已經(jing)廣(guang)泛應用(yong)于工業(ye)制(zhi)造、仿真模(mo)擬、機器(qi)人控(kong)(kong)制(zhi)、優化與調(diao)度(du)、游戲博弈等(deng)領域。其中,用(yong)于視覺控(kong)(kong)制(zhi)的(de)(de)(de)深(shen)度(du)強化學習(xi)旨在學習(xi)給(gei)定觀察圖像的(de)(de)(de)最優策(ce)略,實(shi)現了對機器(qi)人的(de)(de)(de)行為(wei)控(kong)(kong)制(zhi)。但(dan)受自身學習(xi)能(neng)力的(de)(de)(de)制(zhi)約,在處理(li)高維狀態(tai)與動作空間下的(de)(de)(de)控(kong)(kong)制(zhi)問題時,存(cun)在樣本利用(yong)率(lv)低以及(ji)算法(fa)不易收斂等(deng)缺陷,嚴重(zhong)限制(zhi)了深(shen)度(du)強化學習(xi)方(fang)法(fa)對機器(qi)人運動的(de)(de)(de)控(kong)(kong)制(zhi)能(neng)力。

隨著Transformer在(zai)學習視(shi)覺(jue)(jue)和語言表(biao)示方面取得了巨大的(de)成功(gong),將Transformer引入視(shi)覺(jue)(jue)控(kong)制(zhi)模型中(zhong)成為研(yan)究人員的(de)一種(zhong)新(xin)選擇(ze)。在(zai)視(shi)覺(jue)(jue)控(kong)制(zhi)中(zhong),學習可在(zai)不(bu)同控(kong)制(zhi)任務間遷(qian)移(yi)的(de)可遷(qian)移(yi)狀態表(biao)示,對于(yu)提升樣(yang)本利(li)用率(lv)具有重(zhong)要意(yi)義。然(ran)而(er),將Transformer移(yi)植到采樣(yang)高效的(de)視(shi)覺(jue)(jue)控(kong)制(zhi)仍然(ran)有很大的(de)難度。

為此,香港大(da)學(xue)穆(mu)堯博士(shi)等(deng)人提(ti)出了一(yi)種新穎的控制Transformer框架CtrlFormer。CtrlFormer在不(bu)同控制任務之間聯合學(xue)習(xi)視覺(jue)令牌和(he)策(ce)略令牌之間的自注意(yi)力機制,可以(yi)在不(bu)發生災難性(xing)遺忘的情況下(xia)學(xue)習(xi)和(he)遷移多任務表示。此外,還設計了一(yi)個對比強化學(xue)習(xi)范式來訓(xun)練CtrlFormer,使其能(neng)夠達(da)到較高的樣本效率。

在(zai)DMControl基準測試中,最(zui)近的(de)(de)先(xian)進方法(fa)在(zai)使用(yong)100k樣本(ben)遷移學習后在(zai)“Cartpole”任務中產生零分(fen)而(er)失敗,而(er)CtrlFormer可以在(zai)僅使用(yong)100k樣本(ben)的(de)(de)情況下(xia)獲得769±34的(de)(de)最(zui)先(xian)進的(de)(de)分(fen)數(shu),同時保(bao)持之前(qian)任務的(de)(de)性能。

8月31日晚7點,「AI新青年講座」第152講邀請到香港大學在讀博士穆堯參與,主講《深度強化學習的多任務遷移及其在機器人上的應用》。

第152講

主題

深度強化學習的多任(ren)務遷移(yi)及(ji)其在機器人上的應用(yong)

提綱

1、視覺控制在機器人中的應用與挑戰
2. 基于CtrlFormer的深度強化學習多任務遷移
3、對比強化學習訓練框架
4、機器(qi)人控制任務中的視(shi)覺泛(fan)化性

講者介紹

穆堯(yao),香(xiang)港大學在(zai)讀博士,師(shi)從(cong)羅平老師(shi),現主要研(yan)究方向包括強化學習(xi)、機器人控制和表示學習(xi), 在(zai) NeurIPS、ICML、CVPR、IJCAI等頂級會議發表論(lun)文5篇,曾獲(huo)ICCAS 2020最優學生論(lun)文獎(jiang),IV2021最優學生論(lun)文提(ti)名獎(jiang)。

課程信息

直播時間:8月31日19:00
直播(bo)地點:智東西公開課知識店(dian)鋪