「AI新(xin)青(qing)年講座(zuo)」將邀請世(shi)界頂尖AI研究機(ji)構和大學的科(ke)研新(xin)青(qing)年,主講他們在計(ji)算機(ji)視覺、機(ji)器學習等人工智能領域的最(zui)新(xin)重要研究成果。

AI新青年是(shi)加(jia)(jia)速人工智能前沿研(yan)究的(de)新生力量(liang)。AI新青年的(de)視頻(pin)講解和(he)直播答(da)疑(yi),將(jiang)可(ke)以(yi)幫助大(da)家(jia)增(zeng)進對人工智能前沿研(yan)究的(de)理解,相應領域的(de)專業知(zhi)識也(ye)(ye)能夠得以(yi)積累加(jia)(jia)深。同時,通(tong)過與(yu)AI新青年的(de)直接交流(liu),大(da)家(jia)在AI學習和(he)應用AI的(de)過程中遇到的(de)問題,也(ye)(ye)能夠盡快解決。

「AI新(xin)青(qing)年講(jiang)座」目前(qian)已(yi)完結210講(jiang),有興趣(qu)分享學術成果(guo)的朋友,可(ke)以與(yu)智東(dong)西公開課教研團隊進行郵(you)件(jian)(class@sanyasheying.cn)聯系(xi)。

機(ji)器人的自主探(tan)(tan)索具有(you)許多重(zhong)要的應(ying)用。然而,基于(yu)信息增(zeng)益(yi)或邊界的經典探(tan)(tan)索方(fang)法僅(jin)依靠機(ji)器人的當前狀態確(que)定即時的探(tan)(tan)索目標(biao),缺乏預(yu)測未來(lai)狀態價值的能力(li),從而導致(zhi)探(tan)(tan)索決策效率低下(xia)。

最(zui)近幾年隨著離(li)線(xian)強(qiang)化(hua)(hua)學(xue)習(xi)算法(fa)的興起,相關算法(fa)也(ye)(ye)被應(ying)用在(zai)機器人控制,規劃以及決策等領(ling)(ling)域。離(li)線(xian)強(qiang)化(hua)(hua)學(xue)習(xi)由于(yu)其安全(quan)性,數據可復用性,以及預訓練的便捷性,使得其在(zai)機器人領(ling)(ling)域擁有(you)巨大前景(jing)。隨著基(ji)礎模型在(zai)視覺(jue)和語(yu)言領(ling)(ling)域的成(cheng)功,離(li)線(xian)強(qiang)化(hua)(hua)學(xue)習(xi)也(ye)(ye)成(cheng)為機器人控制基(ji)礎模型的潛在(zai)解決方案(an)。

針(zhen)對此(ci)類問(wen)題(ti),來自(zi) CMU 機(ji)器(qi)人研究所的在(zai)(zai)讀博士胡亞飛等人在(zai)(zai)提出(chu)的最新研究工(gong)作(zuo) OPERE 中,使用(yong)離線預訓練(lian)與在(zai)(zai)線自(zi)適應算法來學習狀態價值(zhi)函(han)數(shu),讓機(ji)器(qi)人可以在(zai)(zai)稀疏的外在(zai)(zai)獎勵下獲得更多信(xin)息。

最(zui)(zui)終的(de)結果也表明(ming),OPERE 在復雜的(de)場景(jing)中可以有效(xiao)提升移動(dong)機器人自主探(tan)索的(de)效(xiao)果。與其他最(zui)(zui)先進(jin)的(de) OPE 方法(fa)(fa)相比(bi),OPERE 算法(fa)(fa)實現了更好的(de)預(yu)測性(xing)能。同(tong)時,這也是首次在具有挑戰性(xing)的(de)地下和城市(shi)環境(jing)中的(de)機器人探(tan)索的(de)真實數據(ju)集上展示(shi)價(jia)值(zhi)函數預(yu)測的(de)工作(zuo)。

6月2日早10點,在(zai)「AI新(xin)青年講座」第(di)211中,CMU 機器人(ren)研究所在(zai)讀博士胡亞飛將主講《基(ji)于(yu)離線(xian)強(qiang)化學(xue)(xue)習和在(zai)線(xian)自適應(ying)學(xue)(xue)習的機器人(ren)自主探索》。

講者
胡(hu)亞飛(fei),CMU Robotics Institute在讀博士;主要研(yan)究方向為機器(qi)人感知(zhi)與決策,涉及深(shen)度(du)強化學習,運動規劃,機器(qi)人自(zi)主探索,視覺(jue)SLAM等問題。在計算機視覺(jue)和機器(qi)人領域頂(ding)會頂(ding)刊發表數篇論文(wen),并(bing)擔任審(shen)稿(gao)人。

第211講

主 題
《基(ji)于離線強化(hua)學(xue)習和在線自適應學(xue)習的機器(qi)人自主探(tan)索》

提 綱
1、離線強化學習在機器人領域應用
2、預訓練模型對機器人技術的影響
3、探索機器人控制的基礎模型
4、使用離線預訓練與在線自適應學習的機器人探索方法OPERE
5、OPERE在復(fu)雜場景中的真機測試

直 播 信 息
直播時間:6月2日10:00
直(zhi)播地(di)點:智東西公開課知識店鋪

成果
論文標題:《Off-Policy Evaluation with Online Adaptation for Robot Exploration in Challenging Environments》
論文地址://arxiv.org/abs/2204.03140
開源地(di)址://github.com/JeffreyYH/opere