「AI新(xin)青(qing)年講座」將邀(yao)請世界頂尖AI研究機(ji)構和大學的科研新(xin)青(qing)年,主講他(ta)們在計(ji)算機(ji)視覺、機(ji)器學習(xi)等人(ren)工智能領域(yu)的最新(xin)重要(yao)研究成果(guo)。

AI新(xin)(xin)青年(nian)是加速人(ren)工智(zhi)能(neng)(neng)(neng)前沿研究的(de)新(xin)(xin)生(sheng)力量(liang)。AI新(xin)(xin)青年(nian)的(de)視頻講解(jie)和(he)直播答(da)疑,將(jiang)可(ke)以幫助大家(jia)增進對人(ren)工智(zhi)能(neng)(neng)(neng)前沿研究的(de)理解(jie),相(xiang)應(ying)領(ling)域的(de)專業知識(shi)也能(neng)(neng)(neng)夠得以積累加深。同時,通過與AI新(xin)(xin)青年(nian)的(de)直接交流,大家(jia)在(zai)AI學習和(he)應(ying)用AI的(de)過程中(zhong)遇到的(de)問題(ti),也能(neng)(neng)(neng)夠盡快解(jie)決(jue)。

有興趣(qu)分享學術成果的(de)朋友,可以與智東西公開課(ke)教研團(tuan)隊進行郵件(jian)(class@sanyasheying.cn)聯系。

機械(xie)臂強化(hua)學習近(jin)年來發展迅速(su),從(cong)運動規劃、抓取放(fang)置到零件裝配,都涌現(xian)了大量研(yan)究成果。盡(jin)管存在數據效率、交互安(an)全、sim2real?gap 等多方面的(de)問題,強化(hua)學習以其智(zhi)能決策的(de)特點在機械(xie)臂領域依然(ran)大有應用前景。

機械臂(bei)強(qiang)化學(xue)習的(de)(de)任務中,獎勵(li)函(han)數(shu)起著至關重要的(de)(de)作(zuo)(zuo)用。為(wei)(wei)了達(da)到(dao)所需的(de)(de)策略,設計合適的(de)(de)獎勵(li)函(han)數(shu)通常需要大量(liang)的(de)(de)領域專業知識以及反復試驗。來自加(jia)州(zhou)大學(xue)伯(bo)克利分校(xiao)的(de)(de)吳崢博(bo)士(shi)等人,為(wei)(wei)了最大限度地(di)減少為(wei)(wei)接觸豐(feng)富的(de)(de)操作(zuo)(zuo)任務設計獎勵(li)函(han)數(shu)所涉及的(de)(de)工作(zuo)(zuo)量(liang),提(ti)出了一種能夠從(cong)機器人的(de)(de)高維觀察(如圖像和觸覺反饋)中提(ti)取密(mi)集獎勵(li)函(han)數(shu)的(de)(de)方法DREM(Dense Rewards for Multimodal Observations)。

與(yu)(yu)最先(xian)進的(de)高維獎勵學習(xi)(xi)方(fang)法相(xiang)比(bi),DREM不利用(yong)對抗(kang)性訓練,因此不容易(yi)出現(xian)相(xiang)關(guan)的(de)訓練不穩定性。相(xiang)反,DREM通(tong)過以自我(wo)監督的(de)方(fang)式估計任務(wu)進度來學習(xi)(xi)獎勵。最后,通(tong)過7自由度機械臂在釘(ding)孔和(he)USB插(cha)入兩個(ge)接(jie)觸豐富的(de)操作任務(wu)上的(de)實現(xian),證明(ming)(ming)了其有效性和(he)效率。實驗結果也表明(ming)(ming),與(yu)(yu)基(ji)線相(xiang)比(bi),用(yong)學習(xi)(xi)獎勵函數訓練的(de)策(ce)略具有更(geng)好的(de)性能(neng)和(he)更(geng)快(kuai)的(de)收斂速(su)度。

7月1日早10點,「AI新(xin)青年講座」第132講,加州大學伯(bo)克(ke)利分校在讀博士吳崢將主講《基于密集獎勵的強(qiang)化學習及在機械臂操作(zuo)上的應用》。

講者
吳(wu)崢,加(jia)州大學(xue)(xue)伯克利分校在讀博士;本科畢業于上(shang)(shang)海交通大學(xue)(xue);目前主要研究(jiu)方向為基于機器學(xue)(xue)習的(de)工業裝配任(ren)務,曾在ICRA, IROS, ICLR, Science Robotics等會議期刊(kan)上(shang)(shang)發表(biao)論文。

第132講
主 題
《基于密(mi)集獎勵的(de)強化學習及(ji)在機械臂操(cao)作上的(de)應用》

提 綱
1、機械臂接觸豐富操作任務的介紹
2、傳統強化學習獎勵學習方法的局限性
3、基于任務進度從多模態輸入中學習獎勵的方法
4、在(zai)機(ji)械(xie)臂操(cao)作(zuo)任務上(shang)的應用

直 播 信 息
直播時間:7月1日10:00
直播地(di)點:智東西(xi)公(gong)開課知識(shi)店(dian)鋪

成果
DREM:《Learning Dense Rewards for Contact-Rich Manipulation Tasks》
論文鏈接://arxiv.org/pdf/2011.08458.pdf