智東西(公眾號:zhidxcom)
編譯 | 楊暢
編輯 | 李水青

智東西6月15日(ri)消息,據美國(guo)(guo)科技媒體Tech Xplore報道,麻省理工學院(yuan)、MIT-IBM沃(wo)森人工智能實驗室(MIT-IBM Watson AI Lab)和加州大學圣地亞哥分(fen)校的研究人員在今(jin)年(nian)5月的國(guo)(guo)際學習表征會議(The International Conference on Learning Representations)上公布(bu)了一款新(xin)的軟(ruan)體模擬仿真軟(ruan)件(jian)PlasticineLab,旨(zhi)在讓機器人進行更直觀地學習。

機器人可以解魔(mo)方,可以在(zai)火星崎嶇的地形中前(qian)行(xing),但是它(ta)們(men)很難完成(cheng)一些簡單的任(ren)務,比(bi)如(ru)搟面皮或者(zhe)拿起一雙筷子(zi)(zi)。即使有(you)海量(liang)數據、清晰的說明和大規模(mo)訓練,機器人在(zai)完成(cheng)孩子(zi)(zi)們(men)可以輕松(song)完成(cheng)的任(ren)務時還是存在(zai)困難。

研究(jiu)人員(yuan)通過將物理世(shi)界(jie)的(de)知識構建(jian)到模擬器中,希望能(neng)夠(gou)更輕(qing)松地(di)訓(xun)練機(ji)器人擺弄現實世(shi)界(jie)的(de)經常彎曲變(bian)形不能(neng)復(fu)原的(de)物體和材料。

在PlasticineLab中(zhong),機(ji)(ji)器(qi)人(ren)通(tong)(tong)過模擬操縱各(ge)種柔(rou)軟(ruan)的物體(ti)來感知學習如何(he)完(wan)成(cheng)一(yi)系列特定(ding)的任務。搟面杖測試(shi)中(zhong),目標(biao)是(shi)(shi)讓(rang)機(ji)(ji)器(qi)人(ren)通(tong)(tong)過按壓(ya)或滾動(dong)搟面杖壓(ya)平一(yi)塊面團;繩索測試(shi)中(zhong),是(shi)(shi)要(yao)機(ji)(ji)器(qi)人(ren)完(wan)成(cheng)將繩子(zi)(zi)纏繞到(dao)柱子(zi)(zi)上(shang);在筷子(zi)(zi)測試(shi)中(zhong),是(shi)(shi)要(yao)機(ji)(ji)器(qi)人(ren)用(yong)筷子(zi)(zi)夾起一(yi)根繩子(zi)(zi)并移(yi)動(dong)到(dao)目標(biao)位置。

難倒老外的筷子,機器人會使了!MIT新研究教機器人做細活

研究人(ren)員表示(shi)他(ta)們通過將現實(shi)世界中的(de)物理(li)知識(shi)嵌入模擬器來進(jin)(jin)行感(gan)知訓練,比在強(qiang)化(hua)(hua)學習(xi)(Reinforcement Learning)算法下(xia)進(jin)(jin)行感(gan)知學習(xi),可以讓(rang)機器人(ren)更快地完(wan)成這(zhe)(zhe)些(xie)和(he)其他(ta)任(ren)務。這(zhe)(zhe)也(ye)使研究人(ren)員能夠利用基于(yu)梯(ti)度下(xia)降(jiang)的(de)優化(hua)(hua)技(ji)術(shu)來找到(dao)最佳(jia)的(de)解(jie)決(jue)方案。

“將物理(li)學基本知識寫入模擬器(qi)中,可以(yi)使機(ji)器(qi)人(ren)學習過程更高效。”該研究的主(zhu)要負責人(ren)、前MIT-IBM沃森人(ren)工智能實驗室實習生(sheng)、現在是加州大學圣地亞哥分校博士生(sheng)的Zhiao Huang說:“這讓機(ji)器(qi)人(ren)對現實世(shi)界有更直(zhi)觀的感知,了解(jie)現實世(shi)界充滿有生(sheng)命的和可變(bian)形(xing)的物體。”

“機器(qi)人可(ke)能需要(yao)經過(guo)數千(qian)次迭代才能通(tong)過(guo)強化學習(xi)中的(de)(de)試錯(cuo)技術來掌(zhang)握一(yi)項任(ren)務,而這(zhe)種強化學習(xi)方法(fa)通(tong)常用(yong)于在模擬中訓練機器(qi)人。”該研(yan)究的(de)(de)資深(shen)作者,IBM研(yan)究員Chuang Gan說:“我們(men)通(tong)過(guo)補(bu)充一(yi)些物理知識可(ke)以更快完成(cheng)機器(qi)人的(de)(de)訓練,允許機器(qi)人使用(yong)基于梯度的(de)(de)規劃算法(fa)來學習(xi)。”

通(tong)過(guo)名為太極(Taichi)的(de)圖形編程語言(yan),研究人員將基(ji)本物理方程融入(ru)到PlasticineLab中。TaiChi和早期(qi)的(de)PlasticineLab模(mo)擬器乾坤(kun)(ChainQueen)都是(shi)由合作(zuo)者(zhe)Yuanming Hu開發的(de)。通(tong)過(guo)使用基(ji)于梯度的(de)規(gui)劃(hua)算法(fa),在(zai)PlasticineLab中機(ji)器人能夠不斷地將其(qi)目標與其(qi)在(zai)該(gai)點上所做(zuo)的(de)運動進行(xing)比較,從而更快地修正路線。

“與用于訓練(lian)神經網絡的技術相同,我(wo)們(men)可以(yi)通(tong)過反向傳播找到最佳解決方案(an)。”研究合作者、麻(ma)省理工博(bo)士(shi)生Tao Du說:“反向傳播為機器人提供(gong)了更新其(qi)所需的反饋,使機器人更快地實現(xian)其(qi)目標。”

這項工作是一(yi)項持續研究的一(yi)部分,旨在賦予機器人更多(duo)的常識,以便他(ta)們有(you)一(yi)天能夠在現實世(shi)界中做飯、打掃、疊衣服和執行(xing)其他(ta)日(ri)常的任務。

結語:當機器人“懂了”物理知識,能做的更多了

仿真(zhen)模擬軟件是開發和(he)評估技能學習算法的(de)主(zhu)要(yao)驅(qu)動(dong)力之(zhi)一,現有的(de)模擬環境(jing)軟件通常(chang)只能模擬剛體(ti)(ti)操(cao)作,PlasticineLab的(de)出現使模擬軟體(ti)(ti)操(cao)作成為(wei)可能。

機(ji)器(qi)(qi)人(ren)(ren)可以完成的(de)(de)事(shi)情越(yue)來(lai)越(yue)多(duo)(duo)了(le),無論是模仿人(ren)(ren)類動(dong)作(zuo)還(huan)是超越(yue)人(ren)(ren)類表(biao)現方面,都有(you)很(hen)多(duo)(duo)新(xin)進展。除了(le)科(ke)學(xue)(xue)家要懂物理(li)知識給機(ji)器(qi)(qi)人(ren)(ren)制造硬件外(wai)(wai)殼(ke)之外(wai)(wai),機(ji)器(qi)(qi)人(ren)(ren)進行機(ji)器(qi)(qi)學(xue)(xue)習訓練的(de)(de)數據中也融入物理(li)知識,來(lai)實現以前不(bu)能(neng)實現的(de)(de)動(dong)作(zuo)。可能(neng)人(ren)(ren)類看來(lai)很(hen)簡單(dan)的(de)(de)動(dong)作(zuo),要讓機(ji)器(qi)(qi)人(ren)(ren)完成并(bing)不(bu)容易(yi)。眾多(duo)(duo)科(ke)學(xue)(xue)家的(de)(de)努力讓機(ji)器(qi)(qi)人(ren)(ren)能(neng)做的(de)(de)更多(duo)(duo)了(le)。

來(lai)源(yuan):Tech Xplore