马斯克又来搞事情 OpenAI要用VR训练机器人

智東西（公眾號：zhidxcom）
文 | Lina

智(zhi)東(dong)西5月17日消息，今天，OpenAI宣布了一(yi)(yi)種新型算(suan)法(fa)：“一(yi)(yi)次(ci)性模擬學(xue)習(xi)(one-shot imitation learning)”，當人類(lei)在VR中(zhong)演示一(yi)(yi)次(ci)某個動作后，機(ji)器通過(guo)學(xue)習(xi)這一(yi)(yi)動作就可以執(zhi)行(xing)出(chu)相同的結果。

OpenAI是Elon Musk于2015年12月宣布成立的非盈利AI項目，科研人員會將大部分研究成果開源共享；主要關注增強學習和無監督學習——谷歌此前(qian)名(ming)聲大噪的(de)圍(wei)棋(qi)程序AlphaGo用的(de)就(jiu)是(shi)增強(qiang)學習(xi)；而無監督學習(xi)需要機器處理(li)大量沒有標記的(de)數據，自(zi)己找到(dao)區分(fen)不同數據子集、集群、或者(zhe)相似圖像(xiang)(xiang)的(de)辦法，有點像(xiang)(xiang)嬰(ying)兒(er)學習(xi)世界的(de)方式，一直被視作(zuo)人工智能的(de)真正潛力釋放點。

卷積神經(jing)網(wang)絡之父Yann LeCun有一(yi)個經(jing)典比(bi)喻：如果(guo)人工智能是(shi)一(yi)塊蛋(dan)(dan)糕，增(zeng)強(qiang)學習（Reinforcement Learning）就是(shi)蛋(dan)(dan)糕上的一(yi)粒櫻桃(tao)，而監(jian)督(du)學習（Supervised Learning）是(shi)蛋(dan)(dan)糕外的一(yi)層糖(tang)霜(shuang)，但無監(jian)督(du)學習（Unsupervised Learning）才是(shi)蛋(dan)(dan)糕本身(shen)。目前我們只知道如何制作糖(tang)霜(shuang)和(he)櫻桃(tao)，卻不知道如何做(zuo)蛋(dan)(dan)糕。

一次性模擬學習

OpenAI宣布的(de)這種新型算(suan)法“一(yi)次性(xing)模擬學習(one-shot imitation learning)”指的(de)是，當(dang)人類(lei)在VR中(zhong)演示一(yi)次某個動(dong)作(zuo)后，比如(ru)將桌面藍(lan)色(se)的(de)小盒(he)子疊放在紅色(se)小盒(he)子上這個動(dong)作(zuo)，機(ji)器通(tong)過學習這一(yi)動(dong)作(zuo)就可以執行出相同(tong)的(de)結果(guo)，并且(qie)不(bu)論桌面盒(he)子擺(bai)放的(de)順序如(ru)何，機(ji)器都可以準確執行。

這(zhe)套學習系統由兩個神經網(wang)(wang)絡(luo)組成：一(yi)個視覺(jue)網(wang)(wang)絡(luo)(vision network)和一(yi)個模仿網(wang)(wang)絡(luo)(imitation network)。

視(shi)覺(jue)網絡(vision network)獲得的圖(tu)(tu)像(xiang)來自機器人的攝像(xiang)機，此前(qian)，這個視(shi)覺(jue)網絡經過數(shu)十萬張模擬圖(tu)(tu)像(xiang)的訓練(lian)，每張都(dou)具有不同紋理、光影效(xiao)果等（但是從未使用真實(shi)圖(tu)(tu)像(xiang)進(jin)行(xing)訓練(lian)）；

模擬網絡(imitation network)則(ze)必須生成一個(ge)與VR演示動作一致的(de)執行(xing)步驟，并(bing)且推斷出(chu)該(gai)任(ren)務(wu)的(de)意圖，使得(de)在初(chu)始(shi)設定變更時(shi)（如盒子(zi)的(de)擺放順序調(diao)亂時(shi)）依(yi)舊可以找到(dao)藍(lan)色的(de)盒子(zi)并(bing)把(ba)它(ta)疊在紅盒子(zi)上(shang)。

目(mu)前，學(xue)術界與(yu)產(chan)業界都在尋找使用各種(zhong)訓(xun)練(lian)機(ji)器人的(de)(de)手法，比如英偉達(da)CEO黃(huang)仁(ren)勛在上(shang)周的(de)(de)GTC大會上(shang)也宣布了一款(kuan)名為ISAAC的(de)(de)增強學(xue)習世(shi)(shi)界模擬(ni)器，創造出一個完全虛擬(ni)的(de)(de)、專為訓(xun)練(lian)機(ji)器人而打(da)造的(de)(de)世(shi)(shi)界。

馬斯克又來搞事情 OpenAI要用VR訓練機器人

這是一個遵循物理法則但不遵循時間法則的世界，在現實生活中，你想要訓練一臺機器學會打冰球，你要將這個冰球放在機器前面，一遍一遍地教會它；而在虛擬世界里，機器可以在一秒內重復眾多次這樣的動作，而且你還可以同時訓練一堆機器學習打球，然后找到里面最聰明的一個，將它的“大腦”程序復制出來，創建一堆同樣的機器再繼續訓練篩選。（多人VR交互、30億刀的顯卡、神秘ISAAC黑科技……干貨滿滿的GTC 2017一文看盡）

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一次性模擬學習

相關推薦