
智東西(公眾號:zhidxcom)
文 | Lina
智(zhi)東(dong)西5月17日消息,今天,OpenAI宣布了一(yi)(yi)種新型算(suan)法(fa):“一(yi)(yi)次(ci)性模擬學(xue)習(xi)(one-shot imitation learning)”,當人類(lei)在VR中(zhong)演示一(yi)(yi)次(ci)某個動作后,機(ji)器通過(guo)學(xue)習(xi)這一(yi)(yi)動作就可以執(zhi)行(xing)出(chu)相同的結果。
OpenAI是Elon Musk于2015年12月宣布成立的非盈利AI項目,科研人員會將大部分研究成果開源共享;主要關注增強學習和無監督學習——谷歌此前(qian)名(ming)聲大噪的(de)圍(wei)棋(qi)程序AlphaGo用的(de)就(jiu)是(shi)增強(qiang)學習(xi);而無監督學習(xi)需要機器處理(li)大量沒有標記的(de)數據,自(zi)己找到(dao)區分(fen)不同數據子集、集群、或者(zhe)相似圖像(xiang)(xiang)的(de)辦法,有點像(xiang)(xiang)嬰(ying)兒(er)學習(xi)世界的(de)方式,一直被視作(zuo)人工智能的(de)真正潛力釋放點。
卷積神經(jing)網(wang)絡之父Yann LeCun有一(yi)個經(jing)典比(bi)喻:如果(guo)人工智能是(shi)一(yi)塊蛋(dan)(dan)糕,增(zeng)強(qiang)學習(Reinforcement Learning)就是(shi)蛋(dan)(dan)糕上的一(yi)粒櫻桃(tao),而監(jian)督(du)學習(Supervised Learning)是(shi)蛋(dan)(dan)糕外的一(yi)層糖(tang)霜(shuang),但無監(jian)督(du)學習(Unsupervised Learning)才是(shi)蛋(dan)(dan)糕本身(shen)。目前我們只知道如何制作糖(tang)霜(shuang)和(he)櫻桃(tao),卻不知道如何做(zuo)蛋(dan)(dan)糕。
一次性模擬學習
OpenAI宣布的(de)這種新型算(suan)法“一(yi)次性(xing)模擬學習(one-shot imitation learning)”指的(de)是,當(dang)人類(lei)在VR中(zhong)演示一(yi)次某個動(dong)作(zuo)后,比如(ru)將桌面藍(lan)色(se)的(de)小盒(he)子疊放在紅色(se)小盒(he)子上這個動(dong)作(zuo),機(ji)器通(tong)過學習這一(yi)動(dong)作(zuo)就可以執行出相同(tong)的(de)結果(guo),并且(qie)不(bu)論桌面盒(he)子擺(bai)放的(de)順序如(ru)何,機(ji)器都可以準確執行。
這(zhe)套學習系統由兩個神經網(wang)(wang)絡(luo)組成:一(yi)個視覺(jue)網(wang)(wang)絡(luo)(vision network)和一(yi)個模仿網(wang)(wang)絡(luo)(imitation network)。
視(shi)覺(jue)網絡(vision network)獲得的圖(tu)(tu)像(xiang)來自機器人的攝像(xiang)機,此前(qian),這個視(shi)覺(jue)網絡經過數(shu)十萬張模擬圖(tu)(tu)像(xiang)的訓練(lian),每張都(dou)具有不同紋理、光影效(xiao)果等(但是從未使用真實(shi)圖(tu)(tu)像(xiang)進(jin)行(xing)訓練(lian));
模擬網絡(imitation network)則(ze)必須生成一個(ge)與VR演示動作一致的(de)執行(xing)步驟,并(bing)且推斷出(chu)該(gai)任(ren)務(wu)的(de)意圖,使得(de)在初(chu)始(shi)設定變更時(shi)(如盒子(zi)的(de)擺放順序調(diao)亂時(shi))依(yi)舊可以找到(dao)藍(lan)色的(de)盒子(zi)并(bing)把(ba)它(ta)疊在紅盒子(zi)上(shang)。
目(mu)前,學(xue)術界與(yu)產(chan)業界都在尋找使用各種(zhong)訓(xun)練(lian)機(ji)器人的(de)(de)手法,比如英偉達(da)CEO黃(huang)仁(ren)勛在上(shang)周的(de)(de)GTC大會上(shang)也宣布了一款(kuan)名為ISAAC的(de)(de)增強學(xue)習世(shi)(shi)界模擬(ni)器,創造出一個完全虛擬(ni)的(de)(de)、專為訓(xun)練(lian)機(ji)器人而打(da)造的(de)(de)世(shi)(shi)界。
這是一個遵循物理法則但不遵循時間法則的世界,在現實生活中,你想要訓練一臺機器學會打冰球,你要將這個冰球放在機器前面,一遍一遍地教會它;而在虛擬世界里,機器可以在一秒內重復眾多次這樣的動作,而且你還可以同時訓練一堆機器學習打球,然后找到里面最聰明的一個,將它的“大腦”程序復制出來,創建一堆同樣的機器再繼續訓練篩選。(多人VR交互、30億刀的顯卡、神秘ISAAC黑科技……干貨滿滿的GTC 2017一文看盡)