智東西(公眾號:zhidxcom)
編譯 |? 陳駿達
編輯 |? Panken

智東西8月1日消息,7月15日,迪士尼公布了一篇16頁的論文,詳細介紹了他們新型雙足機器人BD-X的主要設計和控制方法。這個機器人外形酷似《機器人總動員》里的“瓦力”,靈感源自于《星球大戰》中的同名機器人。其硬件(jian)采用標準零件和3D打印外殼,腿部有5個自由度,通過強化學習掌握了動畫人物的行走姿態,動作靈巧流暢,還鍛煉出跨越復雜地形的能力

在不久(jiu)前的(de)IEEE活動上,這個迪(di)士尼機器(qi)人(ren)還跟(gen)杭州宇樹科技(ji)(ji)的(de)機器(qi)狗面(mian)對面(mian)炫技(ji)(ji)斗(dou)舞(wu)。

迪士尼是怎么做雙足機器人的?

▲迪士(shi)尼BD-X機器人與宇樹Go2互動(圖(tu)源(yuan):YouTube)

更早之(zhi)前,它在今年3月的英偉達GTC大會上作(zuo)為驚喜嘉賓壓軸出場,與(yu)英偉達創始人兼CEO黃仁勛親密互動,還搖頭晃腦(nao)撒嬌賣萌。

迪士尼是怎么做雙足機器人的?

▲酷似瓦力的BD-X機(ji)器(qi)人與黃(huang)仁(ren)勛在GTC大會上互動(圖源:英偉達(da))

這一機器人以娛樂為目的的設計理念極大降低(di)了硬件(jian)復雜度與(yu)成本。但(dan)迪士尼為這臺機器(qi)人加(jia)上了額外的揚聲器(qi)、天線、頭燈(deng)和眼睛,這讓它(ta)能以更多的方式表現(xian)自己的“情(qing)緒(xu)”。

雖然BD-X看上去活靈活現,似乎真的能理解人們說的話,但其實它并不具備主動的感知和行為能力。它的(de)一(yi)舉(ju)一(yi)動都是通(tong)過人工操(cao)作實現的(de)。這(zhe)臺機(ji)器人配備了(le)來自英偉達的(de)機(ji)載計算機(ji)Jetson,能將(jiang)人類指令與訓練(lian)時積累(lei)的(de)經驗結合(he),輸出最終的(de)行動指令。

迪士尼是怎么做雙足機器人的?

▲論文首頁截圖(圖源:迪士尼)

論文地(di)址(zhi)://la.disneyresearch.com/publication/design-and-control-of-a-bipedal-robotic-character/

一、機械設計簡單有效,服務娛樂與創意目的

迪士尼在設計BD-X機器人時選擇了與大多數企業都不同的路徑。他們并不追求最好、最強大的機械設計,而是選擇了能夠滿足創意和娛樂目的的簡單設計。研究者成功集成了動畫內容、設計、控制、實時(shi)(shi)操縱等元素,并用不到1年(nian)的(de)(de)時(shi)(shi)間(jian)實現(xian)了定(ding)制機器人角色的(de)(de)快速開發。

這一(yi)機器人主要使用了市(shi)面上的(de)標準化零件,而外(wai)殼則是3D打印的(de),但經過軟件調試后,仍然可以在降低硬(ying)件復雜度的(de)前提下實現不錯的(de)表現。

迪士尼是怎么做雙足機器人的?

▲迪(di)士(shi)(shi)尼BD-X機器(qi)人設計圖(圖源:迪(di)士(shi)(shi)尼)

這一雙足機器人的總重為15.4公斤,高度為0.66米。每條腿上有5個自由度,而頭部與頸部則有4個自由度。腿部的高自由度使得這一機器人能完成大幅度的動作,而頭頸部的高自由度則讓機器(qi)人可以通(tong)過動(dong)作表現各種妙趣橫生、情感豐富(fu)的動(dong)作。

迪士尼是怎么做雙足機器人的?

▲BD-X機器(qi)人在迪士(shi)尼(ni)樂(le)園亮相,畫面最右側的(de)二人為(wei)操作員(yuan)(圖源:YouTube)

迪士(shi)尼的(de)工程(cheng)師還通過(guo)巧妙的(de)設計讓機(ji)(ji)器(qi)(qi)人(ren)能在沒(mei)有膝蓋彎曲(qu)執行(xing)器(qi)(qi)的(de)情況下,依賴與地面的(de)接觸實現(xian)逼(bi)真的(de)膝蓋彎曲(qu)效果。這一機(ji)(ji)器(qi)(qi)人(ren)配備一塊(kuai)微控制器(qi)(qi)驅(qu)動的(de)通訊板,能以600赫茲的(de)頻(pin)率實現(xian)內置電腦、執行(xing)器(qi)(qi)和慣性(xing)測量單(dan)元之間(jian)(jian)的(de)通訊。1塊(kuai)可拆(chai)卸電池為(wei)機(ji)(ji)器(qi)(qi)人(ren)供電,能維持至少(shao)1個小時(shi)的(de)運轉時(shi)間(jian)(jian)。

有趣的是,除了頭部和軀干上配備的揚聲器,這臺機器人還有具備執行器的天線、能點亮的眼睛和一盞頭燈。這些設備為機器人提供了更多表現情緒的方式,同時其控制和驅動都是相對獨立的,因此可以選(xuan)擇是否搭載(zai)這(zhe)些(xie)功能。

二、利用強化學習掌握動畫動作,在英偉達Isaac Gym中模擬訓練

為了給機器人動(dong)作提供一個(ge)清晰的框(kuang)架,迪士(shi)尼(ni)的研究人員(yuan)將機器人的動(dong)作分(fen)為以下3類。

1、持(chi)續(xu)性動(dong)作(zuo):沒有明確(que)的起點和終點。機器(qi)人保持(chi)平衡,并(bing)對測量(liang)到的狀態和連續(xu)的控制(zhi)輸(shu)入流做出響應。

2、周(zhou)期(qi)性(xing)運(yun)動:有一個周(zhou)期(qi)性(xing)的相位信號傳遞(di)給策略。在這種模式(shi)下,相位信號無限循環。

3、偶發性運動(dong):有預定的持續(xu)時間。策略(lve)接收單調遞增的相位(wei)信號(hao),一旦運動(dong)結束,就(jiu)會強制過渡到新(xin)的運動(dong)。

迪士尼是怎么做雙足機器人的?

▲BD-X機器人的(de)3種運(yun)動類型(圖(tu)源:迪士尼)

機器人的控制策略是機器人學中的重要概念,指的是將機器人的狀態映射為動作或電機命令的函數,使機器人能實(shi)現預期的行(xing)為和任務(wu)。

研究人(ren)員讓BD-X機器(qi)人(ren)通(tong)過強化(hua)學習的方(fang)式掌握了多種(zhong)控制策略,分(fen)別針對上述3種(zhong)類型的動(dong)作。

根據機器人的CAD模型,迪士尼的研究人員構建出了這一機器人的準確物理形態、執行器和它與環境的互動,并通過英偉達的機器人訓練平臺Isaac Gym模擬出(chu)這一機(ji)器人(ren)的(de)剛體(ti)動(dong)力(li)學特(te)征。研究(jiu)人(ren)員還通過定制的(de)執行器模型進一步模擬了這一機(ji)器人(ren)的(de)完整動(dong)力(li)學特(te)征。

迪士尼是怎么做雙足機器人的?

▲BD-X模(mo)擬訓練系統(圖源:迪士尼(ni))

BD-X機器人的(de)(de)動(dong)作(zuo)是(shi)根據動(dong)畫內容學習的(de)(de)。迪士(shi)尼的(de)(de)研究人員(yuan)提(ti)取了動(dong)畫中(zhong)人物的(de)(de)特定動(dong)作(zuo)指標,如軀干的(de)(de)全局(ju)位置、關節的(de)(de)位置和矢量等信息,這(zhe)些信息將用來訓練(lian)這(zhe)一BD-X機器人模仿動(dong)畫中(zhong)的(de)(de)動(dong)作(zuo)。

在Isaac Gym的模擬訓練中,機器人會收到強化學習系統的獎勵和懲罰。這一系統會考慮動作與動畫人物的相似度動作的規范程度(如有無關節扭曲、動作是否流暢)以及機器人是否生存(“死亡”被定(ding)義為頭和軀干與地面接(jie)觸,或(huo)頭和軀干碰撞(zhuang)),并給出相應的獎懲。

訓練過程中,系統還會模擬出隨機的擾動、牽引力還有不同的地貌,這提升了機器人的魯棒性(Robustness,指抗干擾性或穩(wen)定性)。

三、并無主動感知和行動能力,通過復雜控制器實現運動

迪士尼的(de)研究人員(yuan)稱,在發(fa)布這(zhe)(zhe)(zhe)篇論文時(shi),BD-X機(ji)器(qi)(qi)人已經有過(guo)累計10小時(shi)的(de)公開(kai)展示運(yun)行時(shi)間,在這(zhe)(zhe)(zhe)10小時(shi)里這(zhe)(zhe)(zhe)一(yi)機(ji)器(qi)(qi)人表現完美,一(yi)次都沒有摔(shuai)倒。許多觀眾都被這(zhe)(zhe)(zhe)一(yi)機(ji)器(qi)(qi)人可愛(ai)的(de)外表吸引(yin),而未注意到這(zhe)(zhe)(zhe)一(yi)機(ji)器(qi)(qi)人的(de)操(cao)縱者。

實際上,BD-X機器人并無任何主動的行為和感知能力,其(qi)動(dong)(dong)作都(dou)是通(tong)過(guo)專(zhuan)業人員操縱(zong)一(yi)(yi)個(ge)復雜(za)的(de)(de)控制器實現的(de)(de)。在運行期間,操作員可以使(shi)用直觀(guan)的(de)(de)遙控互動(dong)(dong)界面(mian)控制這一(yi)(yi)機器人。這一(yi)(yi)操縱(zong)設備較為復雜(za),有2個(ge)搖桿、2塊路徑板,正反面(mian)總計有十幾(ji)個(ge)按鍵(jian)。

迪士尼是怎么做雙足機器人的?

▲BD-X通過控制器實現靈動(dong)的動(dong)作(zuo)(圖源(yuan):迪(di)士尼(ni))

在虛(xu)擬訓練(lian)結束(shu)后,神經控制(zhi)策略的(de)權(quan)重(zhong)被(bei)凍結,策略網(wang)絡被(bei)部署到機器(qi)人(ren)的(de)機載計算機Jetson上。部署后的(de)控制(zhi)策略和(he)低層次控制(zhi)器(qi)直接與機器(qi)人(ren)的(de)硬件交互,還(huan)能融入(ru)慣(guan)性測量(liang)單元和(he)執(zhi)行器(qi)的(de)測量(liang)數據。

機(ji)器人(ren)內置的(de)動畫引擎能(neng)(neng)自動將(jiang)操作員(yuan)輸入的(de)指令,與機(ji)器人(ren)內置的(de)策略控制(zhi)命(ming)令、展示(shi)功(gong)能(neng)(neng)信號(hao)(天線、眼睛、頭燈的(de)控制(zhi)信號(hao))和聲音信號(hao)結合起(qi)來,為控制(zhi)策略生(sheng)成最終指令。

迪士尼是怎么做雙足機器人的?

▲操作員在(zai)英(ying)偉達(da)GTC 2024的后臺(tai)調(diao)試BD-X機(ji)器(qi)人(圖(tu)源(yuan):YouTube)

人(ren)工操縱指(zhi)令和(he)內置策略(lve)控制命(ming)令的(de)結(jie)合能(neng)避免機(ji)器人(ren)出(chu)現(xian)訓練過程中(zhong)研究人(ren)員希望(wang)規避的(de)動(dong)作,如摔倒、動(dong)作僵硬不流暢等等。

迪士尼是怎么做雙足機器人的?

▲BD-X機器人展現出很強的魯棒性(xing),能(neng)在多種復雜地面情況下保持(chi)穩定(圖源:迪(di)士尼(ni))

展示功能和音頻是機器人的受控元素,在表現角色方面起著關鍵作用,但不會影響系統的動態。它們的(de)行為通過動(dong)畫(hua)引擎發出(chu)的(de)動(dong)畫(hua)信號(hao)和狀態反(fan)饋與(yu)機(ji)器(qi)人的(de)運(yun)動(dong)同步。

結語:AI讓動畫人物走進現實,“不實用”的機器人也有價值

其實(shi)迪(di)士尼是機(ji)器人領域的(de)(de)(de)資深(shen)玩家,從上世(shi)(shi)紀(ji)60年(nian)代以來他們(men)就一直深(shen)耕機(ji)器人相關研究,并(bing)且在(zai)迪(di)士尼樂(le)園中嘗試(shi)部署(shu)他們(men)的(de)(de)(de)研究成果,探索讓動畫(hua)人物走(zou)進現實(shi)世(shi)(shi)界(jie)的(de)(de)(de)各種方式(shi)和場景。

迪士尼是怎么做雙足機器人的?

▲迪(di)士(shi)(shi)尼過去在機器人領(ling)域(yu)的相關研究(圖源:迪(di)士(shi)(shi)尼)

AI技術(shu)的(de)發展(zhan)讓(rang)機(ji)器(qi)人(ren)的(de)一(yi)舉一(yi)動(dong)(dong)都更為逼真自然(ran),而(er)強化學習讓(rang)專業動(dong)(dong)畫師制作(zuo)的(de)人(ren)物動(dong)(dong)作(zuo)在現(xian)實(shi)中落地。雖(sui)然(ran)BD-X機(ji)器(qi)人(ren)并(bing)不(bu)像其(qi)它(ta)雙足機(ji)器(qi)人(ren)那樣能(neng)進工(gong)廠、上流水線,但(dan)我們也樂見娛(yu)樂目的(de)的(de)機(ji)器(qi)人(ren)技術(shu)進一(yi)步發展(zhan),讓(rang)普通人(ren)也能(neng)享受到機(ji)器(qi)人(ren)帶來(lai)的(de)快樂。

來源:迪士尼