
智東西(公眾號:zhidxcom)
作者 |? 程茜
編輯 |? 心緣
稚(zhi)暉君(jun)的(de)人形機器人又雙叒叕進化了(le)!
智東西3月11日報道,今天,智元機器人正式發布最新全能探索機器人“團寵”——靈犀X2,智元機器人創始人兼CTO稚暉君稱,X2集運動、交互、作業能力為一體,是第一臺真正具備復雜交互能力的靈動機器人。
X2體重33.8千克(ke),全身(shen)28個自由度。靈犀(xi)(xi)X2的(de)命(ming)名寄予了他(ta)們對機器人的(de)憧憬(jing):希望它既靈動(dong)又犀(xi)(xi)利。
這一新“團寵”集三大能力為一體:支持高自由度運動能力的雙足人形機器人、搭載情感計算引擎的智能交互機器人、初步具備通用任務執行能力的具身機器人。
X2在運動方(fang)面(mian),能(neng)騎平衡車、滑板車、自(zi)行車;交互方(fang)面(mian),可以基于動作(zuo)、視覺、語音模型和人類實時(shi)自(zi)然交流;作(zuo)業能(neng)力方(fang)面(mian),擁有簡單任務的(de)泛(fan)化能(neng)力。
值得一提的是,為了讓機器人更像人,X2集成的多模態交互大模型硅光動語中的動作模塊,還讓其擁有了仿人的(de)小(xiao)動(dong)作,比如坐在椅(yi)子(zi)上(shang)晃腳(jiao)、走路擺(bai)手(shou)等。
作為B站百萬up主,這也是稚暉君時(shi)(shi)隔兩年(nian)的(de)首次重磅更新,他特意錄(lu)制了12分10秒的(de)視(shi)頻將X2從里到外介紹了個清楚。X2的(de)研發耗時(shi)(shi)三個月(yue),這條視(shi)頻準備時(shi)(shi)間長達一個月(yue)。
稚(zhi)暉君視頻B站播放(fang)量已(yi)超66萬。評論區的網友,一邊感慨看到了未來家用機器(qi)人(ren)的雛形、民用機器(qi)人(ren)真正(zheng)實用發(fa)展(zhan)方向,并預言這(zhe)(zhe)款(kuan)機器(qi)人(ren)“已(yi)經可以大(da)賣了”,另一邊有人(ren)在(zai)感慨“這(zhe)(zhe)種機器(qi)人(ren)大(da)規模發(fa)展(zhan)了,人(ren)類該怎么辦”。
一、像搭積木一樣攢硬件系統,讓機器人不再“鋼筋鐵骨”
研發人(ren)員在靈犀(xi)X2的(de)本(ben)體(ti)設計上下足了(le)功夫。
首先(xian)來看(kan)硬(ying)件系(xi)統(tong),智元機器人的研發(fa)人員讓(rang)其變(bian)得像搭(da)積木(mu)一樣簡單。
他們將機器人的硬件系統抽象成一系列可復制的核心組件,包括小腦控制器Xyber-Edge、域控制器Xyber-DCU、智能電源管理系統Xyber-BMS、核心關(guan)節模組Powerflow。
就像無人(ren)(ren)機愛好者們(men)通過(guo)集成(cheng)飛行控制(zhi)器(qi)這一(yi)(yi)核心組件(jian),自主組裝(zhuang)或定(ding)制(zhi)具備高(gao)智(zhi)能(neng)化、自動化功能(neng)的無人(ren)(ren)機系統(tong),開發(fa)者也能(neng)用這些核心組件(jian)快速搭建(jian)起一(yi)(yi)套可靠(kao)的人(ren)(ren)形(xing)機器(qi)人(ren)(ren)系統(tong),或者各種形(xing)態的人(ren)(ren)形(xing)機器(qi)人(ren)(ren)系統(tong),甚至是稚暉君(jun)一(yi)(yi)直鴿的“哪吒(zha)完全體”。
其次是機(ji)體材(cai)料(liao)選擇,與此前鋼(gang)筋鐵骨的(de)(de)機(ji)器人不同,X2皮膚(fu)軟(ruan)(ruan)軟(ruan)(ruan)的(de)(de)。
據透露,他們為X2嘗試了TPU、ETPU、EVA等各種材料,這些材料通常被用于鞋底減震緩沖,甚至還嘗試了美妝蛋,最終選定了親和(he)的柔性材料。
二、全身關節仿人體串聯結構,訓練早期像小朋友學走路
讓人(ren)形機器(qi)人(ren)能自如(ru)運動,需(xu)要(yao)靈(ling)活(huo)的(de)身體和強大(da)的(de)運控算法。
X2的原型機全身自由度28個,在機電關節設計上采用(yong)串(chuan)聯結(jie)構,沒有(you)使用(yong)任何一個并聯結(jie)構,能同(tong)時保證慣量上(shang)移和傳動鏈完全解耦。
傳統機(ji)(ji)(ji)器人(ren)常采用多連桿并(bing)聯(lian)機(ji)(ji)(ji)構(gou)(gou)以(yi)增(zeng)(zeng)強剛度,但會增(zeng)(zeng)加機(ji)(ji)(ji)械耦(ou)合和控制難度。串聯(lian)結構(gou)(gou)是類似(si)于人(ren)類骨(gu)骼結構(gou)(gou)的關(guan)節設計,可以(yi)降低(di)機(ji)(ji)(ji)器人(ren)的整體重量。
硬(ying)件拉滿,運控算法也(ye)要全面突破(po)。
當(dang)前足式機器人的(de)運動控制從傳統的(de)model-based的(de)方(fang)法(fa)轉向強(qiang)化(hua)學(xue)習,結合深度強(qiang)化(hua)學(xue)習和模仿學(xue)習算法(fa)的(de)優勢(shi),X2能像人一(yi)樣走路(lu)、能跑、能轉或者(zhe)跳一(yi)點小舞。
X2在視頻(pin)里跳起了(le)短(duan)視頻(pin)平(ping)臺熱門舞蹈“科目三”。
不過,X2前期的學習過程并不是(shi)一(yi)帆風順,稚暉(hui)君(jun)說:“教育小朋友總是(shi)需(xu)要一(yi)些耐心。”
訓練初期的X2學習跑偏(pian)實錄如下:
莫名奇妙(miao)學到了抽象(xiang)的走(zou)路方式,像螃(pang)蟹(xie)一(yi)樣(yang)橫(heng)著(zhu)走(zou)、跳著(zhu)往(wang)后蹦。
或者像小朋友一(yi)(yi)樣一(yi)(yi)言不合躺地上耍賴。
甚至(zhi)還有情緒激動 ,愛跺腳的機器人(ren)。
視(shi)頻還展(zhan)示了拿(na)著塑(su)料杠(gang)鈴鍛(duan)煉(lian)的X2。
最后,X2總算苦(ku)盡甘來(lai),擁有了更強(qiang)的運動智能水(shui)平——學會(hui)(hui)使用“懶人工具(ju)”。點(dian)滿(man)運動天(tian)賦的X2,學會(hui)(hui)了騎滑板車、平衡車。
甚至是難(nan)度更高的騎(qi)自行(xing)車:
這種數據驅動(dong)的(de)算(suan)法(fa)范(fan)式,使得(de)智能體能從每秒數萬(wan)次(ci)的(de)環境交(jiao)互和動(dong)作數據中突(tu)破運動(dong)智能的(de)瓶頸。
三、多模態交互大模型硅光動語,首臺具備復雜交互能力靈動機器人
雖然X2四肢發達,但其頭(tou)腦(nao)也并不簡單。
研究人員為其開發了一套基于Diffusion的生成式動作引擎,讓X2擁有了和人自然交互的能力。借助大語言模型,其為X2訓練(lian)了定制的多(duo)模態交(jiao)互大模型硅光(guang)動語(yu),光(guang)就是(shi)視覺、動是(shi)動作、語(yu)是(shi)語(yu)音,稚(zhi)暉君說,X2是(shi)第一臺真正具備復(fu)雜交(jiao)互能力(li)的靈(ling)動機器人。
通過(guo)邊緣側大腦端到端的(de)模型(xing)架構以及(ji)大量(liang)工程優化,X2擁(yong)有(you)毫秒級交(jiao)互反應,能通過(guo)人(ren)類的(de)面部表情和語音(yin)語調精準判斷情感(gan)狀態,并做出相應的(de)回(hui)應。稚暉(hui)(hui)君演(yan)示了(le)一個(ge)神奇的(de)“自己(ji)”和自己(ji)對話的(de)景象。X2使用稚暉(hui)(hui)君聲音(yin)進(jin)行訓(xun)練(lian),和他談論(lun)了(le)看電影、掉河(he)里該救誰的(de)世紀難題等。
視頻中(zhong),X2能自如聊天,接話時(shi)幾乎沒有(you)延遲,講(jiang)話時(shi)手部還會有(you)相應動作,在問(wen)到“這(zhe)些問(wen)題有(you)哪些是預先設(she)置的”,X2給(gei)出了“完全隨(sui)機”的回(hui)答(da)。
基于(yu)多模(mo)態交互大模(mo)型硅光動語(yu),X2可(ke)以通過視(shi)覺理解(jie)和認識世界。當稚暉君舉起X2的胳膊放到機器(qi)人(ren)面(mian)前(qian)時(shi),它準確識別(bie)出(chu)了(le)自(zi)己的胳膊還(huan)有材(cai)質。
它還能準確說出(chu)手機上(shang)的時間、識別出(chu)萬用表(biao)、讀出(chu)包裝盒上(shang)的使用說明書等。
硅光動語集成的(de)(de)動作模態,讓X2有(you)(you)了“生命感”,它像人一樣擁(yong)有(you)(you)了呼吸(xi)的(de)(de)韻律(lv)、好奇心、注(zhu)意力機制,還會在走路時伴隨(sui)一些仿人的(de)(de)小(xiao)動作。
甚至在人機交互方面,X2還可以與用(yong)戶進行遠程裸眼3D交流。
目前,智元機(ji)器人(ren)正在完善X2的思維模型(xing),結合(he)硅光(guang)動語大模型(xing),將Reaction-Agent作為(wei)情感計(ji)算引擎(qing),未來賦(fu)予機(ji)器人(ren)更多(duo)情緒表達的能力。
四、簡單任務能零樣本泛化,讓機器人入職“吉祥三保”
一個(ge)完美的(de)機械伙伴,除了(le)情(qing)緒價值,還(huan)需(xu)要(yao)泛(fan)化作(zuo)業的(de)能力(li)。
研究人員將操作智能的能力遷移到X2上,其本(ben)體支持柔性阻抗控制,能裝配包括(kuo)靈巧手(shou)在內的末端。
X2完成精細操作(zuo)也不在話(hua)下,再次上演了(le)“葡萄穿針”。
具身智能方面,智元機器人開源(yuan)了(le)業界最大的(de)具身真機和仿(fang)真數據集(ji)之一,提出RoboDual的大小腦(nao)系統(tong)架構以及(ji)基于ViLLA架構的基座大模型啟(qi)元(yuan)。
通過一腦多形的“啟元”大模型,X2初步具備簡單任務對操作物體的零樣本泛化能力,例如從貨架上取物(wu)品:
X2還能可在某(mou)些任務中實現多(duo)機協作(zuo),比如給(gei)同伴充電:
稚暉君談道,這使(shi)得機器(qi)人(ren)的能(neng)力(li)可以(yi)外溢到日常生活的方方面(mian)面(mian)實現機器(qi)人(ren)的“吉祥三保(bao)”,即保(bao)安、保(bao)姆(mu)、保(bao)潔,同步(bu)應用(yong)于教育、醫療等多個領域。
同時(shi),靈(ling)犀X2采(cai)用(yong)輕(qing)量(liang)化設計(ji),可模塊(kuai)化拓展,擁有完備(bei)的(de)二(er)次開(kai)發接口(kou),以及預訓(xun)練(lian)模型和(he)“采(cai)-訓(xun)-推”一(yi)站式方案,用(yong)戶(hu)可根(gen)據需求自由探索,為(wei)康(kang)養(yang)、服務、家庭陪伴等各類(lei)場(chang)景打(da)造應用(yong),實(shi)現“人(ren)形(xing)機器人(ren)人(ren)人(ren)玩(wan)”。
結語:X2展現家用機器人的實用主義雛形
盡(jin)管從人形機(ji)器人的各項能(neng)力(li)(li)來看,X2并不(bu)是最頂尖的,但(dan)其展現出的已有能(neng)力(li)(li)正是未(wei)來人形機(ji)器人走入家庭(ting),或者(zhe)走入各行各業(ye)需要具備的基本能(neng)力(li)(li)。
不論(lun)從(cong)硬件系統、軟件算法還是關節結(jie)構來看,智元機器人都考慮到了人形機器人大規模落地普及的趨勢。
未(wei)來,基于(yu)人形機器(qi)人在(zai)(zai)運(yun)動(dong)、作業和交互方面的能力,或許可以在(zai)(zai)不同場景通過模塊化設計(ji),讓人形機器(qi)人深(shen)入陪伴(ban)、教育、清潔等諸多場景。