
智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 云鵬
智東西8月11日報道,在世界機器人大會上,阿里達摩院宣布開源其自研的 VLA(視覺-語言-動作) 模型RynnVLA-001-7B、世界理解模型RynnEC、以及機器人上下文協議RynnRCP,推動(dong)數據(ju)、模(mo)型和機(ji)器人(ren)的兼容適(shi)配(pei),打通具身智能開發全流(liu)程。
達摩院將MCP(模型上下文協議)理念引入具身智能,首次提出并開源RCP(Robotics Context Protocol)協議,推出一套完整的機器人服務協議和框架RynnRCP。它類似于一個“萬能連接器”,能夠打通(tong)從傳感(gan)器數(shu)據(ju)采集、模型(xing)推理到機器人動作執行的完整(zheng)工作流,目前已支持(chi)Pi0、GR00T N1.5等多(duo)款熱門模型(xing)以(yi)及SO-100、SO-101等多(duo)種機械(xie)臂。
RynnRCP是一套完整的機器人服務協議和框架,主要由兩個模塊組成:RCP框架和RobotMotion。
RCP目前實現的主要功能包括:提供機器人本體及相關傳感器能力的抽象,對外提供各種功能,并通過標準協議、不同的傳輸層和模型服務進行交互;RobotMotion作為云端推理與機器人本體控制之間的橋梁,將(jiang)離散的(de)低頻推理(li)命令實時轉換為高頻的(de)連續控制信號,驅(qu)動機器人完成(cheng)運(yun)(yun)動任(ren)務。此外(wai),它還配備了運(yun)(yun)動規(gui)劃與(yu)控制所(suo)需的(de)工具包,助力(li)具身(shen)智能融入(ru)物理(li)世界。
▲機器人上(shang)下文協議RynnRCP開源(yuan)頁面(mian)截圖
開源地址:
//github.com/alibaba-damo-academy/RynnRCP
RynnVLA-001是達(da)摩院(yuan)自研(yan)的(de)(de)基(ji)于(yu)視頻(pin)生成和人(ren)體軌(gui)跡預訓練的(de)(de)視覺-語言-動作模型,能夠從第一人(ren)稱視角的(de)(de)視頻(pin)中(zhong)學習人(ren)類(lei)的(de)(de)操作技能,隱式(shi)遷移到(dao)機器(qi)人(ren)手臂的(de)(de)操控上。
如(ru)下面動(dong)圖所示,當(dang)研發(fa)人員告(gao)訴機(ji)械臂把草莓(mei)放到手掌上,機(ji)械臂能夠理(li)解語言的(de)意(yi)思,隨(sui)后在一些物(wu)品中識別出(chu)草莓(mei),拿起并放到正確的(de)位置。
▲RynnVLA-001演(yan)示(shi)
研發人員在同一數(shu)據集上對(dui)基線(xian)進行了微(wei)調,以評(ping)估其性能。對(dui)比結果如下(xia)圖所示,RynnVLA-001在多(duo)項具體的(de)撿拾物(wu)品放(fang)置測評(ping)中都取得(de)了最高(gao)分成(cheng)績(ji)。
▲RynnVLA-001測評結果
研發團(tuan)隊(dui)提(ti)供(gong)了如(ru)何使用開發者自己的(de)LeRobot數據(第(di) 2 階(jie)段和第(di) 3 階(jie)段)對模型進行微(wei)調的(de)說(shuo)明,后續還將發布如(ru)何從零(ling)開始訓練模型的(de)說(shuo)明。
▲VLA模型RynnVLA-001開源頁面截(jie)圖
開源地址:
//github.com/alibaba-damo-academy/RynnVLA-001
世界理解模型RynnEC將多模態大語言模型引入具身世界,賦予了大模型理解物理世界的能力。該模型能夠從位置、功能、數量等11個維度全面解(jie)析(xi)場(chang)景(jing)中的物體(ti),并在復雜的室(shi)內環境中精準定位和分割目標(biao)物體(ti),建立連續的空間感知并支持靈活交互。
RynnEC是一種專為具身認知任務設計的視頻多模態大型語言模型(MLLM),如下圖所示,能夠對現實世界中幾乎無限的事物進行識別和認知分析。本次,達摩院推出了RynnEC-2B 模型、RynnEC-Bench和訓練代碼。
▲RynnEC演示
如下圖所示,RynnEC-2B在Direct Seg(直接分割)、Situational Seg(情境分割)、Material(材料)、State(狀態)、Surface(表面)等對象認知測試中超越了Gemini-2.5-Pro、Qwen2.5-VL-72B等頂尖模型,并在空間(jian)認(ren)知(zhi)測試中大幅超越了這些模型。
▲RynnEC-2B測(ce)評結果
聚焦RynnEC-Bench基準,其(qi)在(zai)兩個(ge)關(guan)鍵領域對(dui)模(mo)型進行評估:object cognition(對(dui)象(xiang)認知(zhi))和spatial cognition(空間(jian)認知(zhi)),評估總體(ti)22體(ti)現的認知(zhi)能力。
▲世界理解(jie)模型(xing)RynnEC開源頁面截圖
開源地址:
//github.com/alibaba-damo-academy/RynnEC
結語:打通機器人從感知到執行的完整鏈路
達摩院此次(ci)開源的“三件套(tao)”——貫通硬件的RynnRCP協議、擬人(ren)化(hua)操控的RynnVLA模(mo)型與理解(jie)物(wu)理世界的RynnEC模(mo)型,如同為具(ju)身智能(neng)開發者(zhe)提供了一(yi)套(tao)“樂高式工(gong)具(ju)包”。
它們通過標準(zhun)化(hua)(hua)連接、擬(ni)人化(hua)(hua)控制與空間認知三大(da)(da)突破,打通了(le)機器人從感知到執行的完整鏈路,有望在(zai)(zai)之后迭(die)代的過程中大(da)(da)幅降低開(kai)發門(men)檻,加速具身智能在(zai)(zai)工業、家庭(ting)等場景的規模化(hua)(hua)落地,讓機器人真(zhen)正(zheng)“看得懂世界,動(dong)得像人類”。