智東西(公眾號:zhidxcom)
作者 |? 智東西編輯部

3月(yue)29日(ri),智源(yuan)研究院在2025中關村(cun)論(lun)壇“未(wei)來人(ren)工智能(neng)先鋒(feng)論(lun)壇”上發(fa)布首個跨(kua)本(ben)體具身(shen)大(da)小(xiao)腦協作框架RoboOS與(yu)開源(yuan)具身(shen)大(da)腦RoboBrain,可實現(xian)跨(kua)場景多任務輕量化快速(su)部(bu)署與(yu)跨(kua)本(ben)體協作,推動單機(ji)智能(neng)邁(mai)向(xiang)群體智能(neng),為構建具身(shen)智能(neng)開源(yuan)統一生(sheng)態加速(su)場景應用(yong)提供底層(ceng)技(ji)術支持。

開源鏈接:

具身多模(mo)態大腦模(mo)型RoboBrain

Github:

Gitee:

Huggingface:

為機器人操作任務設計的高質量異構數據集ShareRobot

GitHub:

Gitee:

Huggingface:?

一、增強長程操作任務能力,打造感知-認知-決策-行動閉環

在具身場景中,長程操作任務是機器人執行復雜任務的核心能力之一。具身大腦RoboBrain融合了機器人任務規劃、可操作區域感知、軌跡預測的三維(wei)能(neng)力,通過將抽象指(zhi)令映(ying)射為具(ju)象動作序(xu)列(lie),增(zeng)強長程(cheng)操(cao)作任務的能(neng)力。

邁向群體智能 | 智源發布首個跨本體具身大小腦協作框架與開源具身大腦

RoboBrain由三個模塊組成:用于任務規劃的基座模型(xing)、用于可操作區域感知的A-LoRA模(mo)塊和用于軌跡預測的T-LoRA模塊。在推(tui)理時,模型(xing)首(shou)先感知(zhi)(zhi)視覺輸入,并將輸入指(zhi)令分(fen)解為一(yi)系列可執行的(de)子任務(wu),然(ran)后執行可操作(zuo)(zuo)區(qu)域感知(zhi)(zhi)和(he)軌(gui)跡預(yu)測。RoboBrain采(cai)用多階段(duan)訓練策略,使(shi)其(qi)具備長歷史(shi)幀記憶和(he)高分(fen)辨率(lv)圖像感知(zhi)(zhi)能(neng)力,進而提升場(chang)景感知(zhi)(zhi)和(he)操作(zuo)(zuo)規劃的(de)能(neng)力。

RoboBrain在任(ren)(ren)務規劃(hua)、可操作(zuo)區域感(gan)知和軌跡預(yu)測評測任(ren)(ren)務中均表現(xian)出卓越性能。

任務規(gui)劃(hua)方(fang)面,RoboBrain在(zai)不犧牲通用能(neng)力的前提下,在(zai)機器人規劃評(ping)測集OpenEQA、ShareRobot(自(zi)建(jian))和RoboVQA上多個(ge)維(wei)度優(you)于GPT-4V、Claude3等6個(ge)當(dang)時(shi)領先的閉源/開源MLLMs。

邁向群體智能 | 智源發布首個跨本體具身大小腦協作框架與開源具身大腦

▲RoboBrain在(zai)具身規劃評測基準(zhun)上的性能

可操(cao)作區域感知方面,RoboBrain在AGD20K測試集(ji)上(shang)的(de)平均(jun)精度超過(guo)了當時(shi)最先進(jin)的(de)開(kai)源模型Qwen2-VL,驗證了其在指令理解和物(wu)體屬性(xing)方面的(de)卓越能力。

邁向群體智能 | 智源發布首個跨本體具身大小腦協作框架與開源具身大腦

▲RoboBrain在可操(cao)作區域(yu)感知基準上的性能(neng)

邁向群體智能 | 智源發布首個跨本體具身大小腦協作框架與開源具身大腦

▲RoboBrain在軌跡預(yu)測基準上的性(xing)能

軌跡預(yu)測方(fang)面,RoboBrain預測(ce)的(de)(de)操作(zuo)軌(gui)(gui)跡具有與真實軌(gui)(gui)跡較(jiao)高(gao)的(de)(de)相似度(du),展現(xian)了其(qi)在(zai)軌(gui)(gui)跡預測(ce)中的(de)(de)高(gao)精(jing)度(du)和穩定性。RoboBrain的(de)(de)未來迭(die)代版本(ben)會持續(xu)提高(gao)軌(gui)(gui)跡預測(ce)的(de)(de)能力。

目前,RoboBrain能夠解(jie)讀人類指令和視覺圖像,以生成基于實時圖像反饋的行動計劃和評估,預測每一步的軌跡并感知相應的可操作(zuo)(zuo)區域(yu)。具(ju)體而言,RoboBrain能(neng)夠有效(xiao)利用環境(jing)信息和(he)交互對(dui)象的狀態——無論是(shi)從(cong)第一人(ren)稱還是(shi)第三人(ren)稱視(shi)角(jiao)捕捉的圖(tu)像——生(sheng)成針(zhen)對(dui)不同類型機(ji)器(qi)人(ren)操作(zuo)(zuo)任務(wu)(wu)的任務(wu)(wu)規劃(hua),并(bing)基于人(ren)類指令和(he)視(shi)覺(jue)信息,提供合理的可操作(zuo)(zuo)區域(yu),并(bing)能(neng)在不同場景中表(biao)現(xian)出良好的泛化(hua)能(neng)力,生(sheng)成既可行又合理的軌跡。

邁向群體智能 | 智源發布首個跨本體具身大小腦協作框架與開源具身大腦

具身大腦(nao)(nao)RoboBrain、小腦(nao)(nao)技能庫以及跨機器人(ren)數據中樞,是跨(kua)本(ben)體框(kuang)架RoboOS的核心要素。具身大腦RoboBrain,負責全局感知(zhi)與決策,構(gou)建動態時空感知(zhi)、規劃指導和(he)反饋(kui)糾錯(cuo)機(ji)制;小腦技能庫,負責低延遲精準執行(xing),實現(xian)柔性(xing)與精密(mi)操作(zuo)等(deng);跨(kua)機(ji)器(qi)人數據(ju)中樞,負責實時共享空間、時間和(he)本(ben)體記憶,為決策規劃與優化協作(zuo)操作(zuo)提供(gong)信息(xi)支持,從而形成感知(zhi)-認知(zhi)-決策-行(xing)動的閉環。

二、一腦多機實現跨本體協作,從單體智能邁向群體智能

跨本體具身大小腦協作框架RoboOS,基于“大腦-小腦”分層架構,通過模塊化設計、智(zhi)能(neng)任務(wu)管理和(he)跨本體協作,為機器(qi)人提供(gong)高效、靈活、可(ke)擴展的(de)底(di)層支(zhi)持,實現從(cong)單機智(zhi)能(neng)到群體智(zhi)能(neng)的(de)躍(yue)遷。

在RoboOS的分層架構下,具身大腦RoboBrain的復雜場景感知與決策能力,可與小腦技能庫的高效執行能力深度結合,確保協作框架在長周期、高動態任(ren)務中的穩定運行。實現大(da)腦模型(如LLM/VLM)與(yu)小(xiao)腦技(ji)能(neng)(如抓取(qu)、導航)的“即(ji)插即(ji)用”,目前,可支持(chi)松(song)靈雙臂、睿爾曼單/雙臂、智(zhi)元(yuan)人形(xing)、宇樹人形(xing)等不同類型的具(ju)身本體。

通過共享記憶系統(空間記憶/時間記憶/本體記憶),實現(xian)多個機器人之間的狀態同步與智能協作(zuo),突破傳統“信息孤(gu)島”限制,實現跨本體協作控制。

RoboOS可動態管理(li)多機(ji)器人(ren)任務隊列,支(zhi)持優先級搶占與(yu)資源優化(hua)分(fen)配,確保復雜場景下(xia)實(shi)時響應(ying),實(shi)現高(gao)并發任(ren)務調度。

此外,RoboOS可基于執行反饋動態調整策略,結合環境變化,持續優化任務(wu)規劃,提升(sheng)魯棒性,做到實(shi)時閉環優(you)化。

▲基于RoboOS及RoboBrain的多機器人跨(kua)本體協作遞送任務(wu)Demo

在(zai)“遞送蘋果(guo)(guo)和(he)水(shui)(shui)果(guo)(guo)刀(dao)(dao)”的任(ren)務場景(jing)中,基(ji)于RoboOS及RoboBrain,睿爾曼單臂機器人(轉(zhuan)運)、宇樹(shu)人形(xing)G1(挑揀水(shui)(shui)果(guo)(guo))、松(song)靈雙(shuang)臂機器人(挑揀水(shui)(shui)果(guo)(guo)刀(dao)(dao))分工協作(zuo)。

整(zheng)體任務(wu)流程是(shi)睿爾(er)曼調用(yong)(yong)“導(dao)航技能(neng)”移動至(zhi)餐(can)桌前,宇樹G1調用(yong)(yong)“視(shi)覺抓取技能(neng)”完成指定物(wu)體的挑(tiao)揀,睿爾(er)曼調用(yong)(yong)“抓取技能(neng)”提起果(guo)籃(lan)并(bing)導(dao)航至(zhi)松靈餐(can)桌前。緊接著(zhu),松靈調用(yong)(yong)“抓取技能(neng)”獲取水果(guo)刀,并(bing)放置在果(guo)籃(lan)中心,睿爾(er)曼依(yi)據“空間記(ji)憶”導(dao)航至(zhi)辦(ban)公桌位置,遞送(song)果(guo)籃(lan)后返回待命。

RoboOS接收“拿離杯子最近的水果,并遞送一把水果刀”指令(ling)后,遞送(song)RoboBrain進行任務拆(chai)解,并將拆(chai)解后(hou)的(de)子(zi)任(ren)務分發給3臺跨(kua)本體機(ji)器人。RoboBrain通過 “空(kong)間記憶(yi)” 感知環境,確定果籃、蘋果位(wei)置,并拆(chai)解任(ren)務為“宇樹(shu)G1挑揀蘋果→睿爾(er)曼(man)傳(chuan)遞果籃→松靈機(ji)器人抓(zhua)取水果刀→睿爾(er)曼(man)返回(hui)”。

各機器人本體執行子任務過程中,由RoboOS提供端云協作能力,將任務規劃為技能粒度,實現云端RoboBrain分發規劃,端側執行技能并實時反饋。RoboBrain識別“離杯子最近的水果位置”、“果籃抓取位置affordance”、“水果刀抓取位置affordance”、“果籃空閑位置Pointing”,經由RoboOS遞(di)送指導各機器人本體完(wan)成任務

三、“即插即用”快速輕量化泛化部署,打造統一生態

RoboOS 作為面向多機器人系統的跨本體具身大小腦協作框架,專為解決當前具身智能落地過程中的通用性適配與多機調度難題而設計。針對異構本體(ti)難以統一接入、任務(wu)調度(du)效率低、缺乏動態錯誤反饋機(ji)制(zhi)等痛點,基于RoboOS 的“大小腦協同”的架構范式,云端的具身大腦RoboBrain負責統一的任務理解、規(gui)劃決策(ce)與(yu)上下文(wen)感(gan)知,本體側則接入(ru)輕(qing)量級的小腦執行(xing)模塊(kuai),實現感(gan)知-認知-決策-行(xing)動的閉環協(xie)作。

該機制能夠動態感知本體差異、靈活適配操作指令、自動修復異常行為,有效提升系統在復雜任務場景下的魯棒性與泛化性。RoboOS原生支持異構(gou)機器(qi)人本體的靈活接入,以Profile模板機制快速完成機器人能力建(jian)模與適配(pei)。

本體的小腦模塊可調用包括開源技能庫、自研低階控制器等多種技能接口,形成一個支(zhi)持模塊復用、即插(cha)即用的運行體系,大幅降(jiang)低開(kai)發門檻(jian)與(yu)接入成本。

在云端,RoboOS提供完備的模型適配與API接入能力,兼容自研的多模態VLM,作為可插拔的大腦決策引擎,從而(er)在服(fu)務機器人、工業自(zi)動化、智(zhi)慧物流、智(zhi)能制(zhi)造(zao)等領域支撐復雜任務的(de)多機協作需求(qiu)。

借助RoboOS的端云(yun)一體(ti)化協同能力與(yu)動態調度機制,整個系(xi)統(tong)不僅(jin)具備高(gao)度的擴(kuo)展性與可遷(qian)移性,更為未來具身智能的規模部署(shu)與生態構(gou)建(jian)奠定了(le)通用操(cao)作系(xi)統(tong)級的基礎。

邁向群體智能 | 智源發布首個跨本體具身大小腦協作框架與開源具身大腦

RoboOS基于智源研究院研發的并行訓練與推理框架FlagScale,原生支(zhi)持(chi)多機器人系統的端云協同能(neng)力(li),打造具身智能(neng)的統一底座。系統在設計上充(chong)分考慮“多機器人-多模態-多任務”場景(jing),具備極高的可(ke)擴展性與低時(shi)延(yan)響應能(neng)力(li)。

在(zai)端(duan)側(ce)部(bu)署中,機器人(ren)注冊即可(ke)自動與(yu)云端(duan)部(bu)署的RoboBrain大腦建立(li)雙向通(tong)信鏈路,通(tong)過(guo)高效發(fa)布-訂閱機制實(shi)現實(shi)時任務(wu)調(diao)度與(yu)狀(zhuang)態反饋(kui),指令響應(ying)延(yan)遲(chi)低于10ms,滿足復雜動態任務(wu)的閉環控制需求。

面向機器人在(zai)長期運(yun)行中產生的(de)(de)海量感知與行為數(shu)據(ju),RoboOS 提供基于(yu)(yu)內存優化的(de)(de)數(shu)據(ju)訪(fang)問(wen)引(yin)擎,支持TB級別歷(li)史(shi)數(shu)據(ju)的(de)(de)內存隨機訪(fang)問(wen)能(neng)(neng)(neng)力,為任(ren)務復現(xian)、異常回溯、跨任(ren)務知識遷移等場(chang)景提供基礎能(neng)(neng)(neng)力。結合 RoboBrain 的(de)(de)任(ren)務推理與策略優化模塊,歷(li)史(shi)數(shu)據(ju)還可用于(yu)(yu)多機之間的(de)(de)協(xie)作知識共享(xiang),實(shi)現(xian)更強的(de)(de)智能(neng)(neng)(neng)演(yan)化與自主學(xue)習能(neng)(neng)(neng)力。

此外,FlagScale作為底層支撐框架,支持大模型在多設備間(jian)的并行(xing)推理與多任務協同調度,可無縫集成視覺語言模(mo)型、軌跡生成模(mo)塊(kuai)、感知(zhi)識別等(deng)子系統,全面釋放具身大模型的系(xi)統潛力。

目(mu)前(qian),智(zhi)源(yuan)(yuan)研究院(yuan)依托多模態大(da)模型技(ji)術(shu)優勢資源(yuan)(yuan),正在聯合北大(da)、清(qing)華、中科院(yuan)等高校院(yuan)所以及銀河(he)通用、樂聚、加(jia)速進化、宇樹(shu)等產業鏈上(shang)下游企(qi)業,積極建設具(ju)身智(zhi)能創新(xin)平臺,重點開展數據(ju)、模型、場景驗證等研究。

此次(ci)智源(yuan)研究院發布的(de)(de)跨(kua)本體(ti)(ti)具(ju)(ju)(ju)身(shen)(shen)大小腦(nao)協(xie)作(zuo)框(kuang)架RoboOS及開源(yuan)具(ju)(ju)(ju)身(shen)(shen)大腦(nao)RoboBrain,將有機(ji)融合和廣泛(fan)鏈接不同構型的(de)(de)具(ju)(ju)(ju)身(shen)(shen)本體(ti)(ti)與(yu)豐(feng)富多元的(de)(de)具(ju)(ju)(ju)身(shen)(shen)模(mo)型,加速具(ju)(ju)(ju)身(shen)(shen)智能跨(kua)本體(ti)(ti)協(xie)作(zuo)與(yu)規模(mo)化應(ying)用。

開放、協作、共享,是具身智能生態繁榮的必經之路,智(zhi)源研究院愿攜手更多產業(ye)合作伙伴(ban),共繪具身智(zhi)能生態藍圖。