機器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影

機(ji)器人(ren)前瞻8月11日報(bao)道(dao),近日,由北京人(ren)形(xing)機(ji)器人(ren)創(chuang)新中(zhong)心(國(guo)地共(gong)建具身(shen)智(zhi)能(neng)(neng)(neng)(neng)機(ji)器人(ren)創(chuang)新中(zhong)心,以下簡稱“北京人(ren)形(xing)”)主辦(ban)的“具身(shen)智(zhi)能(neng)(neng)(neng)(neng)技術與應(ying)用論壇”在2025世界機(ji)器人(ren)大會(WRC)期(qi)間(jian)舉(ju)行,現場發(fa)布了多項(xiang)具身(shen)智(zhi)能(neng)(neng)(neng)(neng)核心成果,北京人(ren)形(xing)還與多家企業(ye)、機(ji)構達成戰略合(he)作,共(gong)同推(tui)進(jin)具身(shen)智(zhi)能(neng)(neng)(neng)(neng)技術在實際場景中(zhong)的深度落地。

好用的人形機器人,不僅要具備穩定可靠的行動能力,更要在真實場景中實現感知、決策、控制與迭代優化的全鏈路協同。這一目標的前提,是同時突破認知理解、通用適(shi)配、執行控制與數據供給(gei)等核(he)心環節。為(wei)此,北京人形在(zai)論壇(tan)現場正式發布了(le)四項具身智能核(he)心成果(guo):

1、具身世界模型體系

這(zhe)一體系包含具備物理(li)時空理(li)解與(yu)推理(li)能(neng)力的72B具身多(duo)模態(tai)大模型(xing),以及實(shi)現神經(jing)網絡驅(qu)動世界模擬(ni)器(qi)的具身智能(neng)世界基座模型(xing)。

針對(dui)通用大(da)(da)模(mo)(mo)型(xing)具(ju)身場景下精細空間/幾何理(li)解不足,物理(li)交互(hu)誤差(cha)大(da)(da)等(deng)問題,北京人(ren)形(xing)基于千問72B多模(mo)(mo)態大(da)(da)模(mo)(mo)型(xing),通過自(zi)研數據清洗與混合模(mo)(mo)態訓(xun)練框(kuang)架,實現行業首個長(chang)視(shi)頻理(li)解72B具(ju)身多模(mo)(mo)態大(da)(da)模(mo)(mo)型(xing)PelicanVLM,在(zai)現代多模(mo)(mo)態系統超長(chang)視(shi)頻語(yu)言理(li)解評測集(ji)(ji)Egoschema、李(li)飛(fei)(fei)飛(fei)(fei)的(de)視(shi)覺空間智能(neng)基準(zhun)評測集(ji)(ji)VSI-Bench,多模(mo)(mo)態大(da)(da)模(mo)(mo)型(xing)物理(li)推理(li)能(neng)力大(da)(da)規模(mo)(mo)基準(zhun)測試集(ji)(ji)PhyX等(deng)6項(xiang)具(ju)身相(xiang)關公開評測集(ji)(ji)上超越GPT-4o、Gemini flash 2.0以及(ji)原(yuan)模(mo)(mo)型(xing),7個公開評測基準(zhun)平均性能(neng)超過SOTA 11%。

基于(yu)超過5000小時視頻數(shu)(shu)據訓練的具身(shen)世界模(mo)型WU,則為具身(shen)智能(neng)機器人(ren)提供(gong)了“看見未來(lai)”的眼睛,并以(yi)未見場景下的泛(fan)化(hua)能(neng)力,解鎖具身(shen)無(wu)限數(shu)(shu)據的可能(neng)性。

2、跨本體VLA模型(xing)

北京人形發布跨本體VLA模型XR-1,讓同一模型實現跨本體運行、多場景適(shi)配、多技能調用。

在(zai)業界(jie)驗證的?RoboMIND?高(gao)質(zhi)量具(ju)身(shen)數據(ju)基礎上,XR-1?通過積累超(chao)百萬量級的自有多(duo)本體數據(ju),采用(yong)首創的多(duo)模態視(shi)動統一表(biao)征學習,有效利(li)用(yong)各(ge)類機器(qi)人操作數據(ju)和海量互(hu)聯網視(shi)頻數據(ju)。

在(zai)此基礎(chu)上(shang),XR-1?利用多(duo)模態視動統一表征訓(xun)練、跨本(ben)體(ti)(ti)主網(wang)絡訓(xun)練和特(te)定(ding)場景微調三階(jie)段訓(xun)練范式,實(shi)(shi)(shi)現機(ji)器人跨本(ben)體(ti)(ti)的通用操作知識積累和特(te)定(ding)場景的多(duo)任務(wu)快速(su)學(xue)習。在(zai)多(duo)種(zhong)機(ji)器人本(ben)體(ti)(ti)上(shang)大(da)量真實(shi)(shi)(shi)環境測(ce)試,實(shi)(shi)(shi)證(zheng)了(le)該方(fang)法的多(duo)本(ben)體(ti)(ti)、多(duo)技能、多(duo)任務(wu)、穩健泛化能力,以(yi)及其在(zai)快速(su)掌握新技能上(shang)的巨大(da)潛力。

以?XR-1?為基礎,“慧思開物”能(neng)夠快速構建面向各類場景(jing)任務的通(tong)用(yong)技(ji)能(neng)庫,實(shi)現多(duo)本體、多(duo)場景(jing)、多(duo)任務的能(neng)力(li),顯(xian)著減少具身智能(neng)應用(yong)開發(fa)的成本與用(yong)時。

3、人(ren)形機器人(ren)全身(shen)控制自主導航系統

該通用移動控制系統聚焦機器人在實際工作中的核心能力,由“自主(zhu)導(dao)航(hang)系統”“全身控制系統”組成。

自主(zhu)(zhu)(zhu)導航系(xi)(xi)統具備點對點導航、動態障礙感知和(he)自主(zhu)(zhu)(zhu)避障能力,并搭載OCC環視感知模塊,實現對環境(jing)的實時(shi)占(zhan)用(yong)與(yu)語(yu)(yu)義(yi)感知,拓展了自主(zhu)(zhu)(zhu)與(yu)語(yu)(yu)義(yi)導航的應用(yong)空間。全身控制(zhi)(zhi)系(xi)(xi)統支持機(ji)器人在移(yi)動和(he)站(zhan)立(li)狀(zhuang)態下靈活進行上身動作(zuo)(zuo)控制(zhi)(zhi),涵蓋預設動作(zuo)(zuo)、遙操(cao)作(zuo)(zuo)與(yu)自主(zhu)(zhu)(zhu)操(cao)作(zuo)(zuo)開(kai)發。通過穩定的質心控制(zhi)(zhi)與(yu)精(jing)準的末端控制(zhi)(zhi),保(bao)障操(cao)作(zuo)(zuo)任(ren)務(wu)的穩定高(gao)效執(zhi)行。

兩(liang)大系統協(xie)同解(jie)決機器人(ren)在移動與操作中的關(guan)鍵技術難題,賦能(neng)開(kai)發(fa)者實現自(zi)主任務規劃與執行(xing),助力(li)人(ren)形機器人(ren)邁(mai)向真正的生(sheng)產應用。

4、千臺(tai)機器人真實場景(jing)數據采集計劃

這是業內(nei)首個千臺級規(gui)模的真(zhen)實場景(jing)數(shu)據(ju)采集計劃,通(tong)過搭建遠程遙操作(zuo)中心,讓(rang)千臺機器人走出(chu)實驗室,深入(ru)工廠車間、物(wu)流倉儲、酒店商超等(deng)真(zhen)實工業(ye)場(chang)景,在執(zhi)行實際作(zuo)業(ye)任(ren)務的同時(shi),持續采集多模(mo)態交互(hu)數(shu)據。

與實(shi)驗室(shi)場(chang)景不同,真實(shi)場(chang)景的(de)環境變化、人(ren)為(wei)擾動、突發(fa)狀況等因素(su),為(wei)具(ju)身智(zhi)能(neng)模型提供了更加豐富、真實(shi)的(de)訓練(lian)素(su)材(cai)。這(zhe)種”邊作業(ye)、邊采集”的(de)創新(xin)模式,不僅(jin)解決了具(ju)身智(zhi)能(neng)發(fa)展面臨(lin)的(de)高質(zhi)量(liang)數(shu)(shu)據稀(xi)缺難題(ti),更構(gou)建起規模化數(shu)(shu)據飛輪,加速模型迭代優化,推動整個行(xing)業(ye)向”數(shu)(shu)據富集”跨越,為(wei)具(ju)身智(zhi)能(neng)產業(ye)化落地奠定數(shu)(shu)據基礎。

論(lun)壇現(xian)場(chang),北京人形與百度智(zhi)(zhi)能(neng)(neng)云(yun)、中國(guo)電力科(ke)學院、奇安信集(ji)團、李寧公司、領益智(zhi)(zhi)造、特(te)天集(ji)團、哈(ha)森(sen)股份、三維天地、浪(lang)潮智(zhi)(zhi)慧能(neng)(neng)源等核心機構和企業(ye)代表舉行現(xian)場(chang)簽約儀式(shi),正式(shi)達成戰略合作。各(ge)方將圍繞協(xie)同創新與行業(ye)應用(yong),推進(jin)具身智(zhi)(zhi)能(neng)(neng)技術(shu)在實際場(chang)景中的深度落地,共同打(da)造開(kai)放共贏的產(chan)業(ye)生態。

與此同時(shi),北京(jing)人形聯合京(jing)灃科技設計仿真(zhen)訓(xun)練(lian)平(ping)臺(tai)發(fa)布,針對(dui)當(dang)前(qian)行業(ye)普(pu)遍面臨的仿真(zhen)數據(ju)標準缺失問題,提(ti)供覆蓋多場景、高精度、高復現能力(li)的專業(ye)訓(xun)練(lian)環境,進一步(bu)完善具身智能從“訓(xun)練(lian)—部署—驗證”的系統能力(li),賦能開發(fa)者與企業(ye)快(kuai)速(su)實現真(zhen)實落(luo)地。