機器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影

機器人前瞻9月9日報道,近日,在機器人感知與規劃領域三大國際權威基準測試——分別由微軟、谷歌、香港大學等發起與提出的MS COCO Detection Challenge、RoboVQA與Egoplan-bench2中,優必選的百億參數基座的多模(mo)態大模(mo)型Thinker,針(zhen)對(dui)二十一個(ge)場景、四大類型的任務(wu)規劃等命(ming)題,奪得了(le)四項全(quan)球榜單第一。

另外,參(can)與本(ben)次排(pai)名的(de)模型,還包括(kuo)北京(jing)智源、英偉達(da)ThinkAct、Cosmos-reason1、GPT-4V、Qwen2.5-vl等。

一、由微軟、谷歌、港大發起,覆蓋工作、生活等多場景測試

MS COCO Detection Challenge 由(you)微軟發起的,是全球最具影響(xiang)力(li)的計算(suan)機視覺評(ping)測之一,主要通(tong)過(guo)真(zhen)實場(chang)景(jing)圖像驗(yan)證模型對物體的精(jing)準識別與(yu)定位能力(li),在(zai)全球學(xue)術界與(yu)工(gong)業界享(xiang)有極高認可度(du)。

國產人形機器人連奪四項全球第一,模型霸榜三大國際測評▲優必選Thinker在MS COCO detection challenge – Segmentation Mask中(zhong)排(pai)名第一

RoboVQA 由谷歌 DeepMind 提出的,是首個針對機器人的多模態長程推理評測,聚焦于驗證模型能否將視覺信息、語言指令與物理常識結合,實現多步驟任務規劃與動態決策。?RoboVQA關注模型的規劃、區分性能力、生成性能力、過去描述和未來預測能力等。
國產人形機器人連奪四項全球第一,模型霸榜三大國際測評▲優必選Thinker在MS COCO detection challenge – Bounding Box排名中并列第(di)一

Egoplan-bench2由香港大學提出,是首個聚焦現實場景多模態規劃的基準測試,通過第一人稱視角視頻模擬人類日常任務,驗證模型在動態環境中的長程決策能力。 Egoplan-bench2覆蓋了工作場景、日常生活場景、娛樂場景以及應急與特殊場景等。
國產人形機器人連奪四項全球第一,模型霸榜三大國際測評

▲優必選Thinker在RoboVQA與Egoplan-bench2中排名(ming)第一(yi)

二、整合多項關鍵技術,提升機器人感知與推理規劃能力

優必選的Thinker架(jia)構與訓練框(kuang)架(jia),通過多項關(guan)鍵技術(shu)創新(xin)性(xing)整合,系統化(hua)提升了人形機器人的感知與推理規劃能力(li)。

  • 自研視覺編碼器基座,構建精準環境感知優必選以ViT作為視覺編碼器原型,結合Co-DETR檢測頭,依托Object 365等開源數據在通用視覺任務上進行預訓練,并通過多階段模態對齊機制實現了視覺-語言模態的高效融合。最終,在優必選機器人數據集上進行微調,顯著提升機器人在工業場景中對物體、障礙和操作上下文的識別能力,為復雜環境下穩定可靠的多模態環境感知奠定了堅實基礎。
  • 超大規模參數架構,提供強大語義理解基礎優必選自研了具有百億參數的多模態大模型Thinker基座,實現視覺-語言-時間的跨域統一表征,使機器人能夠在多場景中準確捕捉環境細節、理解任務指令并做出推理,為自動化操作提供可靠的認知基礎。
  • 時序增(zeng)強(qiang)(qiang)算法(fa)與強(qiang)(qiang)化學習(xi)方法(fa),增(zeng)強(qiang)(qiang)長程(cheng)任務(wu)規劃連貫可靠 

    通過大模型蒸餾技術,將百億參數模型效果濃縮至7B參數模型中,在保持高性能的同時增強多步驟任務分解與連續決策能力。該優化使模型可以在端側部署,用機器人自身搭載的算力就可實時自主拆解復雜流程,避免規劃中斷或邏輯混亂,在流程嚴格、環環相扣的工業場景中展現出關鍵價值,將有力保障生產連貫性和操作安全性。
    國產人形機器人連奪四項全球第一,模型霸榜三大國際測評

三、打造通用基礎能力,工業場景再進行精調

優必選采用了“通(tong)用基礎能力(li)打造+工業(ye)場(chang)景(jing)精調(diao)”的(de)微(wei)調(diao)策(ce)略(lve),基于超(chao)200萬條視頻數(shu)據(ju)構(gou)成的(de)大(da)規(gui)模訓練集(ji)進行預訓練,隨后引入優必(bi)選在工(gong)廠(chang)實訓中積(ji)累的(de)億級工(gong)業數(shu)據(ju)集(ji)進行微(wei)調(diao),并對工(gong)業場景任務規(gui)劃數(shu)據(ju)加以清洗與(yu)整合,構(gou)建高效多模態(tai)大(da)模型學習閉環。

通過這(zhe)一(yi)流程,模型能夠快速學習工業(ye)場(chang)景的視覺特征、任務規(gui)則與(yu)操作偏好,最終(zhong)顯著(zhu)提升(sheng)人形機(ji)器(qi)人在工業(ye)場(chang)景中的理解準確率、規(gui)劃適配性(xing)與(yu)決(jue)策(ce)可靠性(xing),實(shi)現在多種復雜場(chang)景中的泛化性(xing)與(yu)穩定性(xing)。

借助Thinker,Walker S2可精準(zhun)識別設備、物(wu)料與(yu)障(zhang)礙物(wu),深(shen)度理解場景語義及操作前后邏輯關聯,提升長周期任務的執行(xing)穩(wen)定性。在復雜(za)流水線環(huan)境(jing)中,機器(qi)人展(zhan)現出持續連貫(guan)的規劃能力,大(da)幅降低對人工干預的依賴。

實際應用數據顯示,相比僅基于通用數據微調的模型,采用工業數據集進行二次微調后,Walker S2在拆碼垛規劃等典型任務的中的規劃精度提升超(chao)過 20%,相關技術報告將在arxiv上發布。

國產人形機器人連奪四項全球第一,模型霸榜三大國際測評
▲Walker S2在工業場景中(zhong)自(zi)主規劃任(ren)務

結語:人形機器人邁向大規模應用,還亟需開放協同的應用生態

當前,人形機(ji)器人正(zheng)處于(yu)從技術驗證到(dao)大規(gui)模應用的(de)關鍵拐點,其發(fa)展(zhan)亟(ji)需與開發(fa)者共同構建開放、協同的(de)應用生(sheng)態。

優必選稱,后(hou)續(xu)將逐步(bu)開源(yuan)一(yi)系(xi)列業(ye)界稀缺(que)的工業(ye)場景數(shu)(shu)據(ju)(ju)集與通(tong)用(yong)基礎大(da)(da)模(mo)型(xing),為全行業(ye)提(ti)供源(yuan)自(zi)實(shi)際應用(yong)一(yi)線的高質量(liang)合規數(shu)(shu)據(ju)(ju)資源(yuan)。開發(fa)者(zhe)可基于優必選多模(mo)態(tai)大(da)(da)模(mo)型(xing)Thinker,面向各類新場景開展精調(diao)與二次開發(fa),助力提(ti)升(sheng)開發(fa)效(xiao)率(lv)。