機器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影

近日,馬斯克在(zai)X上確認了一(yi)則消息,Optimus開始嘗試通過人(ren)類視頻(pin)學習任務。此前(qian)據(ju)傳Optimus人(ren)形機器人(ren)在(zai)6月就已經放(fang)棄(qi)動(dong)(dong)作捕捉(zhuo)服與遠程操作方案,轉向純(chun)視覺(jue)數(shu)據(ju)驅動(dong)(dong)的(de)訓練方式(shi)。

馬斯克宣布放棄遙操!具身機器人要靠看視頻學干活了?

特斯拉(la)希望(wang)借助互聯網上海(hai)量的視頻資源,提升(sheng)數據收集效率、提升(sheng)訓練規模。這個邏(luo)輯和特斯拉(la)自動駕駛系(xi)統(tong)(FSD)的研發路徑高度(du)相(xiang)似——FSD就是通過車載攝(she)像頭捕捉(zhuo)的2D視頻,實現對(dui)道路環(huan)境的感知(zhi)與決策,Optimus相(xiang)當于把這一視覺學習思路從車遷(qian)移到了(le)人(ren)形機器人(ren)上。

當前在具身智能領域,數據獲取主要有兩大路徑:遙操作和(he)虛擬合(he)成遙操作能夠獲取機械臂末端軌跡、末端開合狀態及第一/第三攝像頭視角信息,數據模態豐富但搜集效率低成本高;虛擬合成則是在仿真環境中生成數據,成本低但存在sim2real gap,而特斯拉試圖跳過這兩類方案存在的局限,直接從海量視頻中提取具身數據。

視頻數據蘊含著豐富的物理信息、空間信息與交互信息,且獲取成本極低,堪(kan)稱具身數據寶庫(ku),有望重構具身智能(neng)數據采(cai)集范(fan)式。但如何使用視頻數據賦能(neng)具身模型訓練,行(xing)業仍處于探索階段。

根據Tesla Milan Kovac的披露,特斯拉目前已經實現讓機器人從第一視角視頻中學習,正在努力嘗試將這一能力遷移到使用包含人類作業過程的第三視角視頻上。這一突破一旦實現,意味著未來互聯網上的海量視頻都將成為具身智能的訓練數據,機器人(ren)能像人(ren)一樣通過“看”視(shi)頻(pin)學(xue)習新技能!

馬斯克宣布放棄遙操!具身機器人要靠看視頻學干活了?

然而行業目前對純視頻訓練具身模型存在諸多質疑:根據最新的研究,僅2D視頻并不足以滿足具身模型的訓練需求,要想具身模型有更好的泛化性和更高的任務成功率,還需要機器人末端3D坐標及軌跡、6DOF位姿,被操作物體軌跡,第一視角視頻等等多模態數據。這類(lei)數據(ju)目前(qian)仍然要依(yi)靠昂貴的人(ren)工(gong)遙操作方式采(cai)集,無(wu)法被2D視頻替(ti)代。

特斯拉的具體的訓練策略尚未可知,而一家來自深圳的年輕創企提出了更加顛覆的視頻具身解決方案——將2D視頻數據升維,還原空間信息,【從2D視頻中提取出操作軌跡、末端6DOF位姿等具身模型訓練所必須的多模態數據】,進而實現(xian)視(shi)頻訓練具身智(zhi)能(neng)模型。

馬斯克宣布放棄遙操!具身機器人要靠看視頻學干活了?▲2D視頻數(shu)據(ju)升維(wei),實現視頻提取具身(shen)數(shu)據(ju)

這家公司是樞途科技,他們推出的SynaData數據管線實現了從互聯網RGB視頻中提取具身(shen)智(zhi)能訓練數據,并實現了清華RDT、PI?π0等(deng)第三方(fang)VLA模型的數據驗證除(chu)了滿足(zu)VLA模型所必須(xu)的(de)操作軌(gui)跡、末(mo)端狀(zhuang)態(tai)等信(xin)息(xi)外,SynaData還能提取出物(wu)(wu)體mesh、物(wu)(wu)體點云、末(mo)端與物(wu)(wu)體的(de)接觸(chu)狀(zhuang)態(tai)及(ji)接觸(chu)力、物(wu)(wu)體6DOF位姿(zi)等關鍵數據。這些信(xin)息(xi),恰(qia)恰(qia)是(shi)機器(qi)人能在(zai)真實世界(jie)中(zhong)精準干活(huo)的(de)核心。

樞途科技成立于2024年,聚焦于多模態具身智能技術研發,已獲得來自包括前微(wei)軟全(quan)球副總裁陸(lu)奇博(bo)士在內的多輪融資。創始人兼CTO林嘯是一名科技領域連續創業者,師從香港科技大學機器人研究院院長張福民教授,具有多年的數據編碼器及模型研發經驗,樞途核心成員來自Google Deepmind、騰訊、上汽、清華大學等頭部企(qi)業和科研機構,涵蓋了計(ji)算機視覺、傳統圖形學、深度學習與機器(qi)人運動控制(zhi)等領(ling)域。

近日,機器(qi)人前瞻對(dui)話林嘯(xiao),深入了解(jie)這家年輕創企如何跳出行(xing)業慣(guan)性,走出了一(yi)(yi)條獨樹一(yi)(yi)幟的具身(shen)智(zhi)能數據訓練路(lu)徑。

一、破解具身智能數據之困,把2D視頻升維成多模態數據

具身智能的(de)目(mu)標是(shi)讓機器人像人一樣理解并交互(hu)物(wu)理世界,而這一切的(de)前(qian)提,是(shi)海量(liang)(liang)高質量(liang)(liang)的(de)訓練(lian)數據(ju)。但當前(qian)行(xing)業(ye)面(mian)臨(lin)的(de)現實是(shi):數據(ju)要(yao)么太貴、要(yao)么質量(liang)(liang)不夠高。

傳統的遙操方案需要人力去手把手教,不僅效率低下、難以規模化,成本上和硬件強綁定,采集成本高。也有不少企業嘗試在仿真環境中生成數據,但仿真環境比較難精準模擬真實世界的物理約束sim2real gap讓訓練出來的模型容易(yi)在真實場景(jing)中掉鏈子。

既然遙操方案無法規模化,仿真數據質量又不夠好,那么是否有可規模化又高質量的數據采集方案呢?結合在視頻數據編碼器和模型研發上的多年研究經驗,林嘯(xiao)與特斯拉一(yi)樣,默契地選擇了包含豐(feng)富物理約束(shu)、高維信(xin)息(xi)的(de)視(shi)頻數據(ju)作為掘金對象。

行(xing)業目前對視頻數(shu)據使用(yong)的思路包含幾類:

1、從視頻中學習任(ren)務意(yi)圖:對(dui)視(shi)頻進行語義理解(jie)和任務拆解(jie),比如把(ba)沖(chong)咖啡的視(shi)頻拆解(jie)成(cheng)“拿杯子—加咖啡粉—倒水(shui)”這樣一系列(lie)流程(cheng),機器人可(ke)以通過視(shi)頻來理解(jie)人類做什么(me),分(fen)幾步做。

2、從視頻中學習操作軌跡:用視頻的(de)(de)下(xia)一幀預測(ce)指導機器人“預測(ce)下(xia)一步動作”,雖(sui)然借(jie)助擴散模型確實可以逐步推演機器人末端下(xia)一時(shi)間單位的(de)(de)空間坐標從(cong)而形成軌跡(ji),但推理成本(ben)巨大且推理過(guo)程“黑(hei)箱(xiang)”:模型能力提(ti)升(sheng)了,不(bu)知(zhi)道(dao)是視頻里(li)的(de)(de)哪(na)個細節(jie)起了作用;模型失效(xiao)了,也(ye)不(bu)知(zhi)道(dao)該怎么優(you)化,只能不(bu)斷(duan)增(zeng)加數據,增(zeng)加成本(ben)。

樞途科技的突破,在于跳出了傳統的視頻使用思維,選擇對2D視頻進行針對性(xing)升(sheng)維,提取出符合(he)具(ju)身智能需求(qiu)的(de)高維多(duo)模態數據高維數(shu)據能(neng)更精準地描述物理(li)世界,機器人模型的(de)學習效率和(he)泛化能(neng)力(li)自然會(hui)提升,還具有(you)了可解釋(shi)性和(he)定向優化的(de)能(neng)力(li)。

馬斯克宣布放棄遙操!具身機器人要靠看視頻學干活了?▲SynaData視(shi)頻具(ju)身(shen)數據(ju)提取

二、具身訓練精度、成功率大幅提升,數采成本降到千分之五

受到拍攝設備多(duo)變、空間數據(ju)(ju)缺失、拍攝視(shi)角變化等限制,要用視(shi)頻數據(ju)(ju)訓練機器人,經常面(mian)臨視(shi)頻提(ti)取(qu)軌跡及其他多(duo)模態數據(ju)(ju)精度不足等各類問題。

樞(shu)途SynaData從幾個方面解決了(le)相關痛點:

1、毫米級軌跡提取引擎:單目視頻存在缺乏深度信息、物體自遮擋問題,SynaData通過整合海量先驗知識庫,實現了數據升維真實性和軌跡復原的準確性。在餐具分揀測試中,軌跡(ji)重建(jian)誤差從傳(chuan)統方法的±5厘(li)米降至±0.5厘(li)米,讓(rang)機器人的(de)抓取動作更加精準。

馬斯克宣布放棄遙操!具身機器人要靠看視頻學干活了?▲展(zhan)示提包的互聯網視頻轉化為訓(xun)練機器(qi)人拎(lin)包的數(shu)據

2、跨域Retargeting技術:動態結構適配算法,實現跨形態高精度運動重定向,將模仿學習誤差降低超50%,任務成功率提升40%,大幅降低human to humanoid遷移成本。能將視頻具身數據運用于不同類型、不同品牌、不同自由度的機器人本體上。

馬斯克宣布放棄遙操!具身機器人要靠看視頻學干活了?▲SynaData毫米級軌跡提取及跨(kua)域(yu)Retargeting技(ji)術

3、真實物理屬性約束:解決在(zai)仿真(zhen)環境中缺(que)乏物理(li)屬性(xing)(摩擦力(li)(li)、慣性(xing)、重力(li)(li)加(jia)速度(du)等)約(yue)束問題,確(que)保機器(qi)人能夠以真(zhen)實世界的物理(li)形(xing)態操作。

以“拿取外賣袋”這個任務為例,樞途SynaData從海量人手拿取袋裝物體視頻中批量提取出人手及物體軌跡、物體mesh等具身數據,并用于模型訓練。該數據集訓練的抓取模型對外賣袋的抓取成功率提升至88%

馬斯克宣布放棄遙操!具身機器人要靠看視頻學干活了?▲機械臂通過(guo)大量視頻(pin)數(shu)據(ju)學(xue)會抓袋(dai)子

據了解,SynaData將具身數據的綜合采集成本降至行業平均水平的千分之五林嘯提到,這不僅意味著數據采集成本的降低,而是從客戶提出(chu)需求到機器人真(zhen)正能(neng)實現動作(zuo)的全流程的成本降低到千分級(ji)別以下。

目前,SynaData已通過了第三方具身模型的廣泛驗證,成功應用于清華RDT、PI π0、智元UniVLA、EquiBot等主流VLA模型,推動具身智能訓練從“手把(ba)手教學”奔向“觀看(kan)教學”新(xin)范式。

林嘯介紹,SynaData在學術領域的應用,能夠為模型研發帶來新思路。此前,高校與科研機構的具身智能研究,大多依賴遙操或仿真數據集,數據場景可能會較為單一、特征相似,限制了對模型的探索。而樞途(tu)SynaData提供的數據包(bao)含20個以上(shang)的模態(tai)維度,產出涵蓋(gai)抓取、放置、組裝等逾百種任務場景的數(shu)據集,為研究人員提(ti)供了新的探(tan)索空間(jian)。

在商業化落地方面,樞途已經和國內多家頭部人形機器人企業展開合作,SynaData能幫助機器人企業實現運動控制、靈巧操作方面的能力,同一套數(shu)據適配多(duo)種不(bu)同的硬(ying)件。

馬斯克宣布放棄遙操!具身機器人要靠看視頻學干活了?

▲人(ren)形機(ji)器人(ren)學習視頻中的人(ren)類動作

結語:解鎖視頻富礦,支撐機器人走向千行百業

對于樞(shu)途科技而言,SynaData的(de)發(fa)布只是一(yi)個(ge)開始(shi)。未來,其將從三大(da)方(fang)面拓(tuo)展視(shi)頻(pin)數據采集的(de)技術邊界:

精度升級:通過引入動態遮擋(dang)建(jian)模和多(duo)視角重(zhong)建(jian)機制(zhi),將各模態重(zhong)建(jian)平均(jun)精度從目前(qian)的5毫米級(ji)進一步(bu)壓縮至2毫米以下,滿(man)足更多(duo)模態支持需(xu)求(qiu);

泛化擴展:持續擴展(zhan)支(zhi)持的機器人(ren)本體數量(liang)至100種以上,適(shi)配包含人(ren)形機器人(ren)、多(duo)類型靈巧手、協作機械臂,AGV、AMR等各類結構;

生態共建:樞途計劃于2025年四季度發布首個基于真實場景(jing)視頻的多模態具身(shen)開源數(shu)據(ju)集,與NVIDIA Isaac等(deng)仿(fang)真環境(jing)伙伴共建具身數(shu)據基礎(chu)設施。

“模型決定上限(xian),數據逼近上限(xian)。”林嘯強調,“SynaData的出現,為數據這一核心短板提供了可行解,不僅降低了數據成本,更是解鎖了互聯網上海量的視頻‘數據富礦’,讓(rang)機(ji)器(qi)人能像人類看(kan)視頻學技(ji)能一樣,高效獲(huo)取真實(shi)世界的(de)交互經驗,為機(ji)器(qi)人進入千行百(bai)業提供數據上(shang)的(de)核心支撐!