
機器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影
機器人前瞻4月27日報道,今天,靈初智能發布了分層端到端VLA+強化學習算法模型Psi-R1。R1能夠讓機器人基于Chain of Action Thought(CoAT)框架的自主推理系統,在開放環境下進行自主(zhu)推理決策(ce),完(wan)成長程復(fu)雜操(cao)作。
R1以麻將為場景,展現了機器人在開放環境中的長程靈巧操作能力,達成了30分鐘+持續CoAT超(chao)長(chang)任務時(shi)長(chang),還驗證了三重(zhong)復(fu)合交(jiao)互(hu)(hu)能力(li),即人-機(ji)交(jiao)互(hu)(hu)、機(ji)-機(ji)交(jiao)互(hu)(hu)、機(ji)-環境交(jiao)互(hu)(hu)。
機器(qi)人要學會打麻將,難在(zai)哪(na)?
- 機器人需要理解麻將的規則,確保行為符合游戲規則。
- 機器人還需要制定合理的策略,如根據手牌狀態、牌局演變以及對手行為來完成動態策略生成,決定出牌、吃碰杠等操作,涉及大量人機交互、機機交互等動作。
- 機器人操作需要完成毫米級精度的抓牌、出牌、理牌等靈巧精細動作,這對機器人的長程任務規劃、靈巧操作能力提出了巨大挑戰。
在視頻中,R1讓機器人具備了翻牌、碰杠、算牌、協作等核心能力。可以看到,機器人靈巧手攻克了觸覺-視覺模態對齊難題,實現100%準確翻起麻將牌(pai)。
機器人能夠根據牌友的出牌,構建牌局狀態機,自主構建碰、杠等策(ce)略鏈,并絲(si)滑地完成碰杠動作(zuo)。
在長程規(gui)劃(hua)上,機器人能(neng)夠記得所有人打過的所有的牌,并根據牌桌狀況動態規(gui)劃(hua)要打的牌。
兩臺機器人甚至還會相互配合,不僅僅信息共享(xiang),互相“看(kan)牌”,還能多機配合遞牌,提升(sheng)勝率(lv)。
不同于Pi,Figure等「動作單向決策」機制的VLA模型(僅能完成視覺-語言層面的CoT),靈初智能的R1模型的慢腦輸入包括行動Token,構建了首個支持「動作感知-環境反饋-動態決策」全閉環的VLA模型,實現機器人(ren)操(cao)作(zuo)的(de)視覺-語言-動作(zuo)多模態協同(tong)的(de)CoAT思維鏈,且已首度成功驗證(zheng)VLA Test-Time Scaling。
快腦S1專注于操作,涵(han)蓋(gai)了物體(ti)的遮掩抓、物體(ti)軌跡約束(shu)的操作(zuo)如拉拉鏈,工作(zuo)使用技能泛化如掃碼、打電鉆,高動態操作(zuo)如拋接球等。
慢腦S2專注于推理規劃,S1的操作(zuo)經過tokenize后,作(zuo)為S2慢腦(nao)的輸入,和語言、視覺(jue)模(mo)態融(rong)合,基于Causal VLM自回歸架構,實現多模(mo)態融(rong)合的推(tui)理和任(ren)務規(gui)劃。
快慢腦(nao)通(tong)過Action Tokenizer隱式連(lian)接(jie),端到端訓練(lian),協同(tong)完成長程任務(wu)的(de)靈巧操作。
靈初智能R1可以應用于多個場景中,例如泛工業中來料倉檢測、成品包裝等場景,零售物流中揀選、分撥、補貨、打包等場景,以及家庭服務與協作場(chang)景(jing)。
目前,該公(gong)司已與制造業(ye)、商超零售、跨境物流等行業(ye)龍頭企(qi)業(ye)展開合作,梯次布局(ju)高價值商業(ye)化場景,從泛工業(ye)向(xiang)泛零售物流,再(zai)最(zui)終邁向(xiang)家庭(ting)應用。