智東西(公眾號:zhidxcom)
作者 | GenAICon 2024

2024中(zhong)國(guo)生(sheng)成(cheng)式(shi)AI大會于4月18-19日(ri)在(zai)(zai)北京舉行,在(zai)(zai)大會第一天的(de)主會場開(kai)(kai)幕式(shi)上,北京大學助理教授、銀河(he)通用機(ji)器人創始人&CTO、智(zhi)源具身(shen)(shen)智(zhi)能(neng)中(zhong)心(xin)主任王鶴以(yi)《通向開(kai)(kai)放指(zhi)令操作的(de)具身(shen)(shen)多模態大模型系統》為(wei)題(ti)發表(biao)演(yan)講(jiang)。

成立(li)于(yu)2023年5月的銀河通用機器(qi)人,是(shi)國內具身智(zhi)能代表初創(chuang)公(gong)(gong)司之一,迄今已完(wan)成4輪融資,美(mei)團是(shi)公(gong)(gong)司外第一大(da)外部股東,北(bei)大(da)燕緣創(chuang)投、清華(hua)無限基金SEE Fund均是(shi)投資方,其累(lei)計(ji)融資額已超過1億美(mei)元(yuan)。

作為國內具身智能領域資深專家,王鶴詳細解讀了具身智能大模型的定義、范圍和關鍵技術。他談到目前面向通用機器人的具身多模態大模型的局限在于數據來源有限、很難高頻輸出動作。應對這兩大挑戰的方向,一是通過仿真世界提供訓練數據,二是采用三維模態模型提升泛化性和速度

對此,銀河通用機器人構建了三層級大模型系統,包括硬件、仿真合成數據訓練的泛化技能、大模型等。基于該系統,機器人可實現跨場景、跨物體材質、跨形態、跨物體擺放、依據人類語音指令進行的開放語義泛化抓取,成功率達95%

以下為王鶴的演講實錄:

今天(tian)我帶來(lai)的內容(rong)與機(ji)器人相關,這個(ge)話(hua)(hua)題也(ye)是今年“AI+”中最火(huo)熱的話(hua)(hua)題之一。

大模型(xing)公司(si)OpenAI和機(ji)器(qi)人(ren)(ren)公司(si)Figure AI聯手演出(chu),讓我們看到機(ji)器(qi)人(ren)(ren)在(zai)廚(chu)房里(li)拿蘋果(guo)、端盤子(zi)、放杯子(zi)的驚艷視頻。還有巨(ju)頭英偉達在(zai)GTC大會官宣(xuan)要(yao)做(zuo)Project GROOT,GROOT就是通用機(ji)器(qi)人(ren)(ren)。

那(nei)么,對于通用機(ji)器(qi)(qi)人(ren)我(wo)們的(de)期待是什么?就是它能像人(ren)一樣(yang)干(gan)各(ge)種各(ge)樣(yang)的(de)體力勞動,可以實現我(wo)們告訴機(ji)器(qi)(qi)人(ren)指令,它通過視覺去看、各(ge)種傳感(gan)(gan)器(qi)(qi)去感(gan)(gan)知,然后連續高頻(pin)輸出動作,也就是能夠聽(ting)懂我(wo)們跟(gen)它說的(de)任務指令。這(zhe)就是“言出法隨”。

此外,機器(qi)人還應該做到環境泛化,在家庭、工廠、商超等不同的環境中工作。

這樣(yang)的通用機(ji)器(qi)人顯然不是只造出機(ji)器(qi)人本(ben)體就可以,那么(me)(me)背后的技術是什(shen)么(me)(me)?什(shen)么(me)(me)賦予了它這樣(yang)的能力?就是具身多(duo)模態(tai)大(da)模型。

一、拆解大模型分類,自動駕駛是典型的具身大模型

具身(shen)多模態(tai)大(da)(da)模型(xing)就是能高頻輸(shu)出動作(zuo)的大(da)(da)模型(xing),我(wo)將其分為(wei)非具身(shen)和具身(shen)大(da)(da)模型(xing)兩類。

今天(tian)前面看到的一些大模型(xing)實際是(shi)非具(ju)身(shen)大模型(xing),如GPT-4、GPT-4V、Sora等,它們的特點是(shi),輸出都是(shi)給(gei)人(ren)看或者(zhe)給(gei)人(ren)讀(du)的。無論語言、圖(tu)片還是(shi)視頻大模型(xing),最終服務的對(dui)象是(shi)人(ren),顯示的設備是(shi)各種手機、電腦、AR設備等。

而具身大模型的特點是:擁有一個身體,最終輸出的對象是身體的運動

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

這樣來看,自動駕駛大模型就是一種典型的具身大模型,比如特斯拉的FSD全自(zi)動駕駛(shi)系統,今年(nian)8月(yue)號(hao)稱要開始無(wu)人出租車業務Robotaix。

自動(dong)駕駛大(da)(da)模型的(de)輸入是視覺信號和終點的(de)位(wei)置,輸出是方向盤的(de)動(dong)作(zuo)和油門(men)、剎(cha)車的(de)大(da)(da)小(xiao)。機器人(ren)相比于車來說,動(dong)作(zuo)空間自由度(du)更高(gao),輸出是底盤或者腿、手臂、手指等全身的(de)運動(dong)。這樣的(de)機器人(ren)大(da)(da)模型也是這幾年(nian)學術界、工(gong)業界研究的(de)熱點。

谷歌RT-2大模型是端到端的具身大模型代表,能(neng)夠把(ba)(ba)香蕉(jiao)放到(dao)(dao)寫(xie)有(you)“3”的(de)(de)紙上,把(ba)(ba)草(cao)莓放到(dao)(dao)正(zheng)確的(de)(de)碗里。“找到(dao)(dao)正(zheng)確的(de)(de)碗”,這背后需要(yao)大模(mo)型的(de)(de)通用感知和理解能(neng)力(li),以及連貫的(de)(de)動(dong)作生成(cheng)能(neng)力(li)。還有(you)把(ba)(ba)足球移到(dao)(dao)籃球旁(pang)(pang)邊(bian),把(ba)(ba)可樂罐(guan)移到(dao)(dao)Taylor Swift的(de)(de)照(zhao)片旁(pang)(pang)邊(bian),將(jiang)紅牛移動(dong)到(dao)(dao)“H”字母上。

這樣的具身大模型,如果(guo)能完全達(da)到Open-Instruction(開放(fang)指令)、Cross-Environment(跨環(huan)境(jing)泛化(hua)),就能替代大量(liang)的體力勞(lao)動。

今天,全(quan)球語言大模型、視頻(pin)大模型、圖片大模型、自動駕駛大模型的(de)(de)市場(chang)規(gui)模都達(da)到至少千(qian)億美元(yuan),試問(wen)如果能有一個完成(cheng)任(ren)何指令的(de)(de)機器人代替人,它的(de)(de)市場(chang)規(gui)模會有多大?可能相比于目前車(che)的(de)(de)市場(chang)提升兩(liang)到三個數量(liang)級。

二、通用機器人面臨兩大局限性:數據來源有限,機器人反射弧長

谷歌的RT-2大模型背后就是通過多模態大模型輸出動作,那么這樣的大模型是否已經成熟了?是否今年我們可以期待有機器人保姆在家里干活?目前,無論OpenAI、英偉達,還是谷歌,做通用機器人都還有巨大的局限性

谷歌的技術局限性第一點在于,具身機器人數據來源非常有限,谷歌(ge)在Mountain?Village(美(mei)國加(jia)州)辦(ban)公室的(de)廚(chu)房里(li)采集(ji)了17個月,得(de)到13萬條數據(ju),使得(de)其機器人在谷歌(ge)的(de)廚(chu)房里(li)表現可以非(fei)常好。

但(dan)一旦出了(le)這(zhe)個廚房(fang),需要(yao)考察其環境泛化(hua)(hua)性,它的(de)(de)成功率就從97%驟(zou)降到(dao)30%左(zuo)右。并(bing)且這(zhe)種泛化(hua)(hua)是(shi)有(you)選擇的(de)(de)泛化(hua)(hua),不是(shi)將(jiang)其直接放到(dao)施工工地、非常嘈雜(za)的(de)(de)后廚等(deng)場景中,它最大的(de)(de)問(wen)題就是(shi)數(shu)據采集沒有(you)辦法(fa)做到(dao)Scalable(可(ke)擴展)。

今天,有(you)(you)百萬(wan)臺車主在開特斯拉,為特斯拉的(de)端(duan)到端(duan)自(zi)動駕駛模(mo)型提供數(shu)據(ju),互聯網上(shang)有(you)(you)無窮(qiong)無盡的(de)用戶(hu)上(shang)傳(chuan)的(de)照片(pian)等作為多模(mo)態(tai)大模(mo)型的(de)數(shu)據(ju),那(nei)么機器人大模(mo)型的(de)數(shu)據(ju)在哪兒?這是(shi)谷歌、OpenAI、英(ying)偉達沒有(you)(you)完(wan)全解決(jue)的(de)問題。

第二點局限為,RT-2大模型中包含了谷歌上一代大模型PaLM-E,它的速度只能達到1~3Hz,機器人的反射弧長達0.3秒甚至1秒,這樣(yang)的機器(qi)人恐怕你也不敢用(yong)。

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

OpenAI和Figure AI合作用的是小模型,它能夠達到200Hz的動作輸出頻率,大模型如何做到以200Hz的頻率輸出動作也成為通用機器人領域的重要問題

三、打造三層級大模型系統,解決泛化、響應速度難題

今天給大家(jia)帶來一些銀河通用在這個問題上的探索。

如何能夠做到又快又泛化?泛化說的是數據問題,今天真正可以滿足機器人大模型需求的數據且含有動作標簽的數據,只能來自于仿真世界、物理傳感器

在2017年,我(wo)讀博士期間就(jiu)開始(shi)研(yan)究如何通過仿(fang)(fang)真(zhen)(zhen)生成(cheng)大量的(de)合成(cheng)數據,來訓練機器(qi)人(ren)的(de)視(shi)覺和動作。今天我(wo)們可(ke)以把各種(zhong)家用(yong)電器(qi)等物(wu)體搬到仿(fang)(fang)真(zhen)(zhen)設備里(li)面,并且可(ke)以真(zhen)(zhen)正做到物(wu)理仿(fang)(fang)真(zhen)(zhen),機器(qi)人(ren)要沿(yan)著一(yi)定方向用(yong)力拉抽屜,而不是像游戲里(li)面手一(yi)過去抽屜就(jiu)彈開了(le)。如果是那樣的(de)話,機器(qi)人(ren)學到的(de)東西在真(zhen)(zhen)實世界(jie)里(li)面沒有用(yong)。

我(wo)們在仿(fang)真(zhen)世(shi)界(jie)里面(mian)放(fang)滿了(le)各(ge)(ge)種各(ge)(ge)樣(yang)的(de)物(wu)體,賦予它跟(gen)真(zhen)實世(shi)界(jie)相同的(de)交互方(fang)式(shi),我(wo)們再把傳感(gan)器放(fang)到仿(fang)真(zhen)環(huan)境(jing)里面(mian)去訓練,就擁有了(le)一個足夠(gou)好的(de)數(shu)據生成來源(yuan)。

那么如何做到快?就是小模型,如同OpenAI和Figure AI的(de)小(xiao)模型一樣(yang),高(gao)頻輸出動作。三維視(shi)覺的(de)小(xiao)模型給我(wo)們帶來了(le)一個比Figure AI更(geng)好的(de)選(xuan)擇方案。

Figure AI的(de)方案(an)采用了(le)二維(wei)視覺(jue)模型(xing),二維(wei)視覺(jue)模型(xing)最大的(de)特點是很難泛化。如果你之前在黑色房(fang)間做訓練(lian),那么換成白色的(de)房(fang)間此前的(de)訓練(lian)就白費了(le)。三維(wei)視覺(jue)看到(dao)的(de)是點云、物(wu)體的(de)幾何,不(bu)會(hui)受光照、紋理、顏色影響。

那么,這樣可以做到泛(fan)化、快,還是從(cong)仿真數據里面學(xue)習(xi)的(de)模型,能不能解決我(wo)們真實世界開放與易操作(zuo)的(de)問(wen)題?今天我(wo)把我(wo)們做的(de)標志性成果跟(gen)大(da)家分享(xiang)一下。

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

我(wo)們(men)用的是(shi)三層級(ji)大(da)模型系(xi)統,底層是(shi)硬(ying)件(jian)層,中間層是(shi)通過仿真合成數(shu)據不用任何真實世界數(shu)據訓練的泛化(hua)的技能(neng),包括自主建圖(tu)、自主導航(hang)、物(wu)體抓取、開門開抽屜(ti)開冰箱、移動操作、掛衣(yi)服疊衣(yi)服柔(rou)性物(wu)體操作的泛化(hua)技能(neng)。

這里談泛化的原因為,我們可以在仿真環境里生成千萬級場景,十億規模的動作來訓練機器人,讓其可以應對各種真實世界的情形和挑戰。這種采集方式,相對于在真實世界里用遙控器遙控機器人采集具有極高的效率和豐富的數據來源

最上層是大模型,可(ke)以調度中間技能API,來實現完(wan)整的(de)從任務的(de)感知、規劃到(dao)執行(xing)的(de)全流(liu)程。

四、大型仿真平臺Open6DOR,破解六自由度操作難題

先展示第一個例子,我們如何做開放語義關節類物體的操作

我(wo)(wo)們與斯坦福大學(xue)合作(zuo),機器人執(zhi)行開關微(wei)波爐、開鍋、使(shi)用攪拌(ban)機等任務時,背后不是(shi)靠我(wo)(wo)們去挨個(ge)訓練不同類(lei)別,而是(shi)直(zhi)接在這些物體上測試我(wo)(wo)們的模型。

這一技能來源于CVPR 2023的滿分論文,我們提供了世界上第一個以零件為中心的數據集,該數(shu)據(ju)集(ji)覆蓋(gai)(gai)了(le)各種家用電器上(shang)可(ke)能存在的主要操作零部件,包括旋(xuan)轉蓋(gai)(gai)、推蓋(gai)(gai)、轉鈕、按鈕、直線把手、圓形(xing)把手、門等。

然后我們把這些(xie)零部件放在仿真世界里面,并標注了它(ta)的位(wei)姿、所(suo)有軸的使(shi)用(yong)方法,從而幫(bang)助推理(li)相應開門等操作的方法。

這樣的合成數據集就能教機(ji)器人(ren)如(ru)何去開生活中(zhong)沒見過的柜子,機(ji)器人(ren)只要有三維點云、找到把(ba)手(shou)的位置,正確抓取把(ba)手(shou)在沿著柜子的方向一(yi)拉就可以(yi)打開任何抽屜。

我們的(de)實驗也證實了機(ji)器人可以完全依(yi)賴仿真(zhen)(zhen)世(shi)界的(de)數據(ju),實現真(zhen)(zhen)實世(shi)界里關節(jie)類物體的(de)泛(fan)化操作,包括沒見過(guo)的(de)物體類別,如遙控器、計算器、圓形把手的(de)鍋蓋等。圖上(shang)面(mian)(mian)是三維(wei)視覺的(de)輸出(chu),下面(mian)(mian)是機(ji)器人技能的(de)展示。

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

這樣的技能如何與大模型相結合?GPT-4V與我們十分互補,GPT-4V是(shi)典型的(de)二(er)維(wei)語(yu)言(yan)雙(shuang)模(mo)態大模(mo)型,它(ta)具(ju)有很強的(de)推理和(he)感知(zhi)能力(li)。但其缺點(dian)在(zai)于,會偶(ou)爾看不(bu)出來,對物體(ti)零(ling)部件的(de)數量(liang)判斷錯誤,且不(bu)知(zhi)道零(ling)部件在(zai)三維(wei)空間中的(de)具(ju)體(ti)位置(zhi),定位能力(li)為零(ling)。

三維(wei)視(shi)覺的模型就可以提供GPT-4V檢測到零部件的數量(liang)、位(wei)置和形態,把它(ta)作為Prompt交(jiao)給GPT-4V,讓(rang)它(ta)去思(si)考這個東西怎么去用。

我(wo)舉一(yi)個例子,當我(wo)們直接把檢測到的微波爐(lu)零部(bu)件交給GPT-4V作為Prompt時,讓它(ta)生(sheng)成關于這個場景的綜合描述,它(ta)會說(shuo)這個微波爐(lu)有(you)直線(xian)門(men)、直線(xian)把手、按鈕(niu)和旋鈕(niu),然后問它(ta):“如果我(wo)想打開微波爐(lu),我(wo)應該動(dong)哪個零部(bu)件?使用哪個API?”

大模型的(de)回(hui)應(ying)是“動把手,調(diao)用的(de)API是繞門軸轉90度”。那么,把手在(zai)(zai)哪里、門軸在(zai)(zai)哪里是三維視覺給它(ta)的(de),GPT-4V不能輸出三維的(de)坐標和位(wei)置。

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

然后機器人嘗試時,我(wo)們發現(xian)這(zhe)個操(cao)作(zuo)看似合理,但實際操(cao)作(zuo)卻打(da)不(bu)開,這(zhe)是為什么?因為微波(bo)爐不(bu)可以靠蠻力開,這(zhe)時候我(wo)們將(jiang)“門沒(mei)有(you)打(da)開,只(zhi)旋轉(zhuan)了零點幾度(du)”的(de)三維視覺反饋(kui)給GPT-4V,問它接下來怎(zen)么辦。

大模型(xing)給出操作時(shi),可(ke)(ke)以(yi)調用檢測出的(de)按鈕再(zai)開門。這體現了大模型(xing)通過豐富的(de)語料訓(xun)練,已經產(chan)生了足夠多的(de)知(zhi)識。我們可(ke)(ke)以(yi)直接(jie)信任它進行操作。

這樣(yang)的例子(zi)很(hen)多,我們最開(kai)始講(jiang)的家用電器的零部(bu)件,GPT-4V知道零部(bu)件的位置等就可以進行操作。這是(shi)真正的Open-Instruction(開(kai)放指(zhi)令),它(ta)關于環境(jing)是(shi)泛(fan)化的,不受環境(jing)的顏色、光照影(ying)響,只關心幾(ji)何。

第二個例子是如何做到六自由度物體的自由擺放。六(liu)自(zi)由度(du)指(zhi)的是三(san)(san)自(zi)由度(du)的平動、三(san)(san)自(zi)由度(du)的轉動。

谷歌的(de)(de)工作(zuo)(zuo)是三自(zi)由度(du)的(de)(de)開放(fang)語義(yi)操(cao)作(zuo)(zuo),它只能做到放(fang)在(zai)哪(na)兒(er),不能做到朝(chao)哪(na)兒(er)放(fang),其沒(mei)有方向改(gai)概念只有位置概念。我們在(zai)全球率先提出桌面級(ji)操(cao)作(zuo)(zuo)要解決的(de)(de)里程碑(bei)難題就是六自(zi)由度(du)操(cao)作(zuo)(zuo),能夠(gou)在(zai)桌面同時執行(xing)位置和(he)朝(chao)向的(de)(de)指令(ling),我們將其命名為Open6DOR。

Open6DOR是(shi)(shi)大(da)型(xing)仿真平臺,里面包含(han)2500個各種各樣的任務。這些(xie)任務不用(yong)于訓練,而是(shi)(shi)拿來檢測具身多模態(tai)大(da)模型(xing)能不能完成,這其(qi)中(zhong)有200多個家用(yong)常用(yong)物體(ti)。

其主要關注三類任務追蹤,第一是只關心位置,比如把蘋果放到勺子的右邊、把瓶子放到錘子和改錐的中間,這就是Position-track;第二是Rotation-track,把錘子沖向左、易拉罐的標簽朝左、把碗上下顛倒。而實際我們需要的是Position+Rotation的任務執行,也就是六自由度Track,比如把盒子放到鍋和鍋蓋之間并讓標簽沖上,或者把卷尺放到中間且讓它立起來,像這樣的操作是桌面級操作里的關鍵性里程碑

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

誰能夠率先完成2500個任務,就說明你的大模型已經初步具備了Open Instuction能力。

五、三維視覺小模型快速生成動作,大模型規劃

目前,針對(dui)2000多個任務,我們自(zi)己提了(le)一套方法。

首先是抓取能力,這(zhe)是銀河通用的獨有技術(shu),我們(men)研發出全(quan)球首個可以(yi)實現(xian)基(ji)于仿真合(he)成(cheng)數(shu)據(ju)訓練任意材(cai)(cai)質(zhi)的技術(shu)。通過海量的合(he)成(cheng)數(shu)據(ju),我們(men)在全(quan)球第一次達(da)到(dao)了跨場景、跨物體材(cai)(cai)質(zhi)、跨形態、跨物體擺放實現(xian)泛(fan)化抓取(qu),并且首次達(da)到(dao)95%的抓取(qu)成(cheng)功率。

此(ci)外,對于(yu)純透明、純反(fan)光(guang)等物(wu)體的(de)泛(fan)化抓(zhua)取對于(yu)二維(wei)視(shi)覺、三維(wei)視(shi)覺都有極(ji)大的(de)挑戰性。可以看到,我們的(de)方法能實時將透明高光(guang)物(wu)體的(de)深(shen)度進行重建,并據此(ci)進行物(wu)體抓(zhua)取。

下(xia)圖中演示的(de)抓(zhua)取(qu)(qu)不(bu)是簡單的(de)從上往(wang)下(xia)抓(zhua),它其(qi)實(shi)是六自(zi)由(you)度的(de)抓(zhua)取(qu)(qu),既有三自(zi)由(you)度的(de)轉(zhuan)動,又有三自(zi)由(you)度的(de)平動。此外,當其(qi)耦合大模型后,可(ke)以實(shi)現(xian)開(kai)放語義的(de)物體抓(zhua)取(qu)(qu),從抓(zhua)取(qu)(qu)能力上今年我們已經實(shi)現(xian)了泛化的(de)一(yi)指令抓(zhua)取(qu)(qu)。

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

那么(me)如(ru)何做(zuo)到(dao)位置抓取有效?下面四張圖演示的指令分別是,抽一(yi)張紙蓋在改錐上、把(ba)(ba)瓶(ping)子(zi)豎直放到(dao)紅碗里(li)、把(ba)(ba)足球放到(dao)抽屜里(li)、把(ba)(ba)水豚放到(dao)金屬杯子(zi)里(li)面。

它背后是(shi)怎(zen)么做的?首先我們要用GPT-4V提取(qu)指(zhi)令(ling)中的關鍵(jian)信息,這里的指(zhi)令(ling)是(shi)“把(ba)水(shui)豚放到寫(xie)著‘Open6DOR’的紙上,并(bing)且(qie)把(ba)水(shui)豚沖前(qian)”,我們用GPT-4V+Grounded-SAM把(ba)所有(you)的物(wu)(wu)體進(jin)行分割,并(bing)且(qie)把(ba)其(qi)三維Bounding Box(邊界框)輸出給GPT-4V。GPT-4V理解(jie)這些物(wu)(wu)體現在的位置后,就會輸出應該(gai)把(ba)物(wu)(wu)體放在哪個位置的指(zhi)令(ling)。

那(nei)么旋轉怎么辦(ban)?GPT-4V是否可以直接輸出旋轉矩陣?輸出機(ji)械臂左轉上轉橫轉分別多少度?答案是不能,GPT-4V沒有這個能力,它并不知道(dao)轉軸(zhou)在(zai)哪里。

我們在全球提出了Real-same-real的Pipeline,先(xian)將真實物(wu)體在仿真環(huan)境里面重建,再(zai)把重建的(de)(de)物(wu)體Mesh自由落體撒(sa)滿整個仿真環(huan)境,讓(rang)物(wu)體處于各種可能待的(de)(de)位置。然后(hou)將這(zhe)些位置交(jiao)給GPT-4V評判,誰滿足語(yu)言指(zhi)令的(de)(de)需求,隨后(hou)GPT-4V通過兩輪篩選,選擇出符合(he)指(zhi)令物(wu)體的(de)(de)擺(bai)放位置。

銀河通用王鶴:讓具身智能機器人“言出法隨”,需攻克兩大局限性丨GenAICon 2024

這樣(yang)的(de)仿真是(shi)全(quan)并(bing)行,可以(yi)很快完(wan)成(cheng),其(qi)中(zhong)比較慢的(de)就是(shi)GPT-4V需要在很多張(zhang)圖(tu)里選最(zui)好的(de)一(yi)張(zhang)圖(tu)。我們會將十張(zhang)圖(tu)拼成(cheng)一(yi)張(zhang)圖(tu),上面(mian)打出標簽0~9,GPT-4V直接輸出選擇哪(na)個,可以(yi)同(tong)時解決位置在哪(na)兒、朝向在哪(na)兒的(de)問題,后面(mian)就用我們的(de)抓取算法結合路徑規劃,將任(ren)務完(wan)成(cheng)。

我今天談(tan)的(de)例子是,當我們(men)用(yong)GPT-4V端(duan)到端(duan)去做動作(zuo)生成(cheng)時,它并(bing)不快(kuai),就像(xiang)視頻生成(cheng)現在是離線(xian)的(de)一樣(yang)。而機(ji)器人(ren)需要在線(xian)實(shi)時生成(cheng),因此我們(men)提(ti)出了用(yong)中間(jian)的(de)三維視覺小模型進(jin)行動作(zuo)快(kuai)速(su)生成(cheng),大模型進(jin)行規劃的(de)三層(ceng)級思路。

但未來還是端到端,誰能做好端到端的視覺、語言、動作大模型?這里隱含了一個條件——沒有做好小模型的公司、沒有能讓動作小模型泛化的公司,不可能讓大模型泛化。因為大模(mo)型(xing)在單一任(ren)務上的數據需求遠高于小模(mo)型(xing)。

銀河通用攜帶著一系列從抓取、放置、柔性物體操作到關節類物體操作等各種小模型,我們將百川歸海,最終融匯到大模型里實現通用機器人。在這一點上,我們已經率先打造了全球首個跨場景泛化的導航大模型,你可以用一句話讓機器人在沒(mei)見過(guo)的(de)環境里面跟著指令(ling)走,這(zhe)樣的(de)機器人沒(mei)有(you)任何三維定(ding)位、建圖、激光雷達,只有(you)圖片作為(wei)輸(shu)入,這(zhe)與人走路(lu)找路(lu)的(de)方(fang)式(shi)一模一樣。

我們相信這樣通用(yong)、泛化(hua)的(de)端(duan)到端(duan)的(de)Vision Language Action Model(視覺語言動(dong)作大(da)模型)將(jiang)迅(xun)速革命現有的(de)機器人產業格局,在非具(ju)身大(da)模型和自動(dong)駕駛大(da)模型之后(hou)創造出一條萬億的(de)賽道。

銀河通用(yong)成(cheng)立于去年6月,用(yong)10個月的時間完成(cheng)四輪融資,累(lei)計融資額(e)達到1億(yi)美元(yuan),我們有(you)一眾明星投資人。

以上是王鶴演講內容的完整整理。