智東西(公眾號:zhidxcom)
編譯 | 陳駿達
編輯 | 心緣

機(ji)器人(ren)發展(zhan)的(de)“核動力”究竟(jing)是什(shen)么?

智(zhi)(zhi)東西5月13日報道,近日,英偉達AI總監兼杰(jie)出科(ke)學家、Project GR00T(人(ren)形機器(qi)人(ren)項目)與GEAR實驗(yan)室(shi)聯合負(fu)責人(ren)Jim Fan用17分鐘時間,在紅杉AI Ascent大會上分享了他對具身(shen)智(zhi)(zhi)能領域未來面臨的(de)核心(xin)挑戰和對應解(jie)法。

Jim Fan認為,大語言模型已突破傳統圖靈測試,但機器人在物理世界的表現仍遠未達到人類水平,數據是這一過程中的最大瓶頸。機器人需要的是(shi)物理交(jiao)互的真實(shi)數據,而(er)這些數據無法從網(wang)頁抓取,只能靠人類手動采集,效率極低。

面對這一挑戰,Jim Fan和英偉達團隊希望在仿真世界中找尋解法。在超高速仿真打造的(de)數字孿生(sheng)(sheng)中,機器人可(ke)在2小時內完(wan)成相當(dang)于(yu)現(xian)實世界10年的(de)訓(xun)練量,再將知(zhi)識無(wu)縫(feng)遷移到物理世界。3D生(sheng)(sheng)成、紋理生(sheng)(sheng)成等(deng)生(sheng)(sheng)成式AI技術,則將進(jin)一步降低仿真訓(xun)練對人工數據(ju)的(de)依賴(lai)。

當(dang)視頻生成模型構(gou)建的虛(xu)擬(ni)世(shi)界逐漸(jian)成型,機器(qi)人(ren)將能(neng)(neng)夠在(zai)無(wu)限可能(neng)(neng)的“夢境(jing)空間”中訓(xun)練,無(wu)需依賴人(ren)工建模,不(bu)僅成本極低,還通過(guo)提(ti)示詞自由創造反事實(shi)的訓(xun)練場景,進一步拓寬機器(qi)人(ren)的能(neng)(neng)力邊界。

未來,世界模(mo)型與仿真技術的深度(du)融合,將推動機器人技術進入“仿真2.0”時代,為具身智能發展提供源(yuan)源(yuan)不(bu)斷的“核動力”當(dang)機器(qi)人獲得操控物(wu)理世界的能(neng)力,并最終演化為無(wu)處(chu)不(bu)在的“環境智能(neng)”時,人類突破“物(wu)理圖靈測(ce)試”的臨界點就將(jiang)到來。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

以下是Jim Fan今年5月(yue)在紅杉AI Ascent大會上所發表演講(jiang)的完整編譯(為(wei)提高可讀性,智東西(xi)在不違背原意(yi)的前提下進(jin)行了(le)一定的增刪(shan)修(xiu)改):

一、機器人尚未通過“物理圖靈測試”,數據成最大障礙

幾天前(qian),有(you)一(yi)篇博(bo)客文章(zhang)引起了我(wo)的(de)注意。這(zhe)篇文章(zhang)說,我(wo)們通(tong)過(guo)了圖靈(ling)測試(shi)(shi),卻無人(ren)(ren)在意。圖靈(ling)測試(shi)(shi)曾(ceng)經(jing)是(shi)計(ji)算機(ji)(ji)科學(xue)的(de)圣杯,如(ru)果一(yi)臺機(ji)(ji)器能讓(rang)人(ren)(ren)無法通(tong)過(guo)對(dui)話分辨它(ta)是(shi)人(ren)(ren)還是(shi)機(ji)(ji)器,就算通(tong)過(guo)了測試(shi)(shi)。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

現在,我們已(yi)經(jing)實現了這一目(mu)標,自然(ran)而然(ran)地就實現了。不過,當(dang)OpenAI o3-mini思考的(de)時(shi)候多(duo)花(hua)了幾秒鐘,或者Claude無法調試代碼時(shi),人們還是一樣會感(gan)到不滿。

我們已經(jing)習慣于把每一個大語言模型領域(yu)的(de)(de)突破都(dou)當作是稀松平常的(de)(de)事情。說實話,在座的(de)(de)各位(AI業內人(ren)士)是最難取悅的(de)(de)。

今天,我想提出一個新的概念,叫做“物理圖靈測試”。這(zhe)(zhe)個(ge)(ge)測(ce)試大概是這(zhe)(zhe)樣的:假設你(ni)在周日晚(wan)上舉辦了(le)(le)一個(ge)(ge)黑客馬(ma)拉松(song)派對,家(jia)里一片狼藉。周一早上你(ni)想(xiang)找人收拾殘局,再準備(bei)頓燭光(guang)晚(wan)餐哄伴侶(lv)開心。當(dang)你(ni)回家(jia)時,如果(guo)無法判斷這(zhe)(zhe)是人類還是機器(qi)人的勞動成果(guo),這(zhe)(zhe)就算(suan)通過物理圖靈測(ce)試了(le)(le)。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

那么我(wo)們現在(zai)離這(zhe)(zhe)個目標還有多遠?我(wo)們可以看幾個例子。這(zhe)(zhe)臺人(ren)形機器(qi)(qi)人(ren)看上去(qu)不太行,機器(qi)(qi)狗踩到香(xiang)蕉(jiao)皮就滑倒了,而這(zhe)(zhe)個做牛(niu)奶(nai)(nai)燕麥的機器(qi)(qi)人(ren)準確(que)識別了牛(niu)奶(nai)(nai),但其他都搞(gao)得一團糟。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

那么,為什么解決物理圖靈測試如此困難呢?他們做大語言模型的研究人員很喜歡抱怨,最近Ilya把互聯網稱作是AI發展的“化石燃料”,而大語言模(mo)型預訓練的數(shu)據要用(yong)光了。不過,只要和(he)機器人研究(jiu)者(zhe)共(gong)度一天,你就會知(zhi)道這些做大語言模(mo)型研究(jiu)的科(ke)學家都被“寵壞了”。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

研究機(ji)器人的(de)(de)學者根本沒有所謂的(de)(de)“化石燃(ran)料”可用。在英偉(wei)達總部的這家小餐廳里,我們通過遙操(cao)作機(ji)器人收集數據。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

而數據(ju)是長(chang)這(zhe)樣的(de)(下圖)。這(zhe)是機器人關節的(de)控制信號,連續(xu)的(de)數值,隨著時(shi)間變化。從互聯網(wang)上可找不(bu)到(dao)這(zhe)種(zhong)數據(ju),維(wei)基(ji)百科里(li)沒(mei)有,YouTube里(li)沒(mei)有,Reddit里(li)也沒(mei)有。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

我們必須親自收集這些數據,需要使用一種非常復雜且很昂貴的方法,叫做遙操作。讓一個(ge)(ge)人戴著一個(ge)(ge)VR頭盔(kui),這個(ge)(ge)頭盔(kui)可(ke)以識別手部姿勢(shi),并傳輸到(dao)機(ji)(ji)器(qi)人上(shang)(shang)。通過這種方式(shi),操作者可(ke)以教(jiao)會(hui)機(ji)(ji)器(qi)人各種操作,比(bi)如從烤面包(bao)(bao)機(ji)(ji)中拿起(qi)一片面包(bao)(bao),然后倒(dao)上(shang)(shang)蜂蜜。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

這是一(yi)個非常緩慢和痛(tong)苦的過程(cheng),基本(ben)上(shang)不(bu)具(ju)備可拓展性。機器人(ren)(ren)訓(xun)(xun)練燒掉(diao)的數據是“人(ren)(ren)類”,因為數據需要(yao)人(ren)(ren)類手工采集。更(geng)糟糕的是,每臺(tai)機器人(ren)(ren)每天理論上(shang)最多(duo)也就(jiu)訓(xun)(xun)練24小時,而(er)實際時間會更(geng)短。人(ren)(ren)會累(lei),機器人(ren)(ren)可能比人(ren)(ren)還累(lei)。

二、仿真讓機器人實現“超人”表現,2小時完成10年訓練量

那么,我們該如何突破這個瓶頸?機器人研究的“核動力”是什么?我們不能永遠依賴“化石燃料”。答(da)案在仿真世界。

我們可(ke)以(yi)脫離物理世(shi)界(jie),然后在仿真(zhen)世(shi)界(jie)中(zhong)進行訓練,甚至可(ke)以(yi)讓機(ji)器(qi)(qi)人(ren)完成超人(ren)類(lei)的靈巧任務,比(bi)(bi)如轉筆。這對我來說(shuo)已經是超人(ren)的技能了,我不會轉筆,而機(ji)器(qi)(qi)人(ren)至少在仿真(zhen)世(shi)界(jie)中(zhong)可(ke)以(yi)做得(de)比(bi)(bi)我還好。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

那么,我們如何訓(xun)練靈巧(qiao)手做(zuo)這樣(yang)一個復雜的(de)任務(wu)呢?關鍵有兩點(dian)。

第一點是,必須(xu)以比現實快(kuai)1萬(wan)倍的速度進行仿真。這意味著我們需要在單塊GPU上并行(xing)運行(xing)1萬個物理仿真(zhen)環境。

第二點是,1萬個(ge)環境(jing)的(de)副本不能完全相同(tong),必(bi)須改變(bian)一些(xie)參(can)數,如重力、摩擦和(he)重量(liang),我們稱之為域(yu)隨機化。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

這便是所謂的仿真原則(Simulation Principle)。這一原則為什么有效?想象一下,如果一個神經網絡能夠控制機器人在一百萬個不同的世界中解決問題,那么它就很有可能解決第一百萬零一個世界中的問題,即我們的物理現實。換句話說,我(wo)們的物理世界只是這種(zhong)訓練所涵蓋的各種(zhong)可能性中的一種(zhong)情況(kuang)。

我們(men)(men)該如何應用這(zhe)一(yi)原則(ze)呢?我們(men)(men)可以(yi)建(jian)立一(yi)個數字孿(luan)生(Digital Twin),即機器(qi)人和世(shi)界(jie)(jie)的(de)1:1副本。在仿(fang)真(zhen)(zhen)(zhen)世(shi)界(jie)(jie)中訓練(lian),然后在真(zhen)(zhen)(zhen)實世(shi)界(jie)(jie)里測試。仿(fang)真(zhen)(zhen)(zhen)世(shi)界(jie)(jie)的(de)知識(shi)可以(yi)直接(jie)遷移(yi),無需(xu)調整(zheng)。

這是(shi)我們嘗(chang)試過(guo)的(de)(de)(de)最讓人印象深刻(ke)的(de)(de)(de)案例(li)。我們在(zai)(zai)仿真世界(jie)中(zhong)訓練(lian)機器人在(zai)(zai)瑜伽球上行走,之后將其遷移(yi)到(dao)真實世界(jie)中(zhong)。可以看到(dao)我們的(de)(de)(de)研究(jiu)員正(zheng)在(zai)(zai)真實世界(jie)溜機器狗,畫面看上去超級(ji)奇(qi)怪,就像《黑(hei)鏡》的(de)(de)(de)一集(ji)。我們的(de)(de)(de)一位研究(jiu)員還嘗(chang)試了讓真正(zheng)的(de)(de)(de)狗在(zai)(zai)瑜伽球上行走,狗是(shi)做不到(dao)的(de)(de)(de)。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

接下(xia)來(lai),我們(men)也可以(yi)將其應用于更(geng)復雜的機器(qi)人,如人形(xing)機器(qi)人。畫面中的人形(xing)機器(qi)人在學習行走,它們(men)僅用了2小時(shi)的仿(fang)真時(shi)間,就完成了真實世(shi)界(jie)里耗(hao)時(shi)10年(nian)才能(neng)完成的訓練(lian),之后(hou)我們(men)可以(yi)將這些技能(neng)遷(qian)移到現實世(shi)界(jie)。而仿(fang)真的效果(guo)并不取決于本體。只(zhi)要有機器(qi)人模型(xing),進行仿(fang)真訓練(lian),就可以(yi)行走。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

三、從“數字孿生”到“數字表親”,仿真無需1:1復刻

除了(le)讓機(ji)器(qi)人(ren)學會行走之(zhi)外,我(wo)們(men)(men)還能做些什(shen)么呢(ni)?所以(yi),正如我(wo)們(men)(men)控制(zhi)我(wo)們(men)(men)的身體(ti)一(yi)樣,你可以(yi)跟(gen)(gen)蹤(zong)任何你想要(yao)的姿(zi)勢,跟(gen)(gen)蹤(zong)關鍵(jian)點,跟(gen)(gen)隨任意的速度向量。這被稱為人(ren)形機(ji)器(qi)人(ren)的全身控制(zhi)問題。

這(zhe)一(yi)問題非常(chang)困難,但我們(men)可以(yi)在1萬個并行(xing)(xing)(xing)運行(xing)(xing)(xing)的仿真中(zhong)進行(xing)(xing)(xing)訓練,然(ran)后直接將其(qi)轉移到真實機器人身(shen)上,無需任何微調。

在英偉達的實驗室,我們已經進行了很多訓練,可以看到機器人所做的運動是十分復雜的。可以模仿人類的敏捷動作,同時保持平衡。150萬個參數的神經網絡就可以準確地捕捉人體的下意識動作。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

在這張體現速度與仿真多樣性的圖表,上述仿真可以被稱為“仿真1.0”,即數(shu)字(zi)孿生范式,是(shi)一個經典的矢量(liang)化物理引擎,運行速度可以達到(dao)每秒1萬幀到(dao)100萬幀。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

但問題是,這一(yi)(yi)仿(fang)真的實現,必(bi)須依(yi)賴(lai)數字孿生(sheng)。需要人(ren)工(gong)建模一(yi)(yi)個機器人(ren),建立一(yi)(yi)個環境(jing),這是非(fei)常繁瑣的工(gong)作(zuo),耗時耗力。想(xiang)象一(yi)(yi)下,如果我們能將(jiang)仿(fang)真中(zhong)的部分(fen)事物用生(sheng)成的方式呈現呢(ni)?

下圖中所有的(de)3D資產都是由3D生(sheng)成模型生(sheng)成的(de)。紋(wen)理(li)是Stable Diffusion生(sheng)成的(de),或(huo)者也可以(yi)使用(yong)任意的(de)擴(kuo)散模型。布局是通過提示(shi)詞(ci)指導大模型撰(zhuan)寫XML文(wen)件生(sheng)成的(de)。我們將這些元素組(zu)合起來,建立了一個叫做RoboCasa的(de)框架(jia)。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

RoboCasa是(shi)一個大規模(mo)仿(fang)真(zhen)平臺,用于(yu)日常任務(wu)的仿(fang)真(zhen)。在這(zhe)個系統(tong)中,除(chu)了機器人本體之外,所有視(shi)覺元素都(dou)是(shi)由AI生成的。平臺支(zhi)持(chi)靈(ling)活的場景組合,雖然其底(di)層仍(reng)依(yi)賴于(yu)傳(chuan)統(tong)物(wu)理(li)引(yin)擎,但已經能(neng)夠支(zhi)持(chi)大量(liang)復(fu)雜(za)任務(wu)的訓練。

操(cao)(cao)作(zuo)者可以(yi)在虛擬環境中(zhong)進(jin)行(xing)(xing)遙操(cao)(cao)作(zuo)。與傳統(tong)方式不同,這次操(cao)(cao)作(zuo)完全在仿真(zhen)(zhen)環境中(zhong)進(jin)行(xing)(xing)。系統(tong)可以(yi)回放仿真(zhen)(zhen)軌跡,并利(li)用硬件(jian)加速的射線追蹤技術來呈現逼真(zhen)(zhen)的光(guang)影效(xiao)果,甚(shen)至(zhi)允(yun)許實時(shi)調整(zheng)運動軌跡。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

這種仿真(zhen)遙操作(zuo)帶來(lai)了顯著優勢:比如(ru)當需(xu)要演示“將杯子從A點移(yi)動到(dao)B點”時,操作(zuo)者只需(xu)完成一次演示,系統就能(neng)自動生成各種變體,無需(xu)重復操作(zuo)。

將所有這些技術整合后,我們就獲得了“仿真環境中的真人演示”方案。通(tong)過(guo)環(huan)境生(sheng)成技術,我們(men)可以將場景數量(liang)擴(kuo)展(zhan)N倍;通(tong)過(guo)運動生(sheng)成技術,又(you)能將演示數據(ju)擴(kuo)展(zhan)M倍。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

實(shi)際效(xiao)(xiao)果對(dui)比顯示(shi),第1列(lie)和第3列(lie)是真實(shi)機器人(ren)的(de)操(cao)作視頻,而第2列(lie)和第4列(lie)則完(wan)全來自Robocasa仿真系統。雖然(ran)仔細(xi)觀察仍能發現某些紋(wen)理(li)不夠真實(shi),但整體效(xiao)(xiao)果已(yi)經非常(chang)接(jie)近。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

我們將(jiang)這種接近(jin)真實但(dan)又并非完(wan)全(quan)一(yi)致(zhi)(zhi)的仿(fang)真稱(cheng)為“數(shu)字(zi)表親(qin)”(Digital Cousin)。它不(bu)同(tong)于追求完(wan)全(quan)一(yi)致(zhi)(zhi)的數(shu)字(zi)孿生,而是捕捉了關鍵(jian)特征。雖然這些仿(fang)真運行速度(du)較慢,但(dan)它們采用了一(yi)種創新(xin)的混合架構(gou):部分內容由AI生成,其余(yu)部分則交由傳統圖形(xing)管線處理。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

四、世界模型+仿真技術,開啟可拓展的“仿真2.0”時代

讓我們(men)來仿真(zhen)這個場(chang)景(jing):軟體、流體以及各種不同(tong)形(xing)態(tai)的(de)物體。在傳統計(ji)算機圖形(xing)學中,要精確(que)模(mo)擬這樣的(de)場(chang)景(jing)需要藝術家或(huo)圖形(xing)工程師投(tou)入大量時間。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

從圖(tu)形技(ji)術的(de)發展歷(li)程來(lai)看,實(shi)現下圖(tu)中從左到右(you)的(de)進(jin)步,我們(men)花費了整整30年時間。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

然(ran)(ran)而,視頻生(sheng)成(cheng)(cheng)模型(xing)僅用一(yi)年就(jiu)完成(cheng)(cheng)了同樣的(de)跨越,成(cheng)(cheng)功(gong)展(zhan)現(xian)了下圖(tu)中(zhong)面條的(de)形變等各種復雜元素。雖然(ran)(ran)在(zai)這個過程(cheng)中(zhong)可能損失了一(yi)些幽默(mo)感,但為了獲得Sora、Veo等最新生(sheng)成(cheng)(cheng)模型(xing)的(de)能力,這個代價(jia)是(shi)值得的(de)。短短一(yi)年就(jiu)能取得如(ru)此突(tu)破,這充(chong)分展(zhan)現(xian)了規模化(hua)訓(xun)練和數據驅動(dong)方法的(de)強大力量。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

還記得我開始時展示(shi)的(de)視(shi)頻嗎?我騙了(le)你們,這個視(shi)頻中沒有一個像素是(shi)真實的(de),完(wan)全(quan)是(shi)由一個定制模型生成的(de)。我們選(xuan)擇了(le)一個通用的(de)開源視(shi)頻生成模型,使用機器人實驗室收集的(de)數據進行微調。畫面中的(de)一切都是(shi)生成的(de)。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

還可以通過提示詞讓模型(xing)想象不(bu)同的(de)未來場景,模擬各種反(fan)事實(shi)情況。注(zhu)意,這(zhe)兩個框架(jia)是完全相同的(de),但(dan)根(gen)據不(bu)同的(de)語言提示,生成的(de)視頻能(neng)夠準確理解并(bing)執行(xing)指令,即使這(zhe)些動作在(zai)現實(shi)中從(cong)未發生過。

視(shi)頻擴散模型的強大之(zhi)處在(zai)于:它(ta)不關(guan)心場景有多(duo)復雜,也不在(zai)乎(hu)是(shi)否存在(zai)流(liu)體(ti)或(huo)軟體(ti)等難(nan)以仿(fang)真(zhen)的元素。

在同一個場(chang)景中,你(ni)可(ke)以要求機(ji)器人拿起不同的(de)物(wu)品,而模型會(hui)準確地用正確的(de)手(shou)勢抓取物(wu)體并(bing)放入籃(lan)子。所有(you)這些細節都是(shi)生成的(de),包括反(fan)射效果(guo)、物(wu)體交互等,沒有(you)一個真實(shi)像(xiang)素。

我最欣賞的(de)一個例子是(shi)那個彈奏尤(you)克里(li)(li)(li)里(li)(li)(li)的(de)機(ji)器人(ren)角色。實際上,視頻模型可能(neng)已經“見過”數百(bai)萬人(ren)類彈奏尤(you)克里(li)(li)(li)里(li)(li)(li)的(de)畫面(mian),現在(zai)它只(zhi)是(shi)將這些知(zhi)識(shi)遷移(yi)到機(ji)器人(ren)手指的(de)仿真上。盡(jin)管實際硬件可能(neng)無法完(wan)成這個動作(zuo),但視頻生成模型卻能(neng)完(wan)美呈現。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

這就是“仿真2.0”。它(ta)具備驚人(ren)的(de)多樣性,但目(mu)前運行速度還比(bi)較(jiao)慢(man)。我想(xiang)將這一仿真稱之為“數字游(you)(you)民”,它(ta)已經漫游(you)(you)進了視頻擴散模型的(de)夢境(jing)空間。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

那么(me),什么(me)是視頻擴散模(mo)型呢(ni)?本質上,它是一個將(jiang)海量互聯(lian)網視頻數(shu)據壓縮成多維(wei)宇宙仿(fang)真的先(xian)進系統(tong)。就(jiu)像《奇異博士(shi)》中(zhong)的魔法(fa)世界(jie)一樣,這個模(mo)型可以在(zai)虛(xu)擬空間中(zhong)實例化(hua)智能體,使它們能夠與任何環境中(zhong)的對(dui)象進行交互。這體現了規模(mo)效應的強(qiang)大威力(li)。

雖(sui)然(ran)黃仁勛已(yi)經離場,但我相信他一定(ding)會(hui)對這(zhe)個突破感到興(xing)奮。在(zai)傳統(tong)仿真系(xi)統(tong)(1.x系(xi)列)中,我們需要投入(ru)巨大的計算資源來實(shi)現擴展。然(ran)而,這(zhe)種方法很快就會(hui)遇到瓶頸,因(yin)為人(ren)工系(xi)統(tong)的多樣性(xing)存在(zai)固有局限(xian)。

而全新的世界模型(仿真2.0版本)則完全不同——它的(de)拓展(zhan)能力隨(sui)著(zhu)計(ji)算(suan)資源呈(cheng)指數(shu)級增長(chang)。這正是新一代網絡超越傳統圖形工程師的關鍵所在。將這兩種技術相結合時,我們就獲得了推動下一代機(ji)器(qi)人系統發展的“核動(dong)力”,而(er)且“買(mai)得越多,就省得越多”。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

我們可(ke)以(yi)將(jiang)這些數據(ju)輸入到(dao)視覺-語(yu)言-動作(VLA)模(mo)型(xing)中,這個模(mo)型(xing)能(neng)夠(gou)處理(li)視覺像素和自然語(yu)言指令,并輸出精確的(de)電(dian)機控制信(xin)號。在實際應用中,我們使(shi)用了今年三月(yue)GTC大會(hui)上黃仁勛主題演(yan)講中開源的(de)GR00T N1模(mo)型(xing)。

令人(ren)驚喜(xi)的是,這個系(xi)統展現(xian)出了出乎意料的靈活性——比如它能(neng)夠優雅(ya)地(di)握住香檳酒杯。不過,在訓(xun)練(lian)這個看似簡單的動作期間,我們失敗(bai)了很(hen)多次。這一(yi)系(xi)統在工業場景中同樣表現(xian)出色(se),可以(yi)精抓取工廠零件,還能(neng)實現(xian)多機器人(ren)協同作業。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙

需要特別強調的(de)(de)是,我們不僅會開源GR00T系(xi)列模(mo)型的(de)(de)當前版(ban)本(ben),未來迭代的(de)(de)版(ban)本(ben)也將持(chi)續開源。這完(wan)全(quan)遵循黃仁勛提出的(de)(de)“開源與民主化物(wu)理AI”的(de)(de)發展理念(nian)。

五、“未來,所有可移動的物體都將實現自主化”

那么,物理AI之后的下一個前沿是(shi)什么?我認為(wei)將(jiang)是(shi)“物理API”的革命。縱(zong)觀(guan)人(ren)類五千年文明史,雖然工具不斷革新,社(she)會持續進步,但(dan)我們(men)準備晚餐的方式與古埃及時(shi)期相比并無本(ben)質區(qu)別。

在(zai)人(ren)(ren)類99%的歷史中,我們(men)始終依賴人(ren)(ren)力勞動將原材(cai)料轉(zhuan)化為文(wen)明成(cheng)果(guo)。直到最近(jin)50年,我們(men)才開(kai)始使用高(gao)度專業化但功能(neng)單一(yi)的機器人(ren)(ren)系(xi)統——這些系(xi)統開(kai)發成(cheng)本高(gao)昂(ang),應用范圍有限(xian)。

而未來,我們將實現物理(li)API的普(pu)及。就像今天的大模型API處(chu)理(li)數字信(xin)息一樣,物理(li)API將能夠(gou)操控物理(li)世界的物質(zhi)變(bian)化(hua)。

物理API將催生全新(xin)的經濟形態(tai)。該(gai)如何教會這些機器(qi)人(ren)做事(shi)情呢(ni),語言(yan)本身是不(bu)夠的,我(wo)們(men)可以打造(zao)“物理App Store”,培養“物理提示詞(ci)工程”、“技能經濟”等行業。

屆時,米其林大廚不必親臨廚房,只需將其烹飪技藝傳授給機器人,就能提供米其林級別的餐飲服務。正如黃仁勛所說的:“未來(lai),所有(you)可移動的物體都將(jiang)實(shi)現(xian)自主化。

想象這樣一個場景:你回到家中,迎接你的是整潔的沙發、燭光晚餐,以及伴侶溫馨的微笑——而不是因為沒洗衣服而引發的爭吵。這樣的愿景每天都在激勵著我前進。這些機器人將逐漸融入生活背景,成為環境智能的一部分。我們或許都不會注意到機器人通過物理圖靈測試的歷史性時刻,只會把那天當作生命中平凡的一天。

英偉達Jim Fan深度分享:揭秘具身智能路線與障礙