智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西8月12日報道,2025世界機器人大會期間,NVIDIA Omniverse和仿真技術副總裁Rev Lebaredian,與宇樹科技創始人、CEO兼CTO王興興,北京大學助理教授、銀河通用創始人兼CTO、智源學者王鶴一起,在一場小型媒體會上詳細解答了人形機器人的大規模商用難點、關鍵挑戰、技術瓶頸與風向、人形與雙足設計的必要性、中國企業做物理AI和機器人優勢、預計率先普及的應用場景等焦點話題。

NVIDIA是當前最全面的機器人基礎設施供應商,芯片和平臺均已在機器人企業中廣泛應用,并正與阿里云北京人形機器人創新中心傅利葉加速進化優必選銀河通用宇樹科技智元機器人等企業共同推動中國在人形機器人和AI解決方案方面的發展。

宇樹(shu)科(ke)技是國內知名度最高的(de)機器人獨角獸之一,今年7月(yue)18日啟動IPO,已為其新型人形機器人R1部(bu)署了NVIDIA全棧機器人技術。R1售價3.99萬(wan)元,現貨(huo)可(ke)供,預計年底前量(liang)產。宇樹(shu)科(ke)技還自(zi)研靈巧(qiao)手,希望在未(wei)來一到兩年內實(shi)現自(zi)然交互,其格斗機器人的(de)技術目標(biao)是實(shi)現任(ren)意動作(zuo)的(de)任(ren)意實(shi)時生成(cheng)。

作為具身大模型通用機器人獨角獸代表,銀河通用成立兩年來已完成超過20億元融資。銀河通用G1 Premium是首批搭載NVIDIA Jetson Thor的人形機器人之一,采用輪式底盤。其下一代人形機器人項目將采用純雙足設計。

智東西(xi)梳(shu)理出(chu)15個(ge)有信(xin)息量(liang)的(de)問答(da)及分享,并在(zai)(zai)文章靠(kao)后部(bu)分分享了(le)NVIDIA、宇樹科技(ji)、銀河通用在(zai)(zai)機器人產業的(de)重點布局與進展(zhan)。

一、人形機器人商用難點不是成本,落地工廠需克服速度挑戰

1、現階段推動人形機器人規模化商用存在哪些難點?

王興興:對于人形機器人商業化來說,成本和硬件并不是關鍵問題。某種意義(yi)上,一臺機(ji)器只要(yao)能用(yong),10萬(wan)甚(shen)至100萬(wan),照樣還是有很多場景能用(yong)起(qi)來(lai)的。過去一兩年,硬件已經足(zu)夠了,當(dang)然可靠(kao)性、成本等各(ge)方(fang)面要(yao)做得更好,但是它并不(bu)是限制(zhi)性因素。

當前最(zui)棘手的問題是具身(shen)智能模型不夠泛用性(xing),實用性(xing)還有(you)待更大的提升(sheng)

2. 限制人形機器人規模化部署的關鍵技術瓶頸是什么?

王鶴:很簡單——就是機器人干活的能力還不夠強,能完成的任務類型比較有限。但如(ru)果能(neng)在這些有限的技(ji)能(neng)范圍(wei)內(nei)實(shi)現(xian)非(fei)常通用的水平,就能(neng)一下子賦能(neng)很多場景。

銀河通用現在最主要的突破是“抓取”和“移動”。只要機器人能抓住任何物(wu)體,能夠(gou)在場景中實(shi)(shi)現下肢移動和上肢伸展(zhan),最后還能準確放置物(wu)體,很多(duo)應用場景就能實(shi)(shi)現。

背后需要有一個真正精準的目標識別和定位系統,我們目前是通過合成數據在推動這項技術。

當然,即使解決了這個關鍵問題,仍有很多任務,機器人暫時無法完成。但只要目標識別和定位的問題能被攻克,人形機器人市場至少有千億級規模,并且在五年內可見成效

解決了這個(ge)關鍵(jian)技(ji)術瓶頸后(hou),基于如此巨(ju)大(da)的(de)市場(chang)(chang)投入(ru),機器人(ren)必然能解鎖(suo)更(geng)多(duo)技(ji)能,邁(mai)向(xiang)萬億(yi)市場(chang)(chang)的(de)步伐。

3. 人形機器人真正能在工廠車間投入工作,需解決哪些關鍵挑戰?

王鶴:今年,許多人形機器人已經開始在汽車工廠進行訓練。我們看到絕大多數公司在工廠推廣人形機器人時,主要集中在兩個方面:一是搬運,二是分揀

搬運方面,銀河通用最近展示的機器人視頻里,其搬運速度已經接近人類水平,計算下來每小時搬運的數量與人類相當。這個階段已經非常接近實際工廠的部署,我預計今年年底可能會有幾十臺銀河通用的機器人進入工廠車間實際應用

但是,搬運只是第一步。除了搬運,還需要實現碼垛的閉環能力,只有搬運和碼垛都完成閉環,機器人才能真正勝任整套工作流程,否(fou)則做一半的任務,效果并不理想。

分揀則是更大的挑戰,還未達到人類工(gong)人的(de)水平,仍(reng)需要一定時間(jian)的(de)技術迭代(dai)和(he)突破。

無論是從傳送帶上拿,還是從貨架上取貨,目前最大的難點是速度。熟練工人拿取物品的速度非常快,機器人目前在模型和硬件層面還難以達到這種效率

我們做零售機器人時,拿貨架上或桌面上的物品,技術本質上與工業分揀類似,只是零售對節拍要求較低,拿錯貨的后果也較輕。但在工業場景,比如汽車制造廠,一條產線停機一分鐘可能就意味著損失上萬元,因此分揀的精度和速度要求極高

4. 如何應對物理AI(特別是機器人領域)的能耗、熱管理和體積限制挑戰?

Rev Lebaredian:NVIDIA每(mei)一代產品都會大幅(fu)提(ti)升(sheng)每(mei)瓦(wa)性能和(he)(he)每(mei)美元性能。單靠摩爾(er)(er)定律已經不足以(yi)解(jie)決我們面臨的許多問題。我們預(yu)見到,摩爾(er)(er)定律在CPU和(he)(he)通用(yong)(yong)計算(suan)機上(shang)的效用(yong)(yong)會逐漸(jian)終結。為此,我們致力于打(da)造針對(dui)特定算(suan)法(fa)的專用(yong)(yong)計算(suan)機。

這種專用計算機不僅僅是芯片層面,更需要算法、軟件以及應用層面的整體優化,才能發揮最大性能。這并非靠單一因素,比如芯片變小或變快,而是通過全棧優化實現的。

這是一項非常艱難的工程,也正是NVIDIA的核心競爭力所在。

我(wo)們(men)(men)最初應(ying)用這套方(fang)法于(yu)計算機(ji)圖形渲染(尤其是游戲領域),隨后(hou)推廣到其他領域。CUDA推出后(hou),我(wo)們(men)(men)開始(shi)應(ying)用于(yu)物(wu)理(li)(li)仿(fang)真(zhen),后(hou)來深度學習和AI在GPU上興起(qi),我(wo)們(men)(men)不斷專門化處(chu)理(li)(li)器(qi)。每(mei)一代(dai)產品(pin),在相同功(gong)耗和成(cheng)本下都(dou)實現了(le)顯(xian)著的性能飛(fei)躍,未來仍會持續(xu),因為我(wo)們(men)(men)的創新之路還(huan)遠未走(zou)完。

二、機器人非得設計成“人形”、“雙足”嗎?未來人形機器人規模將超過工業機械臂總產值

5. “人形”的機器人是否必要?

王鶴:從長遠來看,人形機器人一定要能夠融入人類生活。從終局觀念來看,如果機器人又能干活,手能伸到1米~2米這么高,還能在咱們這樣的環境里穿梭,除了人形態,沒有別的形態

未來(lai)幾年,人形機器(qi)人是從一種移動復合機器(qi)人向著終(zhong)局不斷(duan)邁進。

如果是一個(ge)定點機器人(ren),它能(neng)(neng)夠干的事(shi)(shi)情就(jiu)只(zhi)能(neng)(neng)是它面前的事(shi)(shi)情,局限(xian)性很大,所(suo)以移動(dong)是必(bi)然(ran)的。移動(dong)的小車只(zhi)能(neng)(neng)承載貨物(wu),不能(neng)(neng)做任何(he)操作(zuo)。我們(men)今(jin)天打造的機器人(ren),就(jiu)是在一個(ge)移動(dong)的臺子上,再讓(rang)它變成可升降、可折疊的,有(you)兩(liang)根機械(xie)臂,兩(liang)只(zhi)手才能(neng)(neng)抱箱子。

我認(ren)為未來十年(nian),人形(xing)機器人占比不會(hui)小,但得看跟誰比。工業大機械臂全球總產值(zhi)(zhi)也就(jiu)(jiu)1000億人民(min)幣,并不高,一(yi)個頭(tou)部車(che)廠一(yi)年(nian)就(jiu)(jiu)能(neng)賣(mai)價值(zhi)(zhi)1000億的車(che)。

我預計未來每三年人形機器人的產值會乘10,我們現在頭部是賣1000臺,三年后就是10000臺,再三年后就是10萬臺。10萬臺級的量,如果賣幾十萬元一臺,干活的就達到了1000億,超過了一家公司,也超過了整個工業機械臂的總產值

未來十(shi)年(nian),我們將(jiang)看(kan)到(dao)的是一個能夠超越當前所有工(gong)業機(ji)器人量(liang)的機(ji)器人市(shi)場。再往(wang)后十(shi)年(nian),可能是超越汽車、手機(ji)市(shi)場量(liang)的萬(wan)億市(shi)場所以(yi)不(bu)能(neng)低估它,但也沒有大家想的那么(me)快(kuai),明天就達到(dao)汽車(che)市場(chang)的額度(du)是不(bu)可能(neng)的。

王興興:某(mou)種意義(yi)上,我將人形機(ji)(ji)(ji)器人視(shi)為(wei)通用機(ji)(ji)(ji)器人的重要載體。真正的通用AI在執行任務時,必然(ran)離不開機(ji)(ji)(ji)器人,尤其是(shi)通用型機(ji)(ji)(ji)器人。

目前(qian)人形(xing)機器(qi)人是最理想(xiang)的(de)專業機器(qi)人形(xing)態,雖然看上去較為復雜(za),但實際(ji)結構(gou)本質上是由若干關節電機串聯而成(cheng),因此整體設(she)計相對(dui)簡潔。履帶式小車(che)或(huo)其他形式的(de)機器(qi)人反而更復雜(za)。

我一直相信,當通用AI大規模成熟后,每個人都可以輕松制造一臺人形機器人,就像今天人們可以購買電腦零部件組裝一臺電腦一樣。未來若AI足夠強大,對硬件的要求(qiu)會越來越低。

6. 機器人為什么要做雙足?

王興興:為(wei)什么不做雙腿,反而是一(yi)個值得思考(kao)的問題因為做雙腿相對方便,最重要的是提供了更多的通用性能力。運動能力在某種程度上是較弱的AI能力,例如小動物甚至螞蟻、蟲子走路都非常好,但它們的AI能力很弱。所以我一直覺得,真正通用且能干活的具身AI模型,移動能力或者腿的能力其實是附屬的

如果(guo)機器人能(neng)干(gan)活了(le),那腿的控(kong)制自然不(bu)會(hui)差(cha);如果(guo)連腿都控(kong)制不(bu)好,說明(ming)它還沒達到大家想象中的非常(chang)通用的AI模(mo)型階段(duan)。

另外,因為雙腿相對簡單(dan),我(wo)(wo)們公司本身就是(shi)(shi)做腿的,所以對我(wo)(wo)們來說(shuo),這是(shi)(shi)順理成(cheng)章且(qie)有(you)趣(qu)的事情,大家普遍也很喜歡這個方向。而且(qie)如(ru)果大家都做輪式底盤,會導(dao)致同質化競(jing)爭(zheng),沒必(bi)要(yao)。

我覺(jue)得(de)輪式(shi)和(he)腿式(shi)是(shi)有差距(ju)的,在不(bu)同時間點,機器人下半(ban)身方(fang)案(an)會有不(bu)同。

我們公司專注(zhu)于(yu)腿部,希望(wang)提升機器人整體的運(yun)動和(he)干活能(neng)力。我自(zi)己也做輪式底盤。目(mu)前輪式底盤在(zai)工業(ye)開(kai)闊場景和(he)貨架(jia)間穿梭非常穩定且能(neng)耗低,但在(zai)復雜環境(jing)中可能(neng)通不過(guo)。如果底盤做得更小,穩定性會喪失(shi)。

我堅信腿是未來,因為它能實現上半身所有可達空間,并且能靈活調動腰部的靈活度。

但在不同(tong)(tong)階段(duan),會有最適合(he)落地應用(yong)的(de)(de)形態(tai),我(wo)們(men)也不會局限于單一(yi)方案。我(wo)們(men)同(tong)(tong)時用(yong)輪式底盤和(he)宇(yu)樹的(de)(de)人(ren)形機器人(ren)做下(xia)半身甚至全(quan)身的(de)(de)控制(zhi)研(yan)究。

三、中國在物理AI和機器人領域有獨一無二的優勢

7. 怎么看中國物理AI和機器人的需求和實踐中的挑戰?

Rev Lebaredian:中國(guo)既是一個重要的市(shi)場(chang),也(ye)是AI技術和(he)產品的生(sheng)產基地(di)。在物理AI和(he)機(ji)器(qi)人(ren)領域,中國(guo)擁有(you)獨(du)特的規模優勢,結合人(ren)才優勢,形成了獨(du)一無二的生(sheng)態系統。

機器人是把計算和人工智能帶進真實世界的橋梁,中國(guo)是實現這一跨(kua)越的(de)最佳地點(dian),因為這里具備獨一無二的(de)條件

一(yi)是頂(ding)尖(jian)AI人才:中國有頂尖(jian)的(de)AI高(gao)校,有大量聰明(ming)、受過良好教育(yu)且充(chong)滿熱情的(de)AI研究人(ren)員(yuan)和(he)開發者,全球近(jin)一半的(de)頂尖(jian)AI人(ren)才都集中于(yu)此。

二是電子與計算技術能力:中國不僅有技術(shu)研發(fa)能力(li),還有全球無(wu)可匹(pi)敵(di)的(de)(de)電子(zi)制(zhi)造產(chan)業。中國在制(zhi)造電子(zi)硬件和機器(qi)人所需關鍵部件方(fang)面(mian)具備深厚的(de)(de)專業能力(li),這樣的(de)(de)生態體系和制(zhi)造規(gui)模是其他國家難以匹(pi)敵(di)的(de)(de)。

三是龐大的制造業基礎:這里有大規模部署和測試(shi)機器人的真(zhen)實場景,可以快速收集數(shu)據、迭代算法,讓機器人不斷進(jin)化。

這使得像銀河通用、宇樹科技這樣的企業,能夠大規模制造機器人,快速學習和迭代。中國獨特的綜合條件為物理AI和機器人產業的快速發展提供了堅實基礎。

四、家用機器人最大難題不是技術,機器人數量不直接影響生育率

8. 未來機器人在哪些場景會迎來大規模普及?

王興興:未來肯定會走向更實用,無論是工業、服務業還是家用領域,整體時間周期會更長一些,尤其是家用領域。家用(yong)機(ji)器人的最大難(nan)題(ti)不是技術,而是倫(lun)理、安全等方面的要求極高,這導致家用(yong)機(ji)器人的普及門檻要高得多

每(mei)個產業的成熟都需要較(jiao)長周(zhou)期(qi)。十(shi)幾年前大家也(ye)覺得新能源車會發展(zhan)得很快,但(dan)整體成熟花了(le)不(bu)少時間。

現在用的新技術(shu),跟(gen)十幾、二(er)十年(nian)前完全不同,硬件(jian)和軟件(jian)都發生了(le)(le)巨(ju)大變化。但很多(duo)人提機器(qi)人時,喜歡(huan)拿十幾、二(er)十年(nian)前的東西來說(shuo),覺得(de)這個行業已經發展了(le)(le)很久。

現在新一代人形機器人或通用機器人技術,實際上才發展了兩三年,還需要更多時間。不過從當前發展速度來看,我個人感覺行業仍在快速成長,很有可能實現未來幾年人員和出貨量每年翻倍

基于此,如果未來(lai)出現(xian)更(geng)強大、更(geng)通(tong)用(yong)(yong)(yong)的AI大模型,這些模型將能讓機器人在工廠、家庭等更(geng)多通(tong)用(yong)(yong)(yong)場景中表現(xian)更(geng)好。因為越通(tong)用(yong)(yong)(yong),普(pu)及的難度(du)就(jiu)越小。相反(fan),如果不通(tong)用(yong)(yong)(yong),推(tui)廣會更(geng)困難。

9. 機器人能取代很多工作,之后的生育率會不會降低?

Rev Lebaredian:我認為人們是否(fou)選擇生育,并不會(hui)(hui)與機器人數量直接相關。但有一(yi)點(dian)是確定的:每當社會(hui)(hui)人口增(zeng)長(chang)時,GDP和生產力都會(hui)(hui)增(zeng)長(chang)。一(yi)個(ge)社會(hui)(hui)的產出能力與其人口規模直接相關。

目前大(da)多(duo)數國家面(mian)臨(lin)的人口(kou)縮減(jian)趨勢將導致經(jing)濟不增長,甚至(zhi)可能萎(wei)縮。如果不采取措施,我(wo)們的經(jing)濟將走向衰(shuai)退。

因此,打造機器人(ren)以創造“人(ren)工(gong)人(ren)口(kou)”,輔助完成各類工(gong)作、提升生產(chan)力,是刻不容緩(huan)的任(ren)務,不僅要維持(chi)現(xian)有生產(chan)力水平,還(huan)要推動(dong)社會進一步(bu)發展

五、機器人算力、模型、數據挑戰:提高能效,架構統一與對齊,補充多模態數據

10. NVIDIA Jetson Thor與之前的Jetson平臺有何區別?如何特別適用于機器人?

Rev Lebaredian:Jetson Thor與(yu)之(zhi)前版(ban)本(ben)最大(da)的(de)(de)(de)不(bu)同是:(1)具(ju)備了(le)足夠的(de)(de)(de)計算能(neng)力,能(neng)運行更大(da)、更強(qiang)的(de)(de)(de)神(shen)經網(wang)絡和(he)模型,支持更復雜的(de)(de)(de)推理(li)(li)任務;(2)擁有更高的(de)(de)(de)帶寬,能(neng)更快處理(li)(li)來自(zi)各種傳感器的(de)(de)(de)大(da)量信息,使機器人能(neng)夠快速反應,在動態變化的(de)(de)(de)環境(jing)中高速移動和(he)操作。

我們努(nu)力(li)最大(da)化(hua)每一(yi)代Jetson產(chan)品的(de)(de)計(ji)算(suan)能(neng)力(li),因為智能(neng)問(wen)題本身就(jiu)是一(yi)個非常復雜的(de)(de)計(ji)算(suan)難題。在(zai)(zai)(zai)機器人領域,這一(yi)挑戰更(geng)大(da):計(ji)算(suan)必須非常快(kuai)速,且在(zai)(zai)(zai)極為苛刻(ke)的(de)(de)環(huan)境中進(jin)行。機器人往往在(zai)(zai)(zai)現場(chang)實(shi)時運行,需(xu)要在(zai)(zai)(zai)緊湊(cou)的(de)(de)循環(huan)內完成計(ji)算(suan),電力(li)有限,因此要盡(jin)可能(neng)降(jiang)低(di)功耗以延長電池壽命,同時還要考慮散熱等(deng)問(wen)題。這些因素都極大(da)地增加了難度。

11. 目前機器人領域的大模型架構尚未統一,宇樹科技主要聚焦哪些方向的具身智能基礎模型探索?

王興興:我一直覺得目前的模型架構確實非常不統一,這導致目前進展比較緩慢。如(ru)果模型架構能更(geng)加統一、方向明確,結合當前行(xing)業熱度(du),大家能更(geng)快取得(de)突破(po)。

我(wo)(wo)(wo)(wo)們(men)公司探索(suo)了(le)很多(duo)方向。比(bi)如我(wo)(wo)(wo)(wo)們(men)去年(nian)嘗(chang)試的(de)(de)一個(ge)用視頻(pin)生(sheng)成(cheng)模(mo)(mo)(mo)型(xing)作為“世界模(mo)(mo)(mo)型(xing)”,來(lai)驅動并(bing)對齊機械(xie)臂的(de)(de)項目,這個(ge)嘗(chang)試取得了(le)一定效(xiao)果。但由于視頻(pin)生(sheng)成(cheng)模(mo)(mo)(mo)型(xing)訓練規模(mo)(mo)(mo)極大,考慮(lv)到我(wo)(wo)(wo)(wo)們(men)公司的(de)(de)算力和(he)投入(ru),難以進行大規模(mo)(mo)(mo)訓練。而(er)且(qie)我(wo)(wo)(wo)(wo)們(men)嘗(chang)試后發現,這類模(mo)(mo)(mo)型(xing)的(de)(de)泛(fan)用性還不(bu)能完(wan)全滿足預(yu)期,因此后來(lai)基(ji)本(ben)沒有繼續使用。

但最近谷歌(ge)發布了(le)一(yi)個新(xin)的視頻(pin)生成(cheng)模(mo)型(xing),其物理對齊效果非常(chang)好,并且他(ta)們公開(kai)嘗試把視頻(pin)生成(cheng)模(mo)型(xing)作為(wei)世界模(mo)型(xing),直接(jie)用于機械臂(bei)和通(tong)用智能(neng)。這讓我覺得這個方向非常(chang)值(zhi)得重新(xin)探索。

由于公司(si)規模和算力、人才限制,我們只是初步探(tan)索,沒有深入推進。但谷歌的成果證明(ming)這個方向很有潛力。

視(shi)頻(pin)生成(cheng)模型在時間(jian)內(nei)容、數據源以及效(xiao)果(guo)方面,已經達到不(bu)錯的(de)預期。舉(ju)例(li)來說,如果(guo)控(kong)制視(shi)頻(pin)生成(cheng)模型生成(cheng)一(yi)個機(ji)器人打掃全屋的(de)視(shi)頻(pin),而且效(xiao)果(guo)不(bu)錯,理論上只要把(ba)視(shi)頻(pin)與(yu)機(ji)器人動作對齊,也能實現類似效(xiao)果(guo)。

不過,目前對齊工作仍然非常復雜(za)且具有挑戰性(xing)這(zhe)個(ge)方向無論是對機器(qi)人應(ying)用,還是純視頻生成技(ji)術(shu)本身(shen),都是非常主(zhu)流(liu)且(qie)值得投入的。即便(bian)不用于(yu)機器(qi)人,視頻生成技(ji)術(shu)也(ye)會持續(xu)被(bei)大(da)公司加大(da)投入、不斷優化(hua)。

除此之外,還有其他方案。隨著(zhu)基(ji)礎模型(xing)能(neng)力快速(su)提升(sheng),很多潛力尚未被充分挖掘。

我們發現,如果(guo)在基礎(chu)模型(xing)后訓(xun)(xun)練時加入機器人(ren)指(zhi)令控制和空(kong)間理解訓(xun)(xun)練,效果(guo)能明(ming)顯提(ti)升比如王鶴老師團隊展示(shi)的(de)一些基于基礎模型的(de)機(ji)器人控制效果(guo)就(jiu)非常不(bu)錯(cuo)。

我(wo)們公司(si)的策略很簡單:不斷嘗(chang)(chang)試各(ge)種新(xin)模型和(he)新(xin)想法(fa)(fa)。今天可(ke)能有(you)一種想法(fa)(fa),明天可(ke)能會調整,這很正(zheng)常。我(wo)認為大家都應該(gai)大膽嘗(chang)(chang)試新(xin)興技術,AI領域充滿了可(ke)能性(xing),往往一個靈光一閃的創(chuang)意就能帶(dai)來突破。希(xi)望鼓勵更多人去探索,或(huo)許(xu)下一個創(chuang)新(xin)就出自你手(shou)。

12. 大模型擴展定律(Scaling Law)是否遇到挑戰?

王鶴:目前大模型類型繁多,有純文本大模型、圖文大模型,圖文大模型又分為視覺理解和視頻生成,具身智能VLA也是一種大模型。所以說,大模型擴展是否遇到瓶頸,無法簡單地用一個統一的結論來概括

我理解,在(zai)當前純文本階段,我們(men)主要的數(shu)據(ju)(ju)(ju)源是互(hu)聯網公(gong)(gong)開(kai)(kai)數(shu)據(ju)(ju)(ju),但很多私域知(zhi)識并(bing)不在(zai)網上,這導致(zhi)模(mo)(mo)型(xing)(xing)的推理能力(li)實際上需(xu)要的數(shu)據(ju)(ju)(ju)與公(gong)(gong)開(kai)(kai)數(shu)據(ju)(ju)(ju)有差異。除非能通(tong)過(guo)某種(zhong)可控的方式獲得額(e)外數(shu)據(ju)(ju)(ju)增強,否(fou)則單(dan)靠公(gong)(gong)開(kai)(kai)數(shu)據(ju)(ju)(ju)提升模(mo)(mo)型(xing)(xing)能力(li)是有限的。

這部(bu)分能(neng)力的(de)增長,并不會(hui)自然地(di)通過單純擴大模(mo)(mo)型(xing)規模(mo)(mo)實現。

但不能低估(gu)推理模(mo)型的(de)進展,比如在IMO國際數(shu)學競賽上,文(wen)(wen)本模(mo)型獲得金牌(pai),面對從未見過(guo)的(de)題(ti)目表現出色,這說明(ming)文(wen)(wen)本大模(mo)型的(de)能力(li)在不斷提升。

多模態大模型(比如VLM和VLA)目前還處于比語言模型稍弱的階段,核心原因是數據不足:文本(ben)數據非常豐(feng)富,而文本(ben)-圖像配對(dui)數據相(xiang)對(dui)較少(shao),再加上動(dong)作數據更少(shao),因此視(shi)覺理(li)解能力和基于視(shi)覺的動(dong)作操(cao)作能力還有較大差距。

這(zhe)也是(shi)為什么合(he)成數據(ju)(ju)和仿(fang)真(zhen)(zhen)技(ji)術非常(chang)重要(yao)。正如(ru)(ru)Rev所說,仿(fang)真(zhen)(zhen)能夠將(jiang)真(zhen)(zhen)實世界場景和動作復現(xian)到虛(xu)擬環(huan)境,生成大(da)量帶動作、圖(tu)像和語義配對的(de)數據(ju)(ju),這(zhe)將(jiang)極大(da)促進圖(tu)文、多模態大(da)模型及具身智能大(da)模型的(de)發展。如(ru)(ru)果(guo)完全依(yi)賴真(zhen)(zhen)實數據(ju)(ju),進展會受到很(hen)大(da)限制。

我相信,充分(fen)利(li)用仿真技(ji)術,將是多模態大(da)模型和具(ju)身大(da)模型應對數據(ju)瓶頸的最(zui)有效途徑

六、仿真是構建安全機器人系統的唯一方式,三大路徑可彌合仿真與現實之間的差距

13. 如何確保用仿真數據訓練的機器人具備可靠性和安全性?

Rev Lebaredian:如果你想構建一個能夠在現實世界中行動且安全可靠的機器人系統,唯一的選擇就是使用仿真

因為現實世界測(ce)試過(guo)慢、成(cheng)本高且危險,我們(men)不希望機器(qi)(qi)人(ren)在(zai)現實世界先失敗。換(huan)句話說,如果我們(men)無法讓仿真足夠(gou)準確以測(ce)試機器(qi)(qi)人(ren),那么我們(men)將無法制(zhi)造(zao)出(chu)可靠(kao)的機器(qi)(qi)人(ren)。

以自動駕駛為例,我們絕對不希望車撞到人或者孩子,但當街上出現小孩時,車輛的大腦該如何反應、如何獲取訓練這類系統的數據呢?我們絕不可能將孩子置于汽車前作為訓練樣本,這樣做是不道德的、危險的,而且耗時且昂貴。所以,仿真是能夠應(ying)對(dui)很少(shao)發生的特(te)殊情況的唯一辦法

即(ji)使訓練完系統,在將它(ta)部署(shu)到現實世(shi)界之前,也需要在這些相同場(chang)景中進行測試,確(que)保在真正發生類似(si)情況時,它(ta)能夠(gou)正確(que)反應。

幸運的是,目前已有非常準確的仿真器。不過,這些(xie)仿(fang)真器計算量大(da)且成(cheng)本(ben)高(gao)昂(ang),我們面臨的(de)真正挑戰(zhan)是如(ru)何提升仿(fang)真速度(du),使(shi)其(qi)在大(da)規模系統構建中(zhong)具有成(cheng)本(ben)效益,這也是我們一直努力的(de)方向

14. 未來幾年,驅動AI機器人的仿真領域,有哪些關鍵技術趨勢將改變整個行業?

Rev Lebaredian:我認為目前最大的趨勢(shi),是所有在常規AI領域出現的技術和發展,正被應用到物理AI中

其中最重要的突破是推理能力的提升。比如(ru)DeepSeek將推理(li)能力帶入了開源領域(yu),現在我們(men)也看到了其他各種(zhong)模型。

可能在今年年底或明年,機器人將能更自然地與人互動,并完成復雜的多步驟任務。而將這種能力與仿真結合,我認為這是一個可能還未被廣泛理解,但將成為重大突破的點

目(mu)前我(wo)們面臨的主要(yao)問題是AI極度(du)依賴數據,而獲取合適的數據非常困難我們現有的推理模型,尤其(qi)是對物理世界的推理,可以幫(bang)助(zhu)我們改善數(shu)據生成和數(shu)據創建的流程(cheng)。

如今我們生成(cheng)的數據,即使是合成(cheng)數據,也需要大量人工參與,人工去構建虛擬(ni)世(shi)界和仿真環境,判斷該(gai)生成(cheng)哪些數據才能讓智能系統更聰明。

但是,如果我們把正在開發的AI技術用在數據生成流程中,就可以實現自動化,打造“自動駕駛”的合成數據生成。如果我們(men)擁有一個自(zi)動(dong)駕駛的合成數據(ju)生成工廠,就能直接(jie)將(jiang)其接(jie)入訓(xun)練流程,實現訓(xun)練過(guo)程自(zi)動(dong)化,減(jian)少人(ren)為干預,讓機器(qi)人(ren)大(da)腦更聰明。

我(wo)認為中(zhong)國企業已經(jing)在積極探索和應用這些仿真技術。

王鶴:仿真引擎、并行渲染(ran)器大大降低了合成(cheng)數據的困難程度。人形機器人行走、跳(tiao)舞、疊衣(yi)服、做導航等技能背后的數據,離不開好(hao)用、并行的渲染(ran)器。所以這(zhe)些確實非常感謝NVIDIA作為一個生態(tai)方(fang),從(cong)芯(xin)片到仿真平臺(tai)對整個生態(tai)的托舉(ju)。

15. 如何彌合仿真與現實之間的差距?

Rev Lebaredian:如果我們依賴仿真來構建和測試AI,就必須確保仿真盡可能接近現實,否則我們無法信任它。我們構建的AI如果是在一個“卡通世界”里訓練的,是無法真正理解現實世界的,因此,測試時必須確保仿真場景與現實相符

彌(mi)合(he)仿真與現實(shi)之間(jian)的差距,可以通過多種方式:

首先,提升仿真器本身的精度。

我們幾十年來一直在構建物理仿真算法,且驗證了這些算法能夠較好地反映現實世界的物理規律。比如,我們利用仿真設計飛機機翼和汽車,確保空氣動力學性能,并驗證仿真結果與真實世界匹配。問題是,這些高精度仿真計算成本極高,通常需要在大型計算機上運行數小時。挑戰就在于(yu)如(ru)何將仿真速(su)度(du)提(ti)升到(dao)足夠快,能夠嵌入(ru)AI訓練流程(cheng)中,實現大規模、高(gao)效的數據生成和測試

為此,我們正在利用AI本身作為提升仿真速度和精度的工具。AI能(neng)夠近似任何數學(xue)函數,我們可以將物(wu)理仿真(zhen)函數轉換為AI函數,構建AI模擬器完(wan)成仿真(zhen)。只要提(ti)供足夠的示例數據(ju),AI就(jiu)能(neng)學(xue)習仿真(zhen)功能(neng)。

這正是我們正在開發的“Cosmos”項目,這些“世(shi)(shi)界基(ji)礎(chu)模型(xing)”是(shi)能理解世(shi)(shi)界物理規律的(de)(de)AI模型(xing),我(wo)們可以將真(zhen)實世(shi)(shi)界數(shu)據和可信仿(fang)真(zhen)數(shu)據輸入這些模型(xing)進行訓練。一旦(dan)有了這樣(yang)理解世(shi)(shi)界的(de)(de)AI基(ji)礎(chu)模型(xing),就可以將其與傳統仿(fang)真(zhen)結合,構建更精準、更高效(xiao)的(de)(de)仿(fang)真(zhen)器。

其次,即使擁有高質量的仿真器,構建代表現實世界的數據也非常困難。

以這個房間為例,雖然仿真器可以模擬物理現象,但我們還要創造帶有正確物理參數(如摩擦系數、材料特性)的桌布和桌子,這類信息采集非常復雜。目前,全球只有少數專業人士(通常是游戲或電影行業的藝術家)具備這類能力。但隨著我們構建具備物理理解能力的AI,這些AI可以輔助生成這些虛擬環境,成為“機器人藝術家”,幫助我們高效創建真實感十足的虛擬世界

第三種方法是直接捕捉現實世界。

我們也利用物理(li)AI技術將現(xian)實環(huan)境(jing)(例如我們身處(chu)的房間)數字化(hua)、導入(ru)仿真環(huan)境(jing),確保虛(xu)擬場景與現(xian)實高度(du)一致。

NVIDIA正在這三個方向全面發力,打造相關技術,但這項工作遠超過任何一家公司的能力。我們正與整個生態系統的合作伙伴協同推進,爭取在這三條路徑上共同攻關。我們已經積累了不少成果,有的(de)(de)仿真器已經能夠(gou)生成足夠(gou)高質量的(de)(de)數據,助力我(wo)們提升AI性能

七、NVIDIA:為機器人打造三臺計算機,提供完整軟件棧和世界模型

Rev Lebaredian說,NVIDIA的(de)使(shi)命是打(da)造專門針對“最難問題”的(de)計(ji)算(suan)機。機器人(ren)就是其中最難的(de)問題之一。為此(ci),NVIDIA認為必須打(da)造三臺計(ji)算(suan)機:

(1)機器人本體計算機:嵌入在(zai)機(ji)(ji)器(qi)人內部,例(li)如(ru)自動駕駛(shi)汽車(che)或人形(xing)機(ji)(ji)器(qi)人中的(de)計算機(ji)(ji)。專門(men)為(wei)人形(xing)機(ji)(ji)器(qi)人打造(zao)的(de)Jetson Thor便屬(shu)于這(zhe)一類,今年在(zai)世界(jie)機(ji)(ji)器(qi)人博覽會上(shang),就可(ke)以在(zai)銀河(he)通用和其他展出的(de)機(ji)(ji)器(qi)人上(shang)看到它們的(de)身影。

(2)AI工廠計算機:在使用機(ji)器(qi)人(ren)本體(ti)計(ji)算(suan)機(ji)之前,必須先開發它(ta)的“大腦”。需要依賴DGX和HGX系統,處理(li)海量原始數據,生成物(wu)(wu)理(li)AI算(suan)法、物(wu)(wu)理(li)AI模型和神(shen)經網絡,再(zai)部署到機(ji)器(qi)人(ren)上。

(3)仿真計算機:物理世界的數據無法直接從互聯網獲取,只能(neng)(neng)通過(guo)兩(liang)種(zhong)方式獲得(de):真實(shi)世界傳感器采集(ji)、基于物理定(ding)律和世界規則進行(xing)計算機(ji)仿真生(sheng)成。仿真不僅能(neng)(neng)生(sheng)成數據,還(huan)能(neng)(neng)在(zai)部署前測(ce)試機(ji)器人,確保它們在(zai)真實(shi)環境(jing)中安全運行(xing),且測(ce)試速度可快于現實(shi)時間。

NVIDIA Jetson Thor是一(yi)款專為物理(li)世界中的(de)智能推(tui)理(li)Agent(特別(bie)是機器人)打造(zao)的(de)超級(ji)計算(suan)機,黃仁勛稱它為“實時推(tui)理(li)機器”。其性能亮點包括:

  • 計算能力是上一代Jetson Orin的7.5倍;
  • 每瓦性能提升多達3.5倍;
  • CPU性能提升多達3.1倍;
  • I/O吞吐量提升多達10倍,滿足高帶寬感知需求。

英偉達高層與王興興、王鶴罕見同框!深聊人形機器人的“命門”與“錢途”

在機器人領域,NVIDIA擁有完整的Isaac平臺,它結合了硬(ying)件與(yu)三(san)臺計算機所需的軟(ruan)件棧,包括運行時和(he)計算環境、仿真工具、訓練框(kuang)架(jia)。Isaac平臺還包括NVIDIA的模擬器(qi)與(yu)仿真框(kuang)架(jia):

  • Isaac Sim:環境和傳感器仿真、機器人測試、生成合成數據。
  • Isaac Lab:強化學習的仿真平臺。
  • NVIDIA Cosmos:世界基礎模型及框架,支持構建理解物理世界的AI,并與Omniverse等模擬器結合,生成更精確、更大規模的數據。

世(shi)界基(ji)礎模型雖然還(huan)處在起步階段,尚不能完全(quan)理解世(shi)界,但(dan)已(yi)經非常有用,并為(wei)機器人研發帶來(lai)了全(quan)新能力(li)。

八、宇樹科技:曬機器人“全家福”競爭力,未來一兩年實現自然交互

王(wang)興興分享了宇(yu)樹科技(ji)的(de)幾款重要機器人產品。

英偉達高層與王興興、王鶴罕見同框!深聊人形機器人的“命門”與“錢途”

足式人形機器人方面,宇樹科技去年5月發布的一款人形機器人,當時售價約9.9萬元,至今依(yi)然具備很強的市場(chang)競(jing)爭力。它的關(guan)節(jie)數量(liang)和靈活性(xing)表(biao)現優秀,且在(zai)發布后,其架構已(yi)成為全球(qiu)較為主流的設計構型。

去年(nian)下半年(nian)及(ji)今年(nian),不少新興(xing)機器人公司的新產品(pin)在(zai)架構上(shang)與(yu)這款(kuan)相似,僅在(zai)外觀(guan)上(shang)存在(zai)差(cha)異。

宇(yu)樹科技設計的(de)造(zao)型流暢且結構簡單,而其(qi)他造(zao)型可能更復雜且不(bu)夠美觀,因(yin)此(ci)該產品在(zai)市場上(shang)競爭(zheng)力(li)較強。

近期,宇樹科技又發(fa)布了(le)新的版本(ben),雖然涂(tu)裝稍顯花哨,但宇樹科技希望客戶可以自由(you)改(gai)裝和噴涂(tu)外觀,例如更改(gai)顏色或增加個性化(hua)裝飾。許(xu)多客戶在戶外直播時會(hui)為(wei)機器(qi)人(ren)穿衣(yi)、戴帽或假發(fa),創造(zao)出多種(zhong)造(zao)型。外觀和造(zao)型的可定制性對于客戶體驗至關重要。

宇樹科技最新發布的R1人形機器人,重量約25千克,輕便且安全。雖然體積較小,但動力性能強勁,主要面向工業應用,售價約3.99萬元,全球競爭力強且性能表現出色,現貨可供,預計量產在年底前完成

機器狗方(fang)面宇(yu)樹科技近期發布了A2機器狗,它(ta)最大特點是在緊湊輕量化(hua)設計下實(shi)現了較大負載(zai)(zai)能(neng)力(li)。自重(zhong)約(yue)37千(qian)克,持續負載(zai)(zai)可(ke)達30千(qian)克,空載(zai)(zai)續航可(ke)行駛(shi)20公里。其(qi)外觀吸(xi)取了以(yi)往的設計經驗(yan),更具(ju)科幻(huan)感,且具(ju)備防塵防水性(xing)能(neng)。

宇(yu)樹科技一(yi)直希望(wang)機器人(ren)能在工業場景中替(ti)代人(ren)類完成(cheng)繁(fan)重、危(wei)險(xian)或重復(fu)性(xing)工作。宇(yu)樹的機器狗在一(yi)些公益項目中已實現24小時(shi)不間斷運行,具備(bei)自(zi)動充電和巡(xun)邏檢測功能。

輪式機器人方面,宇樹科技去年年底升級(ji)了(le)(le)輪式機器人(ren),這款產品較(jiao)(jiao)大,自重約70~80千(qian)克(ke),因此(ci)部分場(chang)景不便使用。為(wei)此(ci),宇樹科技推出了(le)(le)更小型且防塵防水的版本,適用于室(shi)內外多(duo)種場(chang)景,雖(sui)然體型較(jiao)(jiao)大,但(dan)靈(ling)活(huo)性依然優秀。通(tong)常小型機器人(ren)靈(ling)活(huo)性更強,而大型機器人(ren)靈(ling)活(huo)性較(jiao)(jiao)差,但(dan)宇樹科技在較(jiao)(jiao)大尺寸(cun)下依然保證(zheng)了(le)(le)良好的運動性能。

多機協作方面,今年1月,宇樹科技的機器人登上央視春晚,最大亮點是全自動編隊跳舞。它在頭部配備3個激光雷達,可自動建圖并變換隊形。宇樹科技將后臺控制權交給舞臺控臺,使音樂與動作實現毫秒級同步。此次演出共有16臺機器人,統一連接至宇樹科技后臺服務器,再接入舞臺系統。該項目的最大挑戰在于多機協作及復雜的編程維護。目前(qian),這些機(ji)器人在澳門美高(gao)梅每日(ri)進行表演。

動作學習方面,宇樹科技通過采集人體動作數據并結合深度強化學習進行訓練。不同于語言模型訓練,動作訓練只需少量真實數據,其余由強化學習完成。宇樹科技主要使用NVIDIA Isaac Sim平臺進行訓(xun)練,已(yi)掌握舞蹈、跳躍、空翻(fan)等(deng)多(duo)種動作。

當前(qian)限(xian)制(zhi)機器人執行(xing)更復(fu)雜動作的最大因素(su)并非算(suan)法,而是硬件(jian)物(wu)理極限(xian)例(li)如,要將奔跑速度從每秒3~4米提(ti)升到10米,對硬件的改進需(xu)求極高。

硬件方面,宇樹科技重視機器人上肢和手部的研發,目前已自主開發一款約20自由度的靈巧手,目標是讓機器人真正能夠執行日常任務,而不僅是完成展示性動作,希望在未來一到兩年內實現自然交互,例如在沒有預先適配的情況下,直接指令機器人去為某人倒水

今年5月底,宇樹科技與央視合作舉辦了一場機器人格斗賽,時長約1.5小時,包含4個團隊參賽。格斗賽的算法復雜度高于舞蹈或功夫表演,因為動作組合是隨機且存在強干擾,要求動作銜接流暢并可自由組合。其(qi)目標是在未(wei)來實現(xian)“任(ren)(ren)意動作的任(ren)(ren)意實時(shi)生成(cheng)”

九、銀河通用:無人藥房、無人零售已落地,下一代機器人將采用雙足設計

王鶴談道,今天在場的(de)所有機(ji)器人(ren)公(gong)司(si),共同(tong)目標都是打(da)造(zao)通(tong)用機(ji)器人(ren)。這樣的(de)通(tong)用機(ji)器人(ren)將(jiang)成(cheng)為下(xia)一個價值數(shu)萬(wan)億(yi)美元、數(shu)萬(wan)億(yi)人(ren)民幣(bi)市場的(de)關鍵性、革命性產品。

這種革命性產品背后包含多個核心要素:一是機器人本體,二是驅動它運轉的具身智能模型,三是模型背后則是數據支撐——什么樣的數據能訓練出這樣的能力

銀河通(tong)用與其(qi)他公司的不同之處在于,其(qi)機(ji)器人(ren)并非完全(quan)人(ren)形(xing),而(er)是輪(lun)式(shi)+雙(shuang)臂(bei)+雙(shuang)手的形(xing)態,采用輪(lun)式(shi)底盤,主打高續航、工(gong)業(ye)級安全(quan)性,可實現(xian)大(da)規模、高可靠(kao)交付的能力。

英偉達高層與王興興、王鶴罕見同框!深聊人形機器人的“命門”與“錢途”

其G1機器人于2024年5月首次亮相,經過一年多迭代,目前在自動充電、運行流暢度與穩定性方面均已達到大規模自主商用的標準

銀河通用率先在中國將NVIDIA Jetson Thor芯片部(bu)署于人形機(ji)器(qi)人之中,也是全(quan)球最早收到(dao)該芯片的公司(si)之一(yi),并(bing)在本屆(jie)世(shi)界機(ji)器(qi)人大會上實現了現場部(bu)署。

在演(yan)示中,配備該(gai)芯片的(de)機(ji)(ji)器人展現(xian)出(chu)絲滑的(de)運(yun)動(dong)性能(neng)以(yi)及實時(shi)的(de)貨箱視(shi)覺處理與運(yun)動(dong)規劃能(neng)力,速度顯著提升,被現(xian)場觀(guan)眾(zhong)評價為“最快(kuai)的(de)人形機(ji)(ji)器人”。這背后離不開(kai)強大芯片的(de)支撐。

銀河通用的機器人之所以能夠在復雜環境中高效導航,源于銀河通用長期研發的大規模具身大模型VLA。其中,導航大模型只需一句話指令,即可在場景中自主運動

“六一”兒童節前夕,銀河通用全球首發了無需建圖、可在任何復雜場景中跟隨人的TrackVLA,能夠自(zi)(zi)然語言(yan)交(jiao)互、穿(chuan)梭障礙物,全程自(zi)(zi)主運(yun)行,即(ji)使(shi)在人流干(gan)擾(rao)下也能穩定跟隨。

上半身操作方面,銀河通用全球首發了抓取基礎大模型Grasp VLA,實(shi)現了抓(zhua)取動作的實(shi)時閉環(huan)生成(cheng),在各種光照條件和(he)挑戰(zhan)性背景下,均能實(shi)現指定(ding)物(wu)體的零(ling)樣本抓(zhua)取,且(qie)無需事(shi)先訓練(lian)該物(wu)體。這為未來“自(zi)然語言+即(ji)時執行”奠(dian)定(ding)了基礎(chu)。

基于Grasp VLA,銀河通用打造了零售場景應用,無論瓶裝、袋裝、散裝、掛裝或軟體物品,均可由同一模型完成抓取與遞送。這(zhe)是全球首(shou)個(ge)可應對(dui)50多(duo)種不(bu)同物體擺放、從剛(gang)體到軟體全覆蓋(gai)的端到端零(ling)售(shou)大(da)模(mo)型

銀河通用能在全球率先推出多款基礎大模型,并能在真實商店場景穩定應用,得益于NVIDIA提供的全套仿真引擎

“我們與NVIDIA一致認為,合成數據是推動具身智能快速落地的關鍵。”王鶴說。

他談道:“目前,真實世(shi)界數(shu)(shu)據(ju)僅占(zhan)我們訓練(lian)數(shu)(shu)據(ju)的1%,其余99%均為合成(cheng)(cheng)數(shu)(shu)據(ju)。我們將(jiang)自(zi)研機器人(ren)模(mo)型(xing)、大量物(wu)體(ti)與(yu)材質資產輸入合成(cheng)(cheng)管線,經NVIDIA引擎(qing)完成(cheng)(cheng)仿真驗證與(yu)物(wu)理渲染,生成(cheng)(cheng)全(quan)球首個百億級抓取操(cao)(cao)作(zuo)大數(shu)(shu)據(ju)集(ji),以(yi)及全(quan)球首個百億級柔性物(wu)體(ti)操(cao)(cao)作(zuo)大數(shu)(shu)據(ju)集(ji)。這(zhe)些數(shu)(shu)據(ju)使我們的模(mo)型(xing)在(zai)真實環境中具備極高的魯棒性與(yu)泛化能(neng)力。”

銀河通用還與NVIDIA聯合官宣了基于Isaac平臺的下一代人形機器人項目

目前銀河通用的機器人為輪式形態,下一代將采用純雙足設計,基于OpenWBT_Isaac進行數據采集與遙控(kong)控(kong)制。無論在仿真環境(jing)還是現實環境(jing),該(gai)平臺可訓練并(bing)部署多(duo)種(zhong)任(ren)務能力,例(li)如推(tui)車、拾取(qu)地面物體等(deng)。

銀河通用的多項技能已實現完全商用,例如推出了全球首個24小時無人藥房解決方案,在北(bei)京、上海、深圳等地(di)簽約超(chao)過(guo)(guo)100家(jia)藥店。用戶通過(guo)(guo)App下(xia)單后(hou),由機器人在店內(nei)完成取藥并交付外賣員(yuan),該方案已吸(xi)引多位政府領(ling)導與外國(guo)元首參(can)觀。

2024年,銀河通用還官宣了24小時無人零售店項目,將(jiang)在10個(ge)城市的(de)百處核心商圈和(he)旅(lv)游景點(dian)部署銀河通用“太空(kong)艙”零售(shou)(shou)終端,銷售(shou)(shou)飲(yin)品(pin)(pin)等(deng)商品(pin)(pin),目(mu)前已在北京海淀區(qu)大融城落地。

結語:讓計算的力量進入100萬億美元市場,機器人與AI技術發展需要全球協作

Rev Lebaredian分享道,過(guo)去(qu)三(san)四十年(nian)里,計(ji)算機(ji)產業(ye)和IT產業(ye)放大了(le)各(ge)(ge)行各(ge)(ge)業(ye)的(de)能力(li)。但計(ji)算的(de)影響(xiang)大多(duo)還停留在“信息空間”——也就是可以數字化的(de)內(nei)容,比如語言(yan)和各(ge)(ge)種可編碼(ma)的(de)信息。互(hu)聯網的(de)出現,讓計(ji)算技術真正走進每個人的(de)生(sheng)活,把所有人連接(jie)起來(lai),并帶來(lai)了(le)幾十年(nian)的(de)增(zeng)長。

從(cong)全球市場規模來(lai)看(kan),IT行業(ye)的(de)(de)總(zong)規模約為5萬(wan)億美(mei)元,這(zhe)與全球所(suo)有行業(ye)超過100萬(wan)億美(mei)元的(de)(de)總(zong)量相比,只是(shi)(shi)很小的(de)(de)一部(bu)分(fen)。其它行業(ye)之所(suo)以更有價值,是(shi)(shi)因為它們處(chu)理的(de)(de)是(shi)(shi)真實(shi)世界的(de)(de)“原子”——交(jiao)通(tong)、制(zhi)造、供應鏈、物流、醫療、制(zhi)藥等涉及物理世界的(de)(de)領域(yu)。

而今天,隨著AI出現,我們(men)終于有了讓機器具(ju)備“物(wu)理智能”的能力,可以(yi)把物(wu)理世(shi)界和信(xin)息(xi)世(shi)界真正連接(jie)起來。換句話說,計算的力量不再(zai)只局限于那(nei)5萬(wan)億美元的信(xin)息(xi)市場(chang),而是可以(yi)進入那(nei)100萬(wan)億美元的物(wu)理世(shi)界市場(chang)。

這個橋梁,就是(shi)機器(qi)人。

有了機器人(ren),我們(men)可以把計算和AI帶進真(zhen)實世界(jie),創造出能理解并改變物理環境的智能體。

王鶴(he)總結(jie)說,銀(yin)(yin)河通用通過與NVIDIA的一系列合作,從仿真到可落地的產(chan)品,利(li)用合成大數據(ju)賦能的VLA驅動工業(ye)級機器人。銀(yin)(yin)河通用將繼續與NVIDIA等合作伙(huo)伴攜手(shou),打造服務(wu)千行(xing)百業(ye)、千家萬戶(hu)的通用機器人。

王興興談(tan)道,回顧(gu)過(guo)去(qu),AI與機器人技術的發展始終(zhong)是(shi)全球協(xie)作(zuo)(zuo)的成果(guo)。包括(kuo)NVIDIA在內的多方力量一直推動機器人與AI領域的全球合作(zuo)(zuo)。

在他(ta)看來,在通用(yong)智能(neng)大模型和(he)真正能(neng)執行任務的(de)機(ji)器人(ren)普及之前,我們仍需共(gong)同努力,推動人(ren)類(lei)進(jin)入下一個科技時代(dai)。他(ta)相信,AI與機(ji)器人(ren)技術將(jiang)像電(dian)力與蒸汽機(ji)的(de)發明一樣,使人(ren)類(lei)文明邁向新的(de)高度。