智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 李水青

智東西8月9日報道,今天,宇樹科技創始人兼CEO、CTO王興興在2025世界機器人大會上,分享了他對全球機器人行業發展現狀的最新觀點。王興興認為,人形機器人行業已經走到“ChatGPT時刻”的前夜,最快(kuai)1-2年就能(neng)迎來這一時刻(ke)。

王興興認為,由于政策支持與需求爆發,2025年上半年,人形機器人整機與零部件廠商平均(jun)實現了50%-100%的增(zeng)長,幅度驚人。然(ran)而,行業(ye)內還(huan)存在幾大誤區:

首先,人形機器人大規模應用的最大問題,并不是硬件,而是具身智能。雖然硬件在量產工程化上仍有提升空間,但具身智能問題更為明顯,還無法驅動機器人自主地完成任務,這背后的原因并不是大家普遍關注的數據問題,而是模型架構問(wen)題(ti)。

王興興稱,未來2到5年,智能機器人技術的重心是端到端的具身智能AI模(mo)型。當前行業常見的VLA(視覺-語言-動作)模型,在他看來屬于“傻瓜式架構”,他個人對這類模型持懷疑態度。視(shi)頻生成模(mo)型(或是世界模(mo)型)驅動(dong)機(ji)器(qi)人控(kong)制,是他眼中有望更快收斂的技術路徑。

同時,機器人研究還需要在強化學習Scaling Law(擴展定律)上實現突破,從而讓每次訓練的速度越來越快,學習新技能的效果越來越好。隨著機器人日益普及,分布式的算力將(jiang)成為(wei)大(da)勢所趨,有(you)望突破機器人本(ben)體(ti)搭載算力的限制,并滿足實際應(ying)用過程(cheng)中對安全(quan)性和通信(xin)延遲的要求(qiu)。

王(wang)興興還在演講中回顧了宇樹科技的發(fa)展,從2013年研發(fa)機(ji)器狗(gou)X dog原型機(ji)開始,并獲(huo)得8萬元的第一(yi)(yi)桶金,再到(dao)2023年應客(ke)戶需求推出首(shou)款人形(xing)機(ji)器人,他(ta)認(ren)為,機(ji)器人與AI的發(fa)展始終是一(yi)(yi)個全球(qiu)共創的過程,他(ta)也(ye)鼓勵(li)更多企業和高校參與到(dao)這一(yi)(yi)過程中。

以下是王興興部分精彩演講內容的整理(智東西在不改變原意的前提下,進行了一定程度的增刪修改):

我分享一下我個人對全球人形機器人行情的看法。今年上半年,最大的特點就是由于機器人行業非常火爆,以及政策的相關支持,整機廠商、零部件廠商,平均實現(xian)了50%到(dao)100%的增(zeng)長。增(zeng)長幅(fu)度還是非常嚇人的(de),這對整個(ge)行業(ye)而言都是十(shi)分(fen)罕見的(de),需(xu)求(qiu)端拉動了整個(ge)的(de)行業(ye)的(de)發展(zhan)。

海外市(shi)場方面,特(te)斯拉作(zuo)為(wei)行(xing)業(ye)代表,計劃今年量產數千臺人(ren)形(xing)機器人(ren),并將發布第三代Optimus人(ren)形(xing)機器人(ren),值得重點(dian)關(guan)注。此(ci)外,全球企(qi)業(ye)對(dui)機器人(ren)行(xing)業(ye)的熱情高漲,包(bao)括英偉(wei)達、蘋果(guo)、Meta、OpenAI等企(qi)業(ye)都持(chi)續(xu)在推動(dong)這一領域(yu)的發展。

我分享幾個(ge)個(ge)人的觀(guan)點,未必(bi)準確。

第一點,對于(yu)機(ji)(ji)器人(ren)(ren)本體來說,很多人(ren)(ren)可能會有這樣一個誤區:機(ji)(ji)器人(ren)(ren)目前沒有大規模應用(yong)、功能不夠完善的原(yuan)因,是硬件不夠好,或者成本比較(jiao)高。

其實目前的硬件,無論是整機還是靈巧手,從某種意義上來說完全是夠用的。當然不(bu)夠好,還需要(yao)優(you)化,更大的問題是(shi)量產,工(gong)程上的問題肯定是(shi)很多的。

但是在技術層面上,或者從AI的角度來說,目前的硬件是完全是夠用的。目(mu)前最大的挑戰(zhan)還(huan)是具身(shen)智能,或(huo)者(zhe)說AI技術(shu)的發展,完全不夠用(yong)。這也是(shi)限制當前機器(qi)人,尤其是(shi)人形機器(qi)人大規模的應用(yong)的最大問題。

目前,機器人行業所處的位置,就像(xiang)是ChatGPT誕生(sheng)前的(de)1-3年(nian)左右,目前業界已(yi)經發(fa)現了類似的方向以(yi)及技(ji)術路(lu)線(xian),但是沒人把它做出來。

宇樹王興興最新演講:數據不是具身智能的最大挑戰

ChatGPT出來(lai)的(de)前幾年,做語(yu)音AI的(de)已經做了十幾年,近二十年了,但是大家一(yi)直(zhi)覺(jue)得他很傻瓜,很弱智,根(gen)本完全沒(mei)法用。ChatGPT出來(lai)后,它實現了比(bi)一(yi)般人還(huan)要強的(de)能(neng)力。機(ji)器人還(huan)沒(mei)有到達(da)這一(yi)臨(lin)界點。

對于(yu)機器人的(de)(de)AI技術(shu),我覺得(de)臨界點可能是(shi)(shi)這(zhe)樣的(de)(de):當一個人形機器人能夠(gou)進入一個完全陌生的(de)(de)環境(比如從未見過的(de)(de)會場),我跟他(ta)說(shuo)“把這(zhe)瓶水帶給某位(wei)觀眾”,或是(shi)(shi)“整(zheng)理一下這(zhe)個房間”,而它能夠(gou)順暢自主地完成任務(wu),這(zhe)就(jiu)是(shi)(shi)人形機器人的(de)(de)ChatGPT時刻。

如果進展快的話,可能未來的1-2年或者2-3年,我們就能實現這一目標,最慢的話3-5年也有很大概(gai)率能實現(xian)。

目前,具身智能不夠用的問題,究竟是模型還是數據導致的?我反而感覺目前全球范圍內,大家(jia)對機(ji)器人數據這(zhe)個問題的關注度有點太(tai)高了。現在最大的(de)問(wen)題是反(fan)而是模(mo)型的(de)問(wen)題,并(bing)不是數據問(wen)題。

對于具身智能和機器人來說,模型架構都還不夠(gou)好,也(ye)不夠統一。大(da)家對(dui)模(mo)(mo)型問題的(de)(de)(de)關(guan)注(zhu)度(du)高,反(fan)而對(dui)數據(ju)(ju)的(de)(de)(de)問題關(guan)注(zhu)很(hen)多。因為在大(da)語言模(mo)(mo)型領域(yu),大(da)家覺得我(wo)有足夠(gou)多的(de)(de)(de)數據(ju)(ju),尤其有足夠(gou)多的(de)(de)(de)好(hao)的(de)(de)(de)數據(ju)(ju)的(de)(de)(de)時候,我(wo)就能把模(mo)(mo)型訓練的(de)(de)(de)越來(lai)好(hao)。

但是在具(ju)身智(zhi)能,在機器人領域,大家可以發(fa)現,很多(duo)情況下有(you)了(le)數據(ju)(ju),會發(fa)現這個數據(ju)(ju)用不(bu)起來。

相對比較火的就是VLA模型。VLA是一個相對比較傻瓜式的架構,我個(ge)(ge)人對(dui)VLA模型還(huan)是保持一個(ge)(ge)比較懷(huai)疑的(de)態(tai)度(du)。VLA模型在與真實世界交互(hu)時,它的數據質量、能采集(ji)的數據是不太夠用的。

有個(ge)簡單的(de)想(xiang)法,就(jiu)是(shi)在VLA模(mo)型上面加一個(ge)RL的(de)訓練,這是(shi)一個(ge)非常(chang)自(zi)然的(de)想(xiang)法。但是(shi)我(wo)個(ge)人感覺,包括我(wo)們公司目前(qian)嘗試(shi)下來VLA模(mo)型加RL訓練,我(wo)覺得(de)還是(shi)不(bu)夠的(de),模(mo)型架構還是(shi)得(de)再升級和(he)優化。

這里也(ye)簡單分享一下(xia)我們(men)過去做的(de)一些事情。大家(jia)也(ye)可以(yi)(yi)關注到,谷(gu)歌(ge)發布了他(ta)們(men)全新(xin)一代的(de)視(shi)頻(pin)生(sheng)成(cheng)模型,或(huo)者(zhe)某種意義上是一個視(shi)頻(pin)驅(qu)動的(de)一個世(shi)界模型。還有(you)(you),去年的(de)時候,當OpenAI發布了視(shi)頻(pin)生(sheng)成(cheng)模型以(yi)(yi)后(hou),大家(jia)會有(you)(you)一個很自然的(de)想法:我可以(yi)(yi)控制一個視(shi)頻(pin)生(sheng)成(cheng)模型,跟(gen)他(ta)說“幫我生(sheng)成(cheng)一個機器人,去整(zheng)理一下(xia)房間”。

如果模型生成的視頻中,機器人可以完成任務,那我是不是能讓這個視頻生成(cheng)模(mo)型直接去驅動一個機器人完(wan)成(cheng)任(ren)務(wu)。這個(ge)(ge)想(xiang)法非常簡單直接,我們(men)去年的(de)時候就去做了(le)這個(ge)(ge)事(shi)情。

大家可以看到,右上角(jiao)的(de)(de)視頻其實(shi)(shi)是(shi)生成(cheng)出來的(de)(de),不是(shi)用(yong)攝像頭采(cai)集的(de)(de)。我們(men)用(yong)一(yi)個(ge)預訓練的(de)(de)視頻生成(cheng)模型(xing),重新訓練了一(yi)下,讓他先去(qu)生成(cheng)一(yi)個(ge)機(ji)器人(ren)動作的(de)(de)視頻,然后再(zai)控制一(yi)個(ge)機(ji)器人(ren)去(qu)做,這個(ge)技術(shu)是(shi)能(neng)實(shi)(shi)現的(de)(de)。包括谷歌(ge)的(de)(de)視頻生成(cheng)世界模型(xing),他們(men)也想(xiang)實(shi)(shi)現這個(ge)效果。

宇樹王興興最新演講:數據不是具身智能的最大挑戰

我覺得這個路(lu)線的(de)方向可能會比VLA模型發展得要快(kuai),收斂概率還更大。但我不敢打(da)包票,可能(neng)還是有(you)很(hen)(hen)多問題。其(qi)中(zhong)有(you)個很(hen)(hen)大(da)(da)的問題就(jiu)是,視(shi)頻(pin)生(sheng)成模型太關注視(shi)頻(pin)生(sheng)成的質量了,導致對GPU的消(xiao)耗有(you)點大(da)(da)。

對機(ji)器(qi)(qi)人干活來說,某(mou)種意義上(shang)你并不需要很(hen)高(gao)精(jing)度的(de)(de)(de)(de)視頻生成質量,你只(zhi)要驅動(dong)機(ji)器(qi)(qi)人去干活就行(xing)了(le)。大家可以關注谷歌(ge)的(de)(de)(de)(de)視頻生成模(mo)型(xing)(xing),還(huan)是非常有意思的(de)(de)(de)(de)。整個(ge)模(mo)型(xing)(xing)的(de)(de)(de)(de)架構(gou)還(huan)是非常簡單粗暴的(de)(de)(de)(de),就是把機(ji)器(qi)(qi)人的(de)(de)(de)(de)一些動(dong)作序列控制(zhi),直接對齊(qi)到模(mo)型(xing)(xing)的(de)(de)(de)(de)架構(gou)上(shang)。

宇樹王興興最新演講:數據不是具身智能的最大挑戰

另外一點,大家也知道,目前機器人跳跳舞、打格斗效果其實不錯了,但實際上面臨一個很大的問題,如果要進一步機器人能力提升,也就是機器(qi)人RL的(de)Scaling Law,還(huan)是(shi)做得(de)非常(chang)不(bu)好。

舉個最簡單的(de)例子(zi),我(wo)訓(xun)練(lian)(lian)一個機(ji)(ji)器(qi)人做(zuo)新的(de)動作、跳新的(de)舞蹈,都要重新訓(xun)練(lian)(lian),還是從頭開始訓(xun)練(lian)(lian),這(zhe)是非常不(bu)好的(de)一個事情。我(wo)們(men)是希望(wang)機(ji)(ji)器(qi)人每(mei)次做(zuo)一個新的(de)訓(xun)練(lian)(lian)的(de)時候(hou),可以在過去訓(xun)練(lian)(lian)基礎上進行。

理論上我做RL訓練(lian)的(de)(de)(de)時候(hou),每(mei)次訓練(lian)的(de)(de)(de)速度(du)應該越(yue)(yue)來(lai)(lai)越(yue)(yue)快(kuai),學習(xi)新(xin)技能的(de)(de)(de)效果越(yue)(yue)來(lai)(lai)越(yue)(yue)好。但(dan)是全(quan)行業內,目前(qian)整個(ge)機器人在RL的(de)(de)(de)Scaling Law,沒有人做出來(lai)(lai),做好。我覺得這是非常值得做的(de)(de)(de)一個(ge)方向。

因為RL Scaling Law在語言模型上已經是充分(fen)驗證過的事情。但在機器人的運動控制上面,大家才剛剛開始。

我個人感覺,在未來2到5年,智能機器人(ren)技術的重心是端到端的具(ju)身(shen)智能AI模型。我覺得模型(xing)本身是(shi)最(zui)重(zhong)要的。

然后就是更低成本的(de)(de),更高壽命的(de)(de)硬件,這(zhe)個是毋庸(yong)置(zhi)疑的。大(da)家(jia)(jia)也知道,哪怕(pa)(pa)對于汽車行(xing)業來說,已經一百多(duo)年了,哪怕(pa)(pa)到今天,一家(jia)(jia)企業要做(zuo)很好(hao)的一輛汽車出來,工(gong)程量(liang)還是非常大(da)的。

對機器人(ren)行業來(lai)說,未來(lai)如果每(mei)年要生產制造幾(ji)百萬、幾(ji)千萬甚至幾(ji)億的(de)人(ren)體機器人(ren),它的(de)工程(cheng)量挑戰還(huan)是非常驚人(ren)的(de)。

同時,低成本的大規模(mo)的算力(li)也很重要。在人形機器(qi)人上,或者在移動機器(qi)人本(ben)體上,其實(shi)沒辦法(fa)直接部署(shu)大(da)規(gui)模的(de)算力。它(ta)的(de)尺寸(cun)只有這(zhe)么大(da),它(ta)的(de)電(dian)池只有這(zhe)么大(da),它(ta)部署(shu)算力的(de)功(gong)耗是(shi)有限制的(de)。

我個人感覺在人形機(ji)(ji)器人上,最多(duo)只(zhi)能部(bu)署(shu)峰(feng)值功(gong)耗(hao)為100瓦的算(suan)力(li)(li),平時(shi)工(gong)作(zuo)的時(shi)候算(suan)力(li)(li)只(zhi)有小幾十瓦,簡(jian)單說就只(zhi)有大概幾個手機(ji)(ji)的算(suan)力(li)(li)水平。

但是,未(wei)來機(ji)器(qi)人(ren)還是需要大規模算力的(de),而且我覺得可(ke)能是分布式的(de)算力。機(ji)器(qi)人(ren)干活的(de)時候,我們希(xi)望其通信延遲比較低的(de),如果(guo)在(zai)北京干活的(de)機(ji)器(qi),數據中(zhong)心在(zai)上海或者(zhe)在(zai)內蒙,延遲實在(zai)是太大了(le)。

我(wo)個人感覺,未來在工(gong)(gong)業領域大(da)規模運(yun)用(yong)人形機器(qi)人時,工(gong)(gong)廠里面(mian)可(ke)以(yi)有(you)個分(fen)布(bu)式的(de)服務器(qi),所有(you)的(de)機器(qi)人直(zhi)接(jie)連接(jie)工(gong)(gong)廠里的(de)局部服務器(qi)就好了(le)。服務器(qi)的(de)安全性(xing)、通信延遲是(shi)可(ke)以(yi)接(jie)受(shou)的(de)。

或(huo)者換一(yi)個(ge)(ge)話題,如(ru)果一(yi)個(ge)(ge)小區每家每戶有(you)一(yi)個(ge)(ge)機器(qi)人(ren)的(de)時候(hou),在這個(ge)(ge)小區可能是有(you)分布式的(de)集群(qun)算(suan)力中心(xin)的(de),可以保證(zheng)延(yan)遲與安(an)全(quan)性。并且,如(ru)果有(you)新客戶想買(mai)一(yi)個(ge)(ge)人(ren)形機器(qi)人(ren)的(de)時候(hou),他(ta)不需要給(gei)這部分算(suan)力的(de)建(jian)設(she)花錢(qian),成(cheng)本也會更低(di)很多。

我覺(jue)得分布式算力會(hui)是機器人行業(ye)未來非常重要的(de)一(yi)個領域(yu),可能比目前算力的(de)分布還要更廣一(yi)些。

另外一點,大家也知(zhi)道(dao),在AI領域、機器人領域一直是一個全球共創的過程(cheng)。中(zhong)國(guo)的企(qi)業、美國(guo)的企(qi)業,包括英偉達等(deng),已經(jing)做出了很多貢(gong)獻(xian)。

在AI領域,沒(mei)有一家(jia)大公(gong)司(si)能保證,只要有足(zu)夠(gou)的(de)人(ren)、有足(zu)夠(gou)的(de)資源,我(wo)就能永遠(yuan)領先。OpenAI和(he)DeepSeek已經證明了,AI的(de)創新(xin)永遠(yuan)伴(ban)(ban)隨著一些隨機(ji)性,伴(ban)(ban)隨著更多的(de)聰明年輕人(ren)的(de)。所(suo)以很多情況下都是(shi)很多公(gong)司(si)、高校做出(chu)的(de)貢獻,還是(shi)要全(quan)球共創出(chu)來的(de)。謝謝大家(jia)。