智東西(公眾號:zhidxcom)
作者 | GenAICon 2024

2024中(zhong)國生(sheng)成式AI大(da)會(hui)于(yu)4月18-19日(ri)在北京(jing)舉行(xing),在大(da)會(hui)第二天的主會(hui)場AIGC應(ying)用專場上(shang),極佳科(ke)技(ji)創始人&CEO黃(huang)冠博(bo)士以(yi)《技(ji)術與應(ying)用閉環,從視頻生(sheng)成走向世(shi)界模型(xing)》為題發表演講。

黃冠認為,當下所有“通用智能”都在走向“端到端大模型”,一切問題都變成了“高質量數據”問題“世界模型”是未來具身智能最重要的“高質量數據”來源,它結合互聯網(wang)數據(ju)、仿真數據(ju)、遙操數據(ju)、真實采集數據(ju)等(deng)多種數據(ju),學(xue)習、訓練、組合,從(cong)而得到(dao)交互式物理(li)世界模擬器(qi)。

極佳科技正基于世界模型打造新一代數據平臺,面向端到端自動駕駛和通用機器人提供服務。極佳科技DriveDreamer自動駕駛世界模型、WorldDreamer通用世界模型目前已成功商業化落地

以下為黃冠的演講實錄:

今天我主要跟大家匯報討論一下我們(men)在視頻(pin)生成、世(shi)界模(mo)型方面相關的思考和進展,以(yi)及主要想(xiang)分享一下我們(men)對于打造通用具身智能新一代數據引(yin)擎的想(xiang)法(fa)。

我們總結了通用智能目前大的發展趨勢,整個行業在從以GPT和Sora為代表的通用內容智能,走向通用行動智能。無論是(shi)(shi)Agent、自動(dong)駕駛還(huan)是(shi)(shi)機器(qi)人,其核(he)心是(shi)(shi)從產生(sheng)內容到產生(sheng)行動(dong)。當(dang)大(da)模型能(neng)可靠地產生(sheng)行動(dong),那么對整(zheng)個經濟和社(she)會的(de)影響肯定是(shi)(shi)更大(da)范(fan)圍的(de),才是(shi)(shi)大(da)家所(suo)謂的(de)走向真(zhen)正的(de)“第四次(ci)工(gong)業革命”。

一、世界模型發展三大方向:視頻生成、自動駕駛、通用機器人

世界模型這個詞一開始是楊立昆提出的,他說GPT不能達到AGI,我們需要世界模型。其實這兩年國內外,大家越來越認識到世界模型的重要性,核心是分三個方向在發展,包括視頻生成、自動駕駛和通用機器人,都非常關注世(shi)界模型的進展(zhan)。

極佳科技黃冠:為通用具身智能打造數據引擎,商業化落地速度國內最快丨GenAICon 2024

首先是視頻生成。今年(nian)(nian)年(nian)(nian)初Sora引爆整個AI圈(quan)子,值得(de)注意的是(shi)OpenAI并沒(mei)有把Sora看成一個單純的文生視頻模型(xing),而(er)是(shi)把它叫做World Simulator(世(shi)界(jie)模擬器),這就有了世(shi)界(jie)模型(xing)的雛形(xing)。去(qu)年(nian)(nian)下半年(nian)(nian)Runway也公開宣布說他們要走向通用世(shi)界(jie)模型(xing)。

我(wo)們也(ye)有(you)一個(ge)工作叫WorldDreamer,應(ying)該是全球比(bi)較領先的用Transformer新一代(dai)架構,不是Diffusion架構,去走向通用視頻(pin)生成和世界模(mo)型。

極佳科技黃冠:為通用具身智能打造數據引擎,商業化落地速度國內最快丨GenAICon 2024

其次我們看到自動駕駛這個行業(ye)。既然是(shi)世界模(mo)型,一(yi)定會(hui)影響(xiang)物(wu)理世界,會(hui)對物(wu)理世界有極強的理解和預測(ce)能力。

所以(yi)我們看到特(te)斯拉(la)從去(qu)(qu)年年中開(kai)始說他們在(zai)做General World Model(通用世界模(mo)型(xing)),同時特(te)斯拉(la)不(bu)斷在(zai)視頻基礎模(mo)型(xing)這個方向加大投入。還有Wayve是一(yi)家英國(guo)的(de)自動駕駛公司(si),這是比爾·蓋茨在(zai)投了OpenAI之(zhi)后,立(li)馬就去(qu)(qu)英國(guo)投的(de)一(yi)家公司(si),因為比爾·蓋茨覺(jue)得Wayve讓他看到了物理世界AGI的(de)希望(wang)。

極(ji)佳(jia)科技也是國內(nei)最早開始做(zuo)自動駕駛世界模(mo)(mo)型的公(gong)司,我們(men)的模(mo)(mo)型叫DriveDreamer,目前(qian)已經實(shi)現了(le)大規模(mo)(mo)的商業落地(di)應(ying)用。

更大的趨勢,大家看到現在在通用機器人方向,伯克利、Covariant做了一系列(lie)跟世(shi)(shi)界(jie)(jie)模擬器(qi)、世(shi)(shi)界(jie)(jie)模型(xing)相關(guan)的(de)(de)工(gong)作,包括他們最近(jin)發的(de)(de)RFM機(ji)器(qi)人大(da)模型(xing)相關(guan)工(gong)作。谷歌(ge)也在做可交互式的(de)(de)世(shi)(shi)界(jie)(jie)模型(xing),人形機(ji)器(qi)人創企(qi)1X也通過世(shi)(shi)界(jie)(jie)模型(xing)預測未(wei)來、實現通用機(ji)器(qi)人。

全球世界模型跟(gen)視頻(pin)生成、自動駕駛、通(tong)用機器人行業(ye)結合起來,正(zheng)在非常(chang)快速發展。

二、通用智能走向端到端大模型,世界模型是最重要的高質量數據來源

目前的趨勢是,所有通用智能都在走向端到端大模型,無論是生成式智能,包括語言、視頻、圖像、3D等的理解和生成;還是具身智能,包括自動駕駛、通用機器人等。

特別(bie)是(shi)自動駕駛,大(da)家(jia)看到最近馬(ma)斯克頻頻給特斯拉V12造勢(shi),它是(shi)標準的(de)Video-in Action-out(視頻輸入-動作輸出(chu))系(xi)統(tong)。通用(yong)機器人也是(shi)最新的(de)硅谷趨(qu)勢(shi),大(da)家(jia)都在走向(xiang)端到端、Video-in Action-out這樣一(yi)個范式。

在這個趨勢下,一切問題就變成了高質量數據的問題,因為(wei)這已經不再(zai)是過去(qu)規則驅動的系統了,需要(yao)高(gao)質量端到(dao)端的數據去(qu)迭代,去(qu)訓練這樣生成式智(zhi)能或具(ju)身智(zhi)能的系統。

我們認為,世界模型是未來具身智能最重要的高質量數據來源。現在大家看到有很(hen)多(duo)種解決數據(ju)問題的(de)方式,包括從互聯網的(de)圖像、視頻數據(ju)去學習(xi),還有用仿真數據(ju)去學習(xi),或者(zhe)像斯坦福通(tong)過(guo)ALOHA機器人等遙操設備去做端到端學習(xi),自動(dong)駕駛或機器人通(tong)過(guo)真實(shi)采(cai)集的(de)數據(ju)去學習(xi)。

行(xing)業里大家首(shou)先通過各種仿真(zhen)的(de)方式去解決(jue)Sim2Real的(de)問題(ti),以及通過更大規(gui)模(mo)的(de)部署(shu),解決(jue)更多真(zhen)實(shi)數據來源的(de)問題(ti)。

所以我們認為未來的數據來源一定會走向世界模型,它會結合上面所有數據去學習訓練組合,得到交互式的物理世界模擬器

三、基于世界模型打造新一代數據平臺,商業化落地速度國內最快

我們目前在做的事情,就是基于世界模型打造新一代的數據平臺,面(mian)向端到端自動(dong)駕駛和通用(yong)機器人。平臺底層是(shi)一個以視頻生成和世界模型為核心的(de)基礎模型。大家知道Sora目前(qian)是(shi)不可(ke)用(yong)的(de),無論(lun)是(shi)成本還是(shi)速(su)度,我(wo)們(men)會追(zhui)求速(su)度和成本達到數量(liang)級的(de)降(jiang)低。

同時我們(men)會有完(wan)備的平臺服務(wu),通(tong)過數(shu)據方(fang)式去服務(wu)端到端通(tong)用自動駕(jia)駛,以及通(tong)用機器人的通(tong)用操作、通(tong)用移動等相(xiang)關場景(jing),助力具身智能行業爆發。

極佳科技目前在自動駕駛世界模型上,相關技術是全球最領先的之一,同時我們商業化速度也是全球最快的。我們和國內很多主(zhu)流的頭部主(zhu)機廠已經開始實際的商業合作,通(tong)過世界模型(xing),用于數據生(sheng)成、閉環仿(fang)真等相關方向(xiang)。

極佳科技黃冠:為通用具身智能打造數據引擎,商業化落地速度國內最快丨GenAICon 2024

同時,更具想象力和價值的場景,是我們面向通用機器人的世界模型和物理世界模擬器,這個方向我們的技術目前在國內也是比較領先的,同時我們商業化落地速度也是國內最快的。

其核心跟駕駛一樣,首先它可以作為一個模擬器在通用機器人的數據生成、閉環仿真方面有重要的作用,同時后面也可以作為方案一部分,走向機器人的端到端方案。這個范式跟過去的自動駕駛和機器人分模塊范式很不一樣,會走向大一統的面向通用具身智能的端到端整體架構

極佳科技黃冠:為通用具身智能打造數據引擎,商業化落地速度國內最快丨GenAICon 2024以上是黃冠演講內容的完整整理。