智東西(公眾號:zhidxcom)
編譯 | 程茜
編輯 | 李水青

智東西8月6日消息,昨夜,谷歌DeepMind宣布推出通用世界模型Genie 3首個可實(shi)時交互世(shi)界模型來了。

基于文本提示,Genie 3可以(yi)允許用戶以(yi)每秒24幀的(de)速度,以(yi)720p的(de)分辨率生(sheng)成(cheng)長達(da)數分鐘的(de)交互式3D環境,Genie 2僅能(neng)生(sheng)成(cheng)10到20秒。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

去年年底,谷歌DeepMind發布能生成各種可控制動作、可玩3D環境的大型基礎世界模型Genie 2,此次發布的Genie 3,是其第一個允許實時交互的世界模型,在一(yi)致(zhi)性和真實感方面(mian)相(xiang)較前代有(you)提升。如下面(mian)的示例中(zhong),Genie 3生(sheng)成內(nei)容的機器人(ren)本體(ti)、周圍環境質感更佳:

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

博客文章中,谷歌DeepMind放出了數十個Genie 3的生成案例,展示其在模(mo)擬世(shi)界物理(li)特性、模(mo)擬自然世(shi)界、生(sheng)成(cheng)動畫和小說建(jian)模(mo)、超越地理(li)時(shi)間限制生(sheng)成(cheng)內容的能力。此外,研究人員還將其應用到具(ju)身Agent研究,如指示Agent向Genie 3發送導航(hang)操(cao)作,實現在(zai)花園里靠近軟(ruan)管的(de)任務:

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

谷歌(ge)DeepMind?Genie 3與Genie 2、由神經模型驅動(dong)的游戲(xi)引擎(qing)GameNGen、視頻生成模型Veo對比,最突(tu)出的特(te)點是其生成時長(chang)翻倍增長(chang):

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

此次,谷歌DeepMind宣布以有限研究預覽版的形式發布Genie 3,為(wei)一小部分學者(zhe)和(he)創作者(zhe)提供早期使用機(ji)會。在(zai)博客的致謝部分,還出(chu)現了被谷(gu)歌(ge)挖(wa)來(lai)的OpenAI視頻生成工具(ju)Sora的聯合負責人之一蒂姆(mu)·布(bu)魯(lu)克(ke)斯(Tim Brooks)。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

網友(you)(you)在谷歌(ge)DeepMind的X評論區瘋狂開啟(qi)夸夸夸模式,有網友(you)(you)將其的重要性與(yu)ChatGPT、Sora發布對標:

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

還(huan)有網友認(ren)為這是3A游戲大作的未來(lai),還(huan)能在VR、電視(shi)互動節目(mu)中有很大應(ying)用場(chang)景:

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻 1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

一位Reddit上(shang)的(de)開(kai)發(fa)者(zhe)認為Genie 3的(de)發(fa)布(bu),意味著理論上(shang)而言“只要有(you)足夠的(de)計(ji)算能力和(he)實時(shi)數據……就可以讓(rang)整個(ge)世界變得可玩”。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

本文動圖均(jun)只截取了Genie 3生成內容(rong)的部分片段,完整案例演示(shi)請查看原博客:

博客鏈接://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/?utm_source=x&utm_medium=social&utm_campaign=genie3

一、模擬真實世界物理特性、動植物逼真,動畫小說建模畫面自然

此前世界模型在很大程度上局限于建模狹窄的領域。Genie 1引入了一種生成各種2D世界的方法,Genie 2進一步在通用性上取得進展,可以生成種類繁多的豐富3D世界,現在Genie 3不僅在(zai)生成3D世(shi)界的真實(shi)性、一致(zhi)性上取得進(jin)展,還(huan)引(yin)入了實(shi)時互動(dong)能力

以下是Genie 3生成的實時(shi)互動(dong)內(nei)容:

1、模擬世界的物理特性:復雜環境沒有失真

下面的(de)案例中,3D世界在表現(xian)水蔓延到馬路上、海(hai)平面、燈光映照(zhao)在水面的(de)光影變化(hua)等都(dou)沒有失真。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

2、模擬自然世界:動植物表現逼真

Genie 3可以創建從動(dong)物(wu)到(dao)植物(wu)等(deng)各種(zhong)復(fu)雜(za)且(qie)充滿活力的(de)生態系統(tong),如下面演示的(de)庭(ting)院、湖泊、海(hai)底(di)世(shi)界等(deng)。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

3、動畫和小說建模:動畫人物活靈活現

Genie 3還能創建(jian)動(dong)畫(hua)場(chang)景以及動(dong)畫(hua)人(ren)物(wu),動(dong)畫(hua)人(ren)物(wu)的(de)色彩、形象都符(fu)合整體環境。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

4、突破時空界限:探索未知地點和過去時刻

Genie 3創建的(de)內容可以超越(yue)地(di)(di)理和時(shi)間界限(xian),探索(suo)未知的(de)地(di)(di)方或者過去(qu)的(de)時(shi)代,如下面(mian)的(de)翼裝(zhuang)飛(fei)行、山地(di)(di)騎車(che)等(deng)場景。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

二、支持一個世界切換天氣、引入新角色,演示具身Agent應用潛力

除了導航輸入之外,Genie 3還支持基于文本的交互形式,谷歌DeepMind的博客將其稱為可提示的世界事件。也就是說,其可以改(gai)變已經生(sheng)成的世(shi)界,如(ru)改(gai)變當前世(shi)界的天氣條件(jian)、引入新物(wu)體等

這種能(neng)力還擴展了模型對反(fan)事實(shi)或假設場景的學(xue)習,Agent可(ke)以從經(jing)驗中學(xue)習這些(xie)場景來處理(li)意(yi)外情況。

如(ru)下面的(de)演(yan)示(shi)中,在給定的(de)“草原”場景中,案例(li)演(yan)示(shi)可(ke)以看到(dao)棕熊、綠(lv)色拖(tuo)拉機、騎馬的(de)人分別進入畫面。

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

此外,為了測試Genie 3創建的世界與未來Agent訓練的兼(jian)容(rong)性,研(yan)究(jiu)人(ren)員(yuan)為用于3D虛擬場景的通用Agent SIMA生(sheng)成了世界。

在(zai)每個世界(jie)中,其都(dou)指示Agent完成(cheng)不(bu)同任務,并通(tong)過(guo)向Genie 3發(fa)送導(dao)航操作來(lai)實現這(zhe)些目(mu)標(biao)。與其他環境一樣,Genie 3并不(bu)知(zhi)道(dao)代理的(de)目(mu)標(biao),而(er)是根(gen)據代理的(de)操作來(lai)模擬未來(lai)。

下面(mian)的(de)(de)“面(mian)包店”場景中,演示出分別(bie)給(gei)出了走(zou)進攪拌機、前往冷(leng)卻(que)架(jia)、走(zou)到玻璃柜前的(de)(de)任務:

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

在給定的“市場”環境(jing)中,案例分別演示了走進花攤、去面包師那里等任(ren)務:

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

在(zai)具身Agent的(de)研究領域,研究人員就可以選擇(ze)一個(ge)世界設定,然后選擇(ze)希望Agent實(shi)現的(de)目標(biao)并(bing)觀察它如何實(shi)現目標(biao)。

基于(yu)Genie 3在保持一致性方面(mian)的(de)優勢,現在其可以執行更長(chang)的(de)操作序列,從而實現更復雜的(de)目標。

三、環境幾分鐘內可保持一致,Genie 3仍有五大局限性

Genie 3通過記憶已生成的(de)內容(rong)(rong)并進行長期推理,自學(xue)世界中的(de)物體(ti)如(ru)何移動、下落和(he)互動。該模型是自回歸(gui)的(de),這(zhe)意味著它一(yi)次只生成一(yi)幀(zhen),其必(bi)須(xu)回顧之前生成的(de)內容(rong)(rong),才(cai)能決定下一(yi)步(bu)要做什么(me)。這(zhe)是該架構(gou)的(de)關鍵(jian)部分(fen)。

為了實(shi)現Genie 3生(sheng)成內容高度可控且能實(shi)時交互(hu),在(zai)每一(yi)幀的(de)(de)自回歸生(sheng)成過程中,模(mo)型(xing)必須考(kao)慮先前(qian)生(sheng)成的(de)(de)軌跡。例如,如果用戶(hu)在(zai)一(yi)分(fen)鐘后再次訪問某個位(wei)置,模(mo)型(xing)必須參(can)考(kao)一(yi)分(fen)鐘前(qian)的(de)(de)相(xiang)關信息。

同時為了實(shi)現實(shi)時交互性,這種計(ji)算必須每(mei)秒(miao)進行多次(ci),以響應新(xin)的用戶(hu)輸入。

想要使(shi)AI生(sheng)成(cheng)的世界(jie)具有沉浸感,生(sheng)成(cheng)內容必須在很長一(yi)段時間內保持物(wu)理一(yi)致(zhi)性(xing)。然而,自回歸生(sheng)成(cheng)環境通常比生(sheng)成(cheng)完整視(shi)頻更難,因(yin)為誤(wu)差往往會(hui)隨(sui)著(zhu)時間的推移而累積。

Genie 3的環境在幾分(fen)鐘(zhong)內仍(reng)能保持基本一(yi)(yi)致,視覺記憶可以追溯到一(yi)(yi)分(fen)鐘(zhong)前。如下圖所示的“建筑物左側的樹木”,在互動(dong)過程中(zhong)始終保持(chi)一(yi)致:

1句話生成可玩的3D世界!谷歌Genie3震圈登場,世界模型終于迎來ChatGPT時刻

其博客提到,Genie 3的一致性是一項新興能力。NeRF和高斯分布等方法在實現一致的可導航3D環境同時,需要依賴于提供明確的3D表示,相比之下,Genie 3生(sheng)成的(de)世界是根(gen)據世界描(miao)述和用戶操作逐(zhu)幀(zhen)創建的(de),因此生(sheng)成內容更為豐(feng)富、真實(shi)

Genie 3通過記(ji)憶已生(sheng)成的(de)內容(rong)并進(jin)行長(chang)期推理,自學世界(jie)中的(de)物體如何移(yi)動、下(xia)落和互動。該模型是自回(hui)歸的(de),這意味著它一次(ci)只(zhi)生(sheng)成一幀,其必須回(hui)顧(gu)之前生(sheng)成的(de)內容(rong),才能決定(ding)下(xia)一步要做什么(me)。這是該架構(gou)的(de)關鍵(jian)部分(fen)。

谷歌DeepMind的博客中也提(ti)到了Genie 3目(mu)前的局限性:

行動空間有(you)限:盡管(guan)可(ke)觸發的世(shi)界事件允許進行廣泛(fan)的環(huan)境干預(yu),但它(ta)們(men)不一定由Agent本身執(zhi)行,Agent可(ke)直接執(zhi)行的操(cao)作(zuo)范圍目前受到(dao)限制;

與(yu)其他(ta)Agent的交互和(he)模擬:準確建模共享(xiang)環(huan)境中多個獨(du)立Agent之間的復雜交互(hu)仍然是一個持續的研(yan)究挑戰;

準確表(biao)示(shi)真實世(shi)界的位(wei)置:Genie 3目前無法以完美的地理精度模擬真實世界的位置;

文(wen)本渲染(ran):通常(chang)只(zhi)有在(zai)輸入世界描述中(zhong)提供時才會生成清晰(xi)易讀的文本;

交互(hu)時長有限:該模型目(mu)前(qian)支持(chi)幾分鐘的持(chi)續交互,無法支持(chi)長達數(shu)小時的交互。

在此(ci)基礎上,谷歌(ge)DeepMind宣(xuan)布Genie 3以有限研究預覽版的形(xing)式發布,使(shi)其(qi)能夠從(cong)其(qi)他(ta)學(xue)者處收集重要的反饋和提供跨學(xue)科視角。

結語:谷歌DeepMind深耕模擬環境研究,或加速AI Agent訓練

此前十多年來(lai),谷歌DeepMind一直致力于(yu)(yu)模擬(ni)環(huan)境領域的開(kai)創性研究(jiu),從訓練Agent掌握(wo)實時戰略游(you)戲,?到(dao)開(kai)發(fa)用于(yu)(yu)開(kai)放式學習和機器(qi)人技術的模擬(ni)環(huan)境,再到(dao)開(kai)發(fa)世界模型。

去年,其推(tui)出Genie 1和(he)Genie 2兩大(da)基礎(chu)世界模(mo)型,可以為Agent生(sheng)成新的環境,并(bing)發布視頻(pin)生(sheng)成模(mo)型Veo 2和(he)Veo 3。

可(ke)以看(kan)出,這些AI系統(tong)能(neng)夠利用自身(shen)對世(shi)界的理解來(lai)模擬(ni)世(shi)界的各個方面,使(shi)Agent能(neng)夠預測(ce)環境(jing)將如何演變(bian)以及其行為將如何影響(xiang)環境(jing)。谷歌(ge)DeepMind的博(bo)客提(ti)到(dao),世(shi)界模型是邁(mai)向通用人工智(zhi)能(neng)(AGI)的關鍵基石,因為它們使(shi)得在豐(feng)富多樣的模擬(ni)環境(jing)中(zhong)訓練AI Agent成為可(ke)能(neng)。

從目前的(de)應用場景來(lai)看,Genie 3或許可以為機器人和自主(zhu)系統等提(ti)供訓練空間并評估其表現。未來(lai),這項技術(shu)或許能在我們邁向AGI的(de)過(guo)程中發揮關鍵作用。