1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

智東西（公眾號：zhidxcom）
編譯 | 程茜
編輯 | 李水青

智東西8月6日消息，昨夜，谷歌DeepMind宣布推出通用世界模型Genie 3，首個可實(shi)時交互世(shi)界模型來了。

基于文本提示，Genie 3可以(yi)允許用戶以(yi)每秒24幀的(de)速度，以(yi)720p的(de)分辨率生(sheng)成(cheng)長達(da)數分鐘的(de)交互式3D環境，Genie 2僅能(neng)生(sheng)成(cheng)10到20秒。

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

去年年底，谷歌DeepMind發布能生成各種可控制動作、可玩3D環境的大型基礎世界模型Genie 2，此次發布的Genie 3，是其第一個允許實時交互的世界模型，在一(yi)致(zhi)性和真實感方面(mian)相(xiang)較前代有(you)提升。如下面(mian)的示例中(zhong)，Genie 3生(sheng)成內(nei)容的機器人(ren)本體(ti)、周圍環境質感更佳：

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

博客文章中，谷歌DeepMind放出了數十個Genie 3的生成案例，展示其在模(mo)擬世(shi)界物理(li)特性、模(mo)擬自然世(shi)界、生(sheng)成(cheng)動畫和小說建(jian)模(mo)、超越地理(li)時(shi)間限制生(sheng)成(cheng)內容的能力。此外，研究人員還將其應用到具(ju)身Agent研究，如指示Agent向Genie 3發送導航(hang)操(cao)作，實現在(zai)花園里靠近軟(ruan)管的(de)任務：

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

谷歌(ge)DeepMind?Genie 3與Genie 2、由神經模型驅動(dong)的游戲(xi)引擎(qing)GameNGen、視頻生成模型Veo對比，最突(tu)出的特(te)點是其生成時長(chang)翻倍增長(chang)：

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

此次，谷歌DeepMind宣布以有限研究預覽版的形式發布Genie 3，為(wei)一小部分學者(zhe)和(he)創作者(zhe)提供早期使用機(ji)會。在(zai)博客的致謝部分，還出(chu)現了被谷(gu)歌(ge)挖(wa)來(lai)的OpenAI視頻生成工具(ju)Sora的聯合負責人之一蒂姆(mu)·布(bu)魯(lu)克(ke)斯（Tim Brooks）。

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

網友(you)(you)在谷歌(ge)DeepMind的X評論區瘋狂開啟(qi)夸夸夸模式，有網友(you)(you)將其的重要性與(yu)ChatGPT、Sora發布對標：

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

還(huan)有網友認(ren)為這是3A游戲大作的未來(lai)，還(huan)能在VR、電視(shi)互動節目(mu)中有很大應(ying)用場(chang)景：

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

一位Reddit上(shang)的(de)開(kai)發(fa)者(zhe)認為Genie 3的(de)發(fa)布(bu)，意味著理論上(shang)而言“只要有(you)足夠的(de)計(ji)算能力和(he)實時(shi)數據……就可以讓(rang)整個(ge)世界變得可玩”。

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

本文動圖均(jun)只截取了Genie 3生成內容(rong)的部分片段，完整案例演示(shi)請查看原博客：

博客鏈接：//deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/?utm_source=x&utm_medium=social&utm_campaign=genie3

一、模擬真實世界物理特性、動植物逼真，動畫小說建模畫面自然

此前世界模型在很大程度上局限于建模狹窄的領域。Genie 1引入了一種生成各種2D世界的方法，Genie 2進一步在通用性上取得進展，可以生成種類繁多的豐富3D世界，現在Genie 3不僅在(zai)生成3D世(shi)界的真實(shi)性、一致(zhi)性上取得進(jin)展，還(huan)引(yin)入了實(shi)時互動(dong)能力。

以下是Genie 3生成的實時(shi)互動(dong)內(nei)容：

1、模擬世界的物理特性：復雜環境沒有失真

下面的(de)案例中，3D世界在表現(xian)水蔓延到馬路上、海(hai)平面、燈光映照(zhao)在水面的(de)光影變化(hua)等都(dou)沒有失真。

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

2、模擬自然世界：動植物表現逼真

Genie 3可以創建從動(dong)物(wu)到(dao)植物(wu)等(deng)各種(zhong)復(fu)雜(za)且(qie)充滿活力的(de)生態系統(tong)，如下面演示的(de)庭(ting)院、湖泊、海(hai)底(di)世(shi)界等(deng)。

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

3、動畫和小說建模：動畫人物活靈活現

Genie 3還能創建(jian)動(dong)畫(hua)場(chang)景以及動(dong)畫(hua)人(ren)物(wu)，動(dong)畫(hua)人(ren)物(wu)的(de)色彩、形象都符(fu)合整體環境。

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

4、突破時空界限：探索未知地點和過去時刻

Genie 3創建的(de)內容可以超越(yue)地(di)(di)理和時(shi)間界限(xian)，探索(suo)未知的(de)地(di)(di)方或者過去(qu)的(de)時(shi)代，如下面(mian)的(de)翼裝(zhuang)飛(fei)行、山地(di)(di)騎車(che)等(deng)場景。

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

二、支持一個世界切換天氣、引入新角色，演示具身Agent應用潛力

除了導航輸入之外，Genie 3還支持基于文本的交互形式，谷歌DeepMind的博客將其稱為可提示的世界事件。也就是說，其可以改(gai)變已經生(sheng)成的世(shi)界，如(ru)改(gai)變當前世(shi)界的天氣條件(jian)、引入新物(wu)體等。

這種能(neng)力還擴展了模型對反(fan)事實(shi)或假設場景的學(xue)習，Agent可(ke)以從經(jing)驗中學(xue)習這些(xie)場景來處理(li)意(yi)外情況。

如(ru)下面的(de)演(yan)示(shi)中，在給定的(de)“草原”場景中，案例(li)演(yan)示(shi)可(ke)以看到(dao)棕熊、綠(lv)色拖(tuo)拉機、騎馬的(de)人分別進入畫面。

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

此外，為了測試Genie 3創建的世界與未來Agent訓練的兼(jian)容(rong)性，研(yan)究(jiu)人(ren)員(yuan)為用于3D虛擬場景的通用Agent SIMA生(sheng)成了世界。

在(zai)每個世界(jie)中，其都(dou)指示Agent完成(cheng)不(bu)同任務，并通(tong)過(guo)向Genie 3發(fa)送導(dao)航操作來(lai)實現這(zhe)些目(mu)標(biao)。與其他環境一樣，Genie 3并不(bu)知(zhi)道(dao)代理的(de)目(mu)標(biao)，而(er)是根(gen)據代理的(de)操作來(lai)模擬未來(lai)。

下面(mian)的(de)(de)“面(mian)包店”場景中，演示出分別(bie)給(gei)出了走(zou)進攪拌機、前往冷(leng)卻(que)架(jia)、走(zou)到玻璃柜前的(de)(de)任務：

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

在給定的“市場”環境(jing)中，案例分別演示了走進花攤、去面包師那里等任(ren)務：

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

在(zai)具身Agent的(de)研究領域，研究人員就可以選擇(ze)一個(ge)世界設定，然后選擇(ze)希望Agent實(shi)現的(de)目標(biao)并(bing)觀察它如何實(shi)現目標(biao)。

基于(yu)Genie 3在保持一致性方面(mian)的(de)優勢，現在其可以執行更長(chang)的(de)操作序列，從而實現更復雜的(de)目標。

三、環境幾分鐘內可保持一致，Genie 3仍有五大局限性

Genie 3通過記憶已生成的(de)內容(rong)(rong)并進行長期推理，自學(xue)世界中的(de)物體(ti)如(ru)何移動、下落和(he)互動。該模型是自回歸(gui)的(de)，這(zhe)意味著它一(yi)次只生成一(yi)幀(zhen)，其必(bi)須(xu)回顧之前生成的(de)內容(rong)(rong)，才(cai)能決定下一(yi)步(bu)要做什么(me)。這(zhe)是該架構(gou)的(de)關鍵(jian)部分(fen)。

為了實(shi)現Genie 3生(sheng)成內容高度可控且能實(shi)時交互(hu)，在(zai)每一(yi)幀的(de)(de)自回歸生(sheng)成過程中，模(mo)型(xing)必須考(kao)慮先前(qian)生(sheng)成的(de)(de)軌跡。例如，如果用戶(hu)在(zai)一(yi)分(fen)鐘后再次訪問某個位(wei)置，模(mo)型(xing)必須參(can)考(kao)一(yi)分(fen)鐘前(qian)的(de)(de)相(xiang)關信息。

同時為了實(shi)現實(shi)時交互性，這種計(ji)算必須每(mei)秒(miao)進行多次(ci)，以響應新(xin)的用戶(hu)輸入。

想要使(shi)AI生(sheng)成(cheng)的世界(jie)具有沉浸感，生(sheng)成(cheng)內容必須在很長一(yi)段時間內保持物(wu)理一(yi)致(zhi)性(xing)。然而，自回歸生(sheng)成(cheng)環境通常比生(sheng)成(cheng)完整視(shi)頻更難，因(yin)為誤(wu)差往往會(hui)隨(sui)著(zhu)時間的推移而累積。

Genie 3的環境在幾分(fen)鐘(zhong)內仍(reng)能保持基本一(yi)(yi)致，視覺記憶可以追溯到一(yi)(yi)分(fen)鐘(zhong)前。如下圖所示的“建筑物左側的樹木”，在互動(dong)過程中(zhong)始終保持(chi)一(yi)致：

1句話生成可玩的3D世界！谷歌Genie3震圈登場，世界模型終于迎來ChatGPT時刻

其博客提到，Genie 3的一致性是一項新興能力。NeRF和高斯分布等方法在實現一致的可導航3D環境同時，需要依賴于提供明確的3D表示，相比之下，Genie 3生(sheng)成的(de)世界是根(gen)據世界描(miao)述和用戶操作逐(zhu)幀(zhen)創建的(de)，因此生(sheng)成內容更為豐(feng)富、真實(shi)。

Genie 3通過記(ji)憶已生(sheng)成的(de)內容(rong)并進(jin)行長(chang)期推理，自學世界(jie)中的(de)物體如何移(yi)動、下(xia)落和互動。該模型是自回(hui)歸的(de)，這意味著它一次(ci)只(zhi)生(sheng)成一幀，其必須回(hui)顧(gu)之前生(sheng)成的(de)內容(rong)，才能決定(ding)下(xia)一步要做什么(me)。這是該架構(gou)的(de)關鍵(jian)部分(fen)。

谷歌DeepMind的博客中也提(ti)到了Genie 3目(mu)前的局限性：

行動空間有(you)限：盡管(guan)可(ke)觸發的世(shi)界事件允許進行廣泛(fan)的環(huan)境干預(yu)，但它(ta)們(men)不一定由Agent本身執(zhi)行，Agent可(ke)直接執(zhi)行的操(cao)作(zuo)范圍目前受到(dao)限制；

與(yu)其他(ta)Agent的交互和(he)模擬：準確建模共享(xiang)環(huan)境中多個獨(du)立Agent之間的復雜交互(hu)仍然是一個持續的研(yan)究挑戰；

準確表(biao)示(shi)真實世(shi)界的位(wei)置：Genie 3目前無法以完美的地理精度模擬真實世界的位置；

文(wen)本渲染(ran)：通常(chang)只(zhi)有在(zai)輸入世界描述中(zhong)提供時才會生成清晰(xi)易讀的文本；

交互(hu)時長有限：該模型目(mu)前(qian)支持(chi)幾分鐘的持(chi)續交互，無法支持(chi)長達數(shu)小時的交互。

在此(ci)基礎上，谷歌(ge)DeepMind宣(xuan)布Genie 3以有限研究預覽版的形(xing)式發布，使(shi)其(qi)能夠從(cong)其(qi)他(ta)學(xue)者處收集重要的反饋和提供跨學(xue)科視角。

結語：谷歌DeepMind深耕模擬環境研究，或加速AI Agent訓練

此前十多年來(lai)，谷歌DeepMind一直致力于(yu)(yu)模擬(ni)環(huan)境領域的開(kai)創性研究(jiu)，從訓練Agent掌握(wo)實時戰略游(you)戲，?到(dao)開(kai)發(fa)用于(yu)(yu)開(kai)放式學習和機器(qi)人技術的模擬(ni)環(huan)境，再到(dao)開(kai)發(fa)世界模型。

去年，其推(tui)出Genie 1和(he)Genie 2兩大(da)基礎(chu)世界模(mo)型，可以為Agent生(sheng)成新的環境，并(bing)發布視頻(pin)生(sheng)成模(mo)型Veo 2和(he)Veo 3。

可(ke)以看(kan)出，這些AI系統(tong)能(neng)夠利用自身(shen)對世(shi)界的理解來(lai)模擬(ni)世(shi)界的各個方面，使(shi)Agent能(neng)夠預測(ce)環境(jing)將如何演變(bian)以及其行為將如何影響(xiang)環境(jing)。谷歌(ge)DeepMind的博(bo)客提(ti)到(dao)，世(shi)界模型是邁(mai)向通用人工智(zhi)能(neng)（AGI）的關鍵基石，因為它們使(shi)得在豐(feng)富多樣的模擬(ni)環境(jing)中(zhong)訓練AI Agent成為可(ke)能(neng)。

從目前的(de)應用場景來(lai)看，Genie 3或許可以為機器人和自主(zhu)系統等提(ti)供訓練空間并評估其表現。未來(lai)，這項技術(shu)或許能在我們邁向AGI的(de)過(guo)程中發揮關鍵作用。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、模擬真實世界物理特性、動植物逼真，動畫小說建模畫面自然

二、支持一個世界切換天氣、引入新角色，演示具身Agent應用潛力

三、環境幾分鐘內可保持一致，Genie 3仍有五大局限性

結語：谷歌DeepMind深耕模擬環境研究，或加速AI Agent訓練

相關推薦