谷歌发布世界模型Genie 2！一键生成3D游戏，人和AI都能玩，时长多达1分钟

智東西（公眾號：zhidxcom）
作者 | ZeR0
編輯 | 漠影?

智東西12月5日報道，AGI競賽愈演愈烈！就在OpenAI宣布將于未來12天直播新發布和demo前，昨夜，Google DeepMind發布大型基礎世界模型Genie 2，能(neng)生成各種可控制動作、可玩的3D環境，還(huan)可以(yi)用于訓(xun)練和評估(gu)具身(shen)agent。

只要(yao)給一張(zhang)提示圖(tu)像，Genie 2就能按(an)照你(ni)輸入的(de)文本(ben)提示，生成(cheng)對應的(de)交互式虛(xu)擬世(shi)界。無論(lun)是(shi)人類還是(shi)AI agent，都可(ke)以使用鍵盤(pan)和(he)鼠(shu)標來在由AI生成(cheng)的(de)3D游戲世(shi)界里探索和(he)互動(dong)。

Genie 2是一(yi)個自回(hui)歸潛在擴散(san)模(mo)(mo)型(xing)，訓練于大(da)型(xing)視頻數據(ju)集。經(jing)過自動編碼器后(hou)，視頻中的潛在幀被傳遞到大(da)型(xing)Transformer動力學模(mo)(mo)型(xing)。該模(mo)(mo)型(xing)使用與(yu)大(da)語言模(mo)(mo)型(xing)類似(si)的因果(guo)掩碼進行訓練。

在(zai)推理時，Genie 2能以自回歸方式進(jin)行采樣，逐幀(zhen)獲(huo)取(qu)單個動作和過(guo)去的潛(qian)在(zai)幀(zhen)。Google DeepMind使用CFG（無分類器(qi)指(zhi)導(dao)，classifier-free guidance）來(lai)提高動作可(ke)控性。

博客文章放出大量由未蒸餾的基礎模型生成的視頻示例，來展示Genie 2在行動控制、生成反設事實、長視界記憶、長視頻生成、多樣環境、3D結構、物體交互、復雜角色動畫、NPC、物理、煙霧、光影、快速原型設計方面的(de)效果與優勢。蒸餾版(ban)本支(zhi)持實時交互，但運行時的(de)視(shi)覺(jue)質量會(hui)降低些。

輸入真實(shi)世界的照片后，它也(ye)能很好模擬(ni)一些物理規律，比如可模擬(ni)風中(zhong)搖曳的草(cao)或河中(zhong)流動的水(shui)。

一、超強空間記憶能力，模擬真實世界環境

此前世(shi)界模型(xing)在很大(da)程度上局限于建模狹窄的領域(yu)。Genie 1引入了(le)一種生成(cheng)各種2D世(shi)界的方法。Genie 2則進一步(bu)在通(tong)用性上取得進展，可以生成(cheng)種類繁多的豐富3D世(shi)界。

以下是與Genie 2互動的一些示例視頻。模型會使用文生圖模型Imagen 3生成的單個圖像，按照提示詞生成一個可交互的3D世界。人或agent進行鍵鼠操作，進入這個新創建的世界并與之互動。Genie 2可以生成長達1分鐘的一致世界，大多數示例持續10-20秒（本文將部分視頻示例轉成gif動圖(tu)并只截取片段，完(wan)整視頻請到原博客文章(zhang)查看(kan)）。

1、智能響應鍵盤按鍵操作

Genie 2可以智能地響應鍵盤上(shang)的按(an)鍵操作(zuo)，正確地識別并(bing)移動角(jiao)色。比如下圖中的幾(ji)個示例，模型(xing)必須能弄清(qing)楚方向按(an)鍵對應要移動的是機器人，而不是畫面中的樹、云等其他物體。

樹林(lin)里的一個可愛的人形機器人。

古埃(ai)及的人形機器人。

紫色(se)星球上(shang)的機器人的第一視角。

大城市(shi)閣樓公寓(yu)中的(de)機器人(ren)的(de)第一視角(jiao)。

2、生成反設事實

Genie 2可(ke)以從(cong)同一起始幀(zhen)生(sheng)成不(bu)同的(de)軌跡，為訓練agent模擬不(bu)同事實的(de)體(ti)驗。在每一行(xing)中(zhong)，每個(ge)視頻都(dou)從(cong)同一幀(zhen)開(kai)始，但人類玩家(jia)采取的(de)動(dong)作不(bu)同，生(sheng)成的(de)畫面內容(rong)也(ye)響應不(bu)同。

3、長視界記憶

Genie 2能夠記住視野中(zhong)不再(zai)存在的世界部分，并在它們(men)再(zai)次可見時(shi)準確呈(cheng)現。

4、使用新生成的內容生成長視頻

Genie 2可動態(tai)生(sheng)成新(xin)的(de)(de)合(he)理內容，并(bing)在長(chang)達1分鐘的(de)(de)時間內維持(chi)一致的(de)(de)世(shi)界。

5、多樣化環境

Genie 2可(ke)創建不同的視角，例(li)如第一(yi)視角、等距視圖或(huo)第三視角駕駛視頻。

6、3D結構

Genie 2會創(chuang)建復(fu)雜的(de)3D視覺場景。

7、模擬對象相互作用

Genie 2能(neng)模(mo)擬各種物體(ti)的相互作用，例如爆(bao)破氣球、打開門和射(she)擊炸藥(yao)桶。

8、角色動畫

Genie 2學習了(le)如何為不同(tong)類型(xing)的角色制作動畫(hua)來執(zhi)行不同(tong)的活動。

9、NPC

Genie 2能(neng)夠模(mo)擬(ni)其他agent，甚至與它(ta)們進行復(fu)雜的交互。

10、物理

Genie 2模(mo)擬水效果。

11、煙霧

Genie 2模擬煙霧效果。

12、重力

Genie 2模擬(ni)重(zhong)力。

13、燈光

Genie 2模擬光點和定向照(zhao)明。

14、反射

Genie 2模(mo)擬(ni)反射、噴霧減(jian)光和彩色燈光。

二、理解物理世界差異，可將概念圖轉化成交互式環境

Genie 2模型可快速(su)創建(jian)各種交互體驗的(de)(de)原型。例如用Imagen 3生成不同(tong)圖像，讓Genie 2生成模擬(ni)紙飛機(ji)、龍、鷹、降(jiang)落傘飛行(xing)的(de)(de)視(shi)頻。可以看(kan)到(dao)Genie 2生成的(de)(de)視(shi)頻能夠理(li)解并(bing)模擬(ni)出它們(men)飛行(xing)的(de)(de)差異。

概(gai)念藝術(shu)和繪圖也可以被Genie 2轉化成完全交(jiao)互式環(huan)境(jing)，以便藝術(shu)家、設計師(shi)能(neng)快速制作研究環(huan)境(jing)概(gai)念的原(yuan)型。

三、AI agent也能玩，為具身智能提供絕佳訓練場

Genie 2可快速(su)為(wei)AI agent創建(jian)豐富多樣的(de)環境(jing)，從而(er)生成agent在訓練期(qi)間(jian)未見過的(de)評估(gu)任務(wu)。

例如，Google DeepMind與游(you)戲(xi)開(kai)發(fa)商合作開(kai)發(fa)了(le)SIMA agent。SIMA agent被設計成通過遵循自然語(yu)言指令來完成一(yi)系列3D游(you)戲(xi)世界中的任務，因此可以在(zai)Genie 2合成的、未見過的環境執行指令。

輸入下面Imagen 3生(sheng)成(cheng)的第(di)三開放世界探索游戲(xi)圖，Genie 2可生(sheng)成(cheng)一個(ge)帶有(you)兩扇門（一扇是(shi)紅門，一扇是(shi)藍(lan)門）的3D環境(jing)。

然后向(xiang)SIMA agent提出打開某扇門的指令，Genie 2則能生成符合要求(qiu)的畫面。

在這個(ge)示例中，SIMA通(tong)過鍵盤和(he)鼠(shu)標輸入控制角色，而(er)Genie 2生成游(you)戲幀(zhen)。

也可(ke)以使(shi)用SIMA來(lai)幫(bang)助(zhu)評估Genie 2的(de)功能。通過指示SIMA環顧四周、探索房(fang)屋后面等，測(ce)試Genie 2生成一致環境的(de)能力。

再(zai)比(bi)如根據下面這張圖來生(sheng)成視頻。

輸(shu)入(ru)不(bu)同(tong)提示(shi)詞“上樓”、“去有植物的(de)地方”、“走(zou)中間門(men)”，Genie 2會生成(cheng)對應(ying)的(de)不(bu)同(tong)視頻畫面。

雖然這(zhe)項研究仍處于(yu)早期階段，agent和環(huan)境生成能力都(dou)還有很(hen)大的(de)(de)(de)改進空間(jian)，但Google DeepMind相(xiang)信Genie 2是解(jie)決安全訓練具體(ti)agent的(de)(de)(de)結構(gou)性問題的(de)(de)(de)途徑，同時實現邁向AGI所需的(de)(de)(de)廣度和通用(yong)性。

結語：世界模型，AI領域的下一件大事

游(you)戲(xi)是(shi)安全(quan)測試和推進AI能力(li)的(de)理想環(huan)境。訓練更通用具身agent的(de)傳(chuan)統瓶頸在于缺乏足夠(gou)豐富和多樣化的(de)訓練環(huan)境。

Google DeepMind正將越來(lai)越多資源投入于世界模型研(yan)究。Genie 2展(zhan)示了基礎(chu)世界模型在創(chuang)建(jian)多樣化3D環境(jing)、定(ding)制交互式游(you)戲(xi)場景、加速agent研(yan)究等方面的(de)(de)潛力(li)，可讓未(wei)來(lai)的(de)(de)Agent在無限的(de)(de)新世界中接受訓練(lian)和評估。

該研究方(fang)向(xiang)尚處于早期(qi)階段(duan)，Google DeepMind計劃在通(tong)用性和一致(zhi)性方(fang)面繼(ji)續(xu)改進Genie的世界生成(cheng)能力。

與SIMA一樣，其(qi)(qi)研(yan)究致力于(yu)構建更通用的(de)AI系(xi)統和agent，使其(qi)(qi)能(neng)夠(gou)理解和安全地執行各種任務，從而幫(bang)助在線和現實世界中(zhong)的(de)人們。

Google DeepMind還放了(le)一(yi)些(xie)有趣的(de)“彩蛋”：Genie 2生(sheng)成(cheng)出一(yi)些(xie)奇怪(guai)視(shi)頻，比如沒有采取行動的(de)情況下(xia)一(yi)個鬼(gui)魂出現在花園，在雪(xue)場的(de)人物角色相比滑(hua)雪(xue)更愛(ai)跑酷(ku)、一(yi)個魔法(fa)球把周(zhou)遭(zao)炸(zha)成(cheng)灰。

來源：Google DeepMind

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、超強空間記憶能力，模擬真實世界環境

二、理解物理世界差異，可將概念圖轉化成交互式環境

三、AI agent也能玩，為具身智能提供絕佳訓練場

結語：世界模型，AI領域的下一件大事

相關推薦