智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影?

智東西12月5日報道,AGI競賽愈演愈烈!就在OpenAI宣布將于未來12天直播新發布和demo前,昨夜,Google DeepMind發布大型基礎世界模型Genie 2,能(neng)生成各種可控制動作、可玩的3D環境,還(huan)可以(yi)用于訓(xun)練和評估(gu)具身(shen)agent。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

只要(yao)給一張(zhang)提示圖(tu)像,Genie 2就能按(an)照你(ni)輸入的(de)文本(ben)提示,生成(cheng)對應的(de)交互式虛(xu)擬世(shi)界。無論(lun)是(shi)人類還是(shi)AI agent,都可(ke)以使用鍵盤(pan)和(he)鼠(shu)標來在由AI生成(cheng)的(de)3D游戲世(shi)界里探索和(he)互動(dong)。

Genie 2是一(yi)個自回(hui)歸潛在擴散(san)模(mo)(mo)型(xing),訓練于大(da)型(xing)視頻數據(ju)集。經(jing)過自動編碼器后(hou),視頻中的潛在幀被傳遞到大(da)型(xing)Transformer動力學模(mo)(mo)型(xing)。該模(mo)(mo)型(xing)使用與(yu)大(da)語言模(mo)(mo)型(xing)類似(si)的因果(guo)掩碼進行訓練。

在(zai)推理時,Genie 2能以自回歸方式進(jin)行采樣,逐幀(zhen)獲(huo)取(qu)單個動作和過(guo)去的潛(qian)在(zai)幀(zhen)。Google DeepMind使用CFG(無分類器(qi)指(zhi)導(dao),classifier-free guidance)來(lai)提高動作可(ke)控性。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

博客文章放出大量由未蒸餾的基礎模型生成的視頻示例,來展示Genie 2在行動控制生成反設事實長視界記憶長視頻生成多樣環境3D結構物體交互復雜角色動畫NPC物理煙霧光影快速原型設計方面的(de)效果與優勢。蒸餾版(ban)本支(zhi)持實時交互,但運行時的(de)視(shi)覺(jue)質量會(hui)降低些。

輸入真實(shi)世界的照片后,它也(ye)能很好模擬(ni)一些物理規律,比如可模擬(ni)風中(zhong)搖曳的草(cao)或河中(zhong)流動的水(shui)。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

一、超強空間記憶能力,模擬真實世界環境

此前世(shi)界模型(xing)在很大(da)程度上局限于建模狹窄的領域(yu)。Genie 1引入了(le)一種生成(cheng)各種2D世(shi)界的方法。Genie 2則進一步(bu)在通(tong)用性上取得進展,可以生成(cheng)種類繁多的豐富3D世(shi)界。

以下是與Genie 2互動的一些示例視頻。模型會使用文生圖模型Imagen 3生成的單個圖像,按照提示詞生成一個可交互的3D世界。人或agent進行鍵鼠操作,進入這個新創建的世界并與之互動。Genie 2可以生成長達1分鐘的一致世界,大多數示例持續10-20秒(本文將部分視頻示例轉成gif動圖(tu)并只截取片段,完(wan)整視頻請到原博客文章(zhang)查看(kan))

1、智能響應鍵盤按鍵操作

Genie 2可以智能地響應鍵盤上(shang)的按(an)鍵操作(zuo),正確地識別并(bing)移動角(jiao)色。比如下圖中的幾(ji)個示例,模型(xing)必須能弄清(qing)楚方向按(an)鍵對應要移動的是機器人,而不是畫面中的樹、云等其他物體。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘
樹林(lin)里的一個可愛的人形機器人。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘
古埃(ai)及的人形機器人。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘
紫色(se)星球上(shang)的機器人的第一視角。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘
大城市(shi)閣樓公寓(yu)中的(de)機器人(ren)的(de)第一視角(jiao)。

2、生成反設事實

Genie 2可(ke)以從(cong)同一起始幀(zhen)生(sheng)成不(bu)同的(de)軌跡,為訓練agent模擬不(bu)同事實的(de)體(ti)驗。在每一行(xing)中(zhong),每個(ge)視頻都(dou)從(cong)同一幀(zhen)開(kai)始,但人類玩家(jia)采取的(de)動(dong)作不(bu)同,生(sheng)成的(de)畫面內容(rong)也(ye)響應不(bu)同。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘 谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

3、長視界記憶

Genie 2能夠記住視野中(zhong)不再(zai)存在的世界部分,并在它們(men)再(zai)次可見時(shi)準確呈(cheng)現。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

4、使用新生成的內容生成長視頻

Genie 2可動態(tai)生(sheng)成新(xin)的(de)(de)合(he)理內容,并(bing)在長(chang)達1分鐘的(de)(de)時間內維持(chi)一致的(de)(de)世(shi)界。

5、多樣化環境

Genie 2可(ke)創建不同的視角,例(li)如第一(yi)視角、等距視圖或(huo)第三視角駕駛視頻。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

6、3D結構

Genie 2會創(chuang)建復(fu)雜的(de)3D視覺場景。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

7、模擬對象相互作用

Genie 2能(neng)模(mo)擬各種物體(ti)的相互作用,例如爆(bao)破氣球、打開門和射(she)擊炸藥(yao)桶。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

8、角色動畫

Genie 2學習了(le)如何為不同(tong)類型(xing)的角色制作動畫(hua)來執(zhi)行不同(tong)的活動。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

9、NPC

Genie 2能(neng)夠模(mo)擬(ni)其他agent,甚至與它(ta)們進行復(fu)雜的交互。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

10、物理

Genie 2模(mo)擬水效果。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

11、煙霧

Genie 2模擬煙霧效果。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

12、重力

Genie 2模擬(ni)重(zhong)力。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

13、燈光

Genie 2模擬光點和定向照(zhao)明。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

14、反射

Genie 2模(mo)擬(ni)反射、噴霧減(jian)光和彩色燈光。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

二、理解物理世界差異,可將概念圖轉化成交互式環境

Genie 2模型可快速(su)創建(jian)各種交互體驗的(de)(de)原型。例如用Imagen 3生成不同(tong)圖像,讓Genie 2生成模擬(ni)紙飛機(ji)、龍、鷹、降(jiang)落傘飛行(xing)的(de)(de)視(shi)頻。可以看(kan)到(dao)Genie 2生成的(de)(de)視(shi)頻能夠理(li)解并(bing)模擬(ni)出它們(men)飛行(xing)的(de)(de)差異。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

概(gai)念藝術(shu)和繪圖也可以被Genie 2轉化成完全交(jiao)互式環(huan)境(jing),以便藝術(shu)家、設計師(shi)能(neng)快速制作研究環(huan)境(jing)概(gai)念的原(yuan)型。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

三、AI agent也能玩,為具身智能提供絕佳訓練場

Genie 2可快速(su)為(wei)AI agent創建(jian)豐富多樣的(de)環境(jing),從而(er)生成agent在訓練期(qi)間(jian)未見過的(de)評估(gu)任務(wu)。

例如,Google DeepMind與游(you)戲(xi)開(kai)發(fa)商合作開(kai)發(fa)了(le)SIMA agent。SIMA agent被設計成通過遵循自然語(yu)言指令來完成一(yi)系列3D游(you)戲(xi)世界中的任務,因此可以在(zai)Genie 2合成的、未見過的環境執行指令。

輸入下面Imagen 3生(sheng)成(cheng)的第(di)三開放世界探索游戲(xi)圖,Genie 2可生(sheng)成(cheng)一個(ge)帶有(you)兩扇門(一扇是(shi)紅門,一扇是(shi)藍(lan)門)的3D環境(jing)。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

然后向(xiang)SIMA agent提出打開某扇門的指令,Genie 2則能生成符合要求(qiu)的畫面。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

在這個(ge)示例中,SIMA通(tong)過鍵盤和(he)鼠(shu)標輸入控制角色,而(er)Genie 2生成游(you)戲幀(zhen)。

也可(ke)以使(shi)用SIMA來(lai)幫(bang)助(zhu)評估Genie 2的(de)功能。通過指示SIMA環顧四周、探索房(fang)屋后面等,測(ce)試Genie 2生成一致環境的(de)能力。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

再(zai)比(bi)如根據下面這張圖來生(sheng)成視頻。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

輸(shu)入(ru)不(bu)同(tong)提示(shi)詞“上樓”、“去有植物的(de)地方”、“走(zou)中間門(men)”,Genie 2會生成(cheng)對應(ying)的(de)不(bu)同(tong)視頻畫面。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

雖然這(zhe)項研究仍處于(yu)早期階段,agent和環(huan)境生成能力都(dou)還有很(hen)大的(de)(de)(de)改進空間(jian),但Google DeepMind相(xiang)信Genie 2是解(jie)決安全訓練具體(ti)agent的(de)(de)(de)結構(gou)性問題的(de)(de)(de)途徑,同時實現邁向AGI所需的(de)(de)(de)廣度和通用(yong)性。

結語:世界模型,AI領域的下一件大事

游(you)戲(xi)是(shi)安全(quan)測試和推進AI能力(li)的(de)理想環(huan)境。訓練更通用具身agent的(de)傳(chuan)統瓶頸在于缺乏足夠(gou)豐富和多樣化的(de)訓練環(huan)境。

Google DeepMind正將越來(lai)越多資源投入于世界模型研(yan)究。Genie 2展(zhan)示了基礎(chu)世界模型在創(chuang)建(jian)多樣化3D環境(jing)、定(ding)制交互式游(you)戲(xi)場景、加速agent研(yan)究等方面的(de)(de)潛力(li),可讓未(wei)來(lai)的(de)(de)Agent在無限的(de)(de)新世界中接受訓練(lian)和評估。

該研究方(fang)向(xiang)尚處于早期(qi)階段(duan),Google DeepMind計劃在通(tong)用性和一致(zhi)性方(fang)面繼(ji)續(xu)改進Genie的世界生成(cheng)能力。

與SIMA一樣,其(qi)(qi)研(yan)究致力于(yu)構建更通用的(de)AI系(xi)統和agent,使其(qi)(qi)能(neng)夠(gou)理解和安全地執行各種任務,從而幫(bang)助在線和現實世界中(zhong)的(de)人們。

Google DeepMind還放了(le)一(yi)些(xie)有趣的(de)“彩蛋”:Genie 2生(sheng)成(cheng)出一(yi)些(xie)奇怪(guai)視(shi)頻,比如沒有采取行動的(de)情況下(xia)一(yi)個鬼(gui)魂出現在花園,在雪(xue)場的(de)人物角色相比滑(hua)雪(xue)更愛(ai)跑酷(ku)、一(yi)個魔法(fa)球把周(zhou)遭(zao)炸(zha)成(cheng)灰。

谷歌發布世界模型Genie 2!一鍵生成3D游戲,人和AI都能玩,時長多達1分鐘

來源:Google DeepMind