
智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影?
智東西12月5日報道,AGI競賽愈演愈烈!就在OpenAI宣布將于未來12天直播新發布和demo前,昨夜,Google DeepMind發布大型基礎世界模型Genie 2,能(neng)生成各種可控制動作、可玩的3D環境,還(huan)可以(yi)用于訓(xun)練和評估(gu)具身(shen)agent。
只要(yao)給一張(zhang)提示圖(tu)像,Genie 2就能按(an)照你(ni)輸入的(de)文本(ben)提示,生成(cheng)對應的(de)交互式虛(xu)擬世(shi)界。無論(lun)是(shi)人類還是(shi)AI agent,都可(ke)以使用鍵盤(pan)和(he)鼠(shu)標來在由AI生成(cheng)的(de)3D游戲世(shi)界里探索和(he)互動(dong)。
Genie 2是一(yi)個自回(hui)歸潛在擴散(san)模(mo)(mo)型(xing),訓練于大(da)型(xing)視頻數據(ju)集。經(jing)過自動編碼器后(hou),視頻中的潛在幀被傳遞到大(da)型(xing)Transformer動力學模(mo)(mo)型(xing)。該模(mo)(mo)型(xing)使用與(yu)大(da)語言模(mo)(mo)型(xing)類似(si)的因果(guo)掩碼進行訓練。
在(zai)推理時,Genie 2能以自回歸方式進(jin)行采樣,逐幀(zhen)獲(huo)取(qu)單個動作和過(guo)去的潛(qian)在(zai)幀(zhen)。Google DeepMind使用CFG(無分類器(qi)指(zhi)導(dao),classifier-free guidance)來(lai)提高動作可(ke)控性。
博客文章放出大量由未蒸餾的基礎模型生成的視頻示例,來展示Genie 2在行動控制、生成反設事實、長視界記憶、長視頻生成、多樣環境、3D結構、物體交互、復雜角色動畫、NPC、物理、煙霧、光影、快速原型設計方面的(de)效果與優勢。蒸餾版(ban)本支(zhi)持實時交互,但運行時的(de)視(shi)覺(jue)質量會(hui)降低些。
輸入真實(shi)世界的照片后,它也(ye)能很好模擬(ni)一些物理規律,比如可模擬(ni)風中(zhong)搖曳的草(cao)或河中(zhong)流動的水(shui)。
一、超強空間記憶能力,模擬真實世界環境
此前世(shi)界模型(xing)在很大(da)程度上局限于建模狹窄的領域(yu)。Genie 1引入了(le)一種生成(cheng)各種2D世(shi)界的方法。Genie 2則進一步(bu)在通(tong)用性上取得進展,可以生成(cheng)種類繁多的豐富3D世(shi)界。
以下是與Genie 2互動的一些示例視頻。模型會使用文生圖模型Imagen 3生成的單個圖像,按照提示詞生成一個可交互的3D世界。人或agent進行鍵鼠操作,進入這個新創建的世界并與之互動。Genie 2可以生成長達1分鐘的一致世界,大多數示例持續10-20秒(本文將部分視頻示例轉成gif動圖(tu)并只截取片段,完(wan)整視頻請到原博客文章(zhang)查看(kan))。
1、智能響應鍵盤按鍵操作
Genie 2可以智能地響應鍵盤上(shang)的按(an)鍵操作(zuo),正確地識別并(bing)移動角(jiao)色。比如下圖中的幾(ji)個示例,模型(xing)必須能弄清(qing)楚方向按(an)鍵對應要移動的是機器人,而不是畫面中的樹、云等其他物體。
大城市(shi)閣樓公寓(yu)中的(de)機器人(ren)的(de)第一視角(jiao)。
2、生成反設事實
Genie 2可(ke)以從(cong)同一起始幀(zhen)生(sheng)成不(bu)同的(de)軌跡,為訓練agent模擬不(bu)同事實的(de)體(ti)驗。在每一行(xing)中(zhong),每個(ge)視頻都(dou)從(cong)同一幀(zhen)開(kai)始,但人類玩家(jia)采取的(de)動(dong)作不(bu)同,生(sheng)成的(de)畫面內容(rong)也(ye)響應不(bu)同。
3、長視界記憶
Genie 2能夠記住視野中(zhong)不再(zai)存在的世界部分,并在它們(men)再(zai)次可見時(shi)準確呈(cheng)現。
4、使用新生成的內容生成長視頻
Genie 2可動態(tai)生(sheng)成新(xin)的(de)(de)合(he)理內容,并(bing)在長(chang)達1分鐘的(de)(de)時間內維持(chi)一致的(de)(de)世(shi)界。
5、多樣化環境
Genie 2可(ke)創建不同的視角,例(li)如第一(yi)視角、等距視圖或(huo)第三視角駕駛視頻。
6、3D結構
Genie 2會創(chuang)建復(fu)雜的(de)3D視覺場景。
7、模擬對象相互作用
Genie 2能(neng)模(mo)擬各種物體(ti)的相互作用,例如爆(bao)破氣球、打開門和射(she)擊炸藥(yao)桶。
8、角色動畫
Genie 2學習了(le)如何為不同(tong)類型(xing)的角色制作動畫(hua)來執(zhi)行不同(tong)的活動。
9、NPC
Genie 2能(neng)夠模(mo)擬(ni)其他agent,甚至與它(ta)們進行復(fu)雜的交互。
10、物理
Genie 2模(mo)擬水效果。
11、煙霧
Genie 2模擬煙霧效果。
12、重力
Genie 2模擬(ni)重(zhong)力。
13、燈光
Genie 2模擬光點和定向照(zhao)明。
14、反射
Genie 2模(mo)擬(ni)反射、噴霧減(jian)光和彩色燈光。
二、理解物理世界差異,可將概念圖轉化成交互式環境
Genie 2模型可快速(su)創建(jian)各種交互體驗的(de)(de)原型。例如用Imagen 3生成不同(tong)圖像,讓Genie 2生成模擬(ni)紙飛機(ji)、龍、鷹、降(jiang)落傘飛行(xing)的(de)(de)視(shi)頻。可以看(kan)到(dao)Genie 2生成的(de)(de)視(shi)頻能夠理(li)解并(bing)模擬(ni)出它們(men)飛行(xing)的(de)(de)差異。
概(gai)念藝術(shu)和繪圖也可以被Genie 2轉化成完全交(jiao)互式環(huan)境(jing),以便藝術(shu)家、設計師(shi)能(neng)快速制作研究環(huan)境(jing)概(gai)念的原(yuan)型。
三、AI agent也能玩,為具身智能提供絕佳訓練場
Genie 2可快速(su)為(wei)AI agent創建(jian)豐富多樣的(de)環境(jing),從而(er)生成agent在訓練期(qi)間(jian)未見過的(de)評估(gu)任務(wu)。
例如,Google DeepMind與游(you)戲(xi)開(kai)發(fa)商合作開(kai)發(fa)了(le)SIMA agent。SIMA agent被設計成通過遵循自然語(yu)言指令來完成一(yi)系列3D游(you)戲(xi)世界中的任務,因此可以在(zai)Genie 2合成的、未見過的環境執行指令。
輸入下面Imagen 3生(sheng)成(cheng)的第(di)三開放世界探索游戲(xi)圖,Genie 2可生(sheng)成(cheng)一個(ge)帶有(you)兩扇門(一扇是(shi)紅門,一扇是(shi)藍(lan)門)的3D環境(jing)。
然后向(xiang)SIMA agent提出打開某扇門的指令,Genie 2則能生成符合要求(qiu)的畫面。
在這個(ge)示例中,SIMA通(tong)過鍵盤和(he)鼠(shu)標輸入控制角色,而(er)Genie 2生成游(you)戲幀(zhen)。
也可(ke)以使(shi)用SIMA來(lai)幫(bang)助(zhu)評估Genie 2的(de)功能。通過指示SIMA環顧四周、探索房(fang)屋后面等,測(ce)試Genie 2生成一致環境的(de)能力。
再(zai)比(bi)如根據下面這張圖來生(sheng)成視頻。
輸(shu)入(ru)不(bu)同(tong)提示(shi)詞“上樓”、“去有植物的(de)地方”、“走(zou)中間門(men)”,Genie 2會生成(cheng)對應(ying)的(de)不(bu)同(tong)視頻畫面。
雖然這(zhe)項研究仍處于(yu)早期階段,agent和環(huan)境生成能力都(dou)還有很(hen)大的(de)(de)(de)改進空間(jian),但Google DeepMind相(xiang)信Genie 2是解(jie)決安全訓練具體(ti)agent的(de)(de)(de)結構(gou)性問題的(de)(de)(de)途徑,同時實現邁向AGI所需的(de)(de)(de)廣度和通用(yong)性。
結語:世界模型,AI領域的下一件大事
游(you)戲(xi)是(shi)安全(quan)測試和推進AI能力(li)的(de)理想環(huan)境。訓練更通用具身agent的(de)傳(chuan)統瓶頸在于缺乏足夠(gou)豐富和多樣化的(de)訓練環(huan)境。
Google DeepMind正將越來(lai)越多資源投入于世界模型研(yan)究。Genie 2展(zhan)示了基礎(chu)世界模型在創(chuang)建(jian)多樣化3D環境(jing)、定(ding)制交互式游(you)戲(xi)場景、加速agent研(yan)究等方面的(de)(de)潛力(li),可讓未(wei)來(lai)的(de)(de)Agent在無限的(de)(de)新世界中接受訓練(lian)和評估。
該研究方(fang)向(xiang)尚處于早期(qi)階段(duan),Google DeepMind計劃在通(tong)用性和一致(zhi)性方(fang)面繼(ji)續(xu)改進Genie的世界生成(cheng)能力。
與SIMA一樣,其(qi)(qi)研(yan)究致力于(yu)構建更通用的(de)AI系(xi)統和agent,使其(qi)(qi)能(neng)夠(gou)理解和安全地執行各種任務,從而幫(bang)助在線和現實世界中(zhong)的(de)人們。
Google DeepMind還放了(le)一(yi)些(xie)有趣的(de)“彩蛋”:Genie 2生(sheng)成(cheng)出一(yi)些(xie)奇怪(guai)視(shi)頻,比如沒有采取行動的(de)情況下(xia)一(yi)個鬼(gui)魂出現在花園,在雪(xue)場的(de)人物角色相比滑(hua)雪(xue)更愛(ai)跑酷(ku)、一(yi)個魔法(fa)球把周(zhou)遭(zao)炸(zha)成(cheng)灰。
來源:Google DeepMind