智東西(公眾號:zhidxcom)
編譯 | 程茜
編輯 | 心緣

智東西2月20日報道,今日凌晨,微軟第一個世界和人類行動模型(WHAM)Muse登上國際頂級學術期刊Nature

Muse是視頻游戲生成模型,其參數量最高達到16,是基于接近7年的人(ren)類(lei)游戲數據進(jin)行訓練,其可以理(li)解游戲中的物(wu)理(li)和(he)3D環(huan)境,然(ran)后生成對應玩家的動作以及視覺效果(guo)。

不過,因為研究工作仍處于早期,目前其僅限于以300×180像素的(de)分辨率生成游戲視覺效果。

論文中顯示,其生成的游戲視頻效果能同時保持一致性、多樣性和持久性。具體來說(shuo),其生(sheng)成的兩分鐘(zhong)視頻效(xiao)果(guo)(guo)人類真實游戲效(xiao)果(guo)(guo)相近;會(hui)提供不同(tong)攝像機(ji)移動角(jiao)度、不同(tong)角(jiao)色、游戲工(gong)具的多樣性效(xiao)果(guo)(guo);還(huan)支(zhi)持開發(fa)者添加新元素(su),并自動合理融(rong)入畫面(mian)。

開局一張圖,AI秒生超燃游戲大片!微軟首個世界和人類行動模型登Nature

這一模型由微(wei)軟研究員游戲智能團(tuan)隊、可教的AI體驗(Tai XTeachable AI Experiences)團隊與微軟旗下(xia)游戲(xi)工作(zuo)室Xbox Games Studios的電(dian)子游戲制作公司Ninja Theory合(he)作開發。

微軟正在開源權重和樣(yang)本數據,并提供了一個可視化的交互界面WHAM Demonstrator供開發者體驗,開發者可以在開發(fa)人員可(ke)以(yi)在(zai)Azure AI Foundry上學習試驗權重、示例數據(ju)和 WHAM Demonstrator

Xbox正在考慮基于Muse為用戶構建簡短的交互式AI游戲體驗,將很快在Copilot Labs上試用。

開局一張圖,AI秒生超燃游戲大片!微軟首個世界和人類行動模型登Nature

論文地址:

一、基于7年人類游戲數據訓練,模型參數16

Muse上下文長度為1秒,在7 Maps數據集上訓練,每張圖像都以數據集的原始分辨率300×180編碼為540Tokens7 Maps數據集的數據量相當于7年多的人類游戲時間研究人員從Xbox游戲Bleeding Edge7張游戲地圖中提取了大約50萬個匿名游戲會話的數據,磁盤上總計27.89TiB。

此(ci)外(wai),還有(you)1500萬到8.94億參數的模(mo)型,上(shang)下文長度為1秒,在(zai)7 Maps過濾后的Skygarden數據集(ji)上(shang)訓練,每張圖(tu)(tu)像將以(yi)128×128編(bian)碼(ma)成256個Tokens。該數據集(ji)指(zhi)的是僅在(zai)Skygarden地圖(tu)(tu)上(shang)進(jin)行1年匿(ni)名游戲的數據。

微軟官方發布的示例都是通過提示模型(xing)使用(yong)10個初始幀(1秒)的人(ren)類游戲和(he)整個游戲序列的控制(zhi)器動(dong)作來(lai)生成的。

例如,用戶可以將視覺對象作為初始提示(shi)加載到模(mo)型,下方(fang)視頻添(tian)加了Bleeding Edge中(zhong)的圖像,然后(hou)使(shi)用Muse從此(ci)起點生成多個可能的延續(xu)圖像。

開局一張圖,AI秒生超燃游戲大片!微軟首個世界和人類行動模型登Nature

此外,用戶還可以瀏覽生成的序列并進行調整,例如使用游戲控制器來指導角色。這些功能演示了Muse的功(gong)能如何將迭代作為創作過程的一(yi)部分。

開局一張圖,AI秒生超燃游戲大片!微軟首個世界和人類行動模型登Nature

Muse在生成游戲視頻時可以保持一致性多樣性持久性

在(zai)一致性方面,下方視頻都是(shi)基于基于 Muse生(sheng)成,兩段(duan)視頻演(yan)示了該(gai)模型生(sheng)成長達兩分鐘的一致游戲序(xu)列的能(neng)力。

開局一張圖,AI秒生超燃游戲大片!微軟首個世界和人類行動模型登Nature

多樣性方面,以(yi)相同的初始(shi)10幀(zhen)(1 秒(miao))真實游戲為條(tiao)件,下面視頻(pin)中(zhong),上方的三個(ge)視頻(pin)顯(xian)示(shi)了(le)行(xing)為多樣性(不(bu)同的攝像機移動、在生(sheng)成位置附近徘(pai)徊以(yi)及導(dao)航到中(zhong)間跳(tiao)板的各種路徑),下方的三個(ge)視頻(pin)顯(xian)示(shi)了(le)視覺(jue)多樣性(角色的不(bu)同懸浮板)。

開局一張圖,AI秒生超燃游戲大片!微軟首個世界和人類行動模型登Nature

在持續性方面,模(mo)型還可以在修改游(you)戲(xi)(xi)序列時提示它(ta)并保留(liu)新(xin)(xin)引入的元素。例如,在下面的演示中(zhong),可以看到新(xin)(xin)角(jiao)色(se)被添(tian)加到游(you)戲(xi)(xi)的原始視覺對象中(zhong),視頻中(zhong)這一新(xin)(xin)角(jiao)色(se)會保留(liu),還會在后(hou)續視頻中(zhong)繼續存在。

開局一張圖,AI秒生超燃游戲大片!微軟首個世界和人類行動模型登Nature

此外,論文中還提(ti)到Muse訓練的數據是通過與Ninja Theory的合作提供的,數據收集由最終用戶許可協議涵蓋,研究人員對數據的使用受與游戲工作室的數據共享協議的約束,并由機構審查委員會批準。這些數據是在20209月至202210月期間記錄的。為了最大限度地降低人類數據的風險,他們已從數據中刪除了任何個人身份信息(Xbox用戶ID,并(bing)對(dui)結(jie)果數據進行清理,以刪除非活躍玩家(jia)的數據。

二、多學科協作評估,確定三大模型能力

在早期,研究人員首先總結了27名從事游戲開發(fa)(fa)的創(chuang)意(yi)人員的用戶研究結果(guo),以評估發(fa)(fa)散思維(wei)和迭代實(shi)(shi)踐在使用生成式AI實(shi)(shi)現新穎性設(she)計的重(zhong)要作用。基于這些見解,他們確定(ding)了一組可(ke)能對實(shi)(shi)現創(chuang)造性構思很重(zhong)要的生成模型能力(li),即(ji)一致(zhi)性、多樣性和持久(jiu)性。

其中,一致性可以使得生成的序列隨時間推移并與游戲機制保持一致,多樣性允許模型產生大量不同的序列,反映不同的潛在結果,以支持發散性思維,持久性使得用(yong)戶對游戲視(shi)覺效果和控制器動作進行修改,并將它(ta)們同(tong)化到生成的游戲序列中。

開局一張圖,AI秒生超燃游戲大片!微軟首個世界和人類行動模型登Nature

Muse基于人類游戲數據進行訓練,以預測游戲視覺效果(和玩家的控制器動作(模型架構和數據部分)。生成的模型準確捕獲了游戲環境的3D結構(模型評估部分)、控制器動作(zuo)的(de)效(xiao)果(guo)和游戲的(de)時間結構,使得其生成的(de)視頻可以連貫、一致且具有(you)多樣(yang)性。

一致性需要一個順序模型,該模型可以準確捕獲游戲視覺效果和控制器動作之間的依賴關系;多樣性需要模型可以生成數據,保留數據集中視覺對象和控制器動作的順序條件分布。最后,持久性是通過預測模型提供的,該模型可以以 (修改的) 圖像和控制器動作作為條件。其研究方法的關鍵是將數據構建為一系列離散的Tokens。為了將圖像編碼為Tokens序列,研究人員使用VQGAN圖像編碼器。其中,用于對每張圖像進行編碼的Tokens數量是一個關鍵的超參數,它在預測圖像的質量與生成速度和上下文長度之間進行權衡。

對于Xbox控制器動作,盡管按鈕本身是離散的,但研究人員將左右搖桿的xy坐標離散為11Buckets,然后訓練一個僅解碼器的轉換器來預測交錯圖像和控制器動作序列中的下一個Tokens。生成的模型可以通過對下一個Tokens進行自回歸采樣來生成新的序列。生成過程中,研究人員還可以修改Tokens,以允許修改(gai)圖像(xiang)或者控(kong)制器(qi)動作。

博客中還提到,研究人員最初使用的是V100集群進行訓練,他們實現了擴展到在多達100個GPU上進行訓練,這最終為H100的大規模訓練鋪平了道路。
此外,借助最初的評估框架和(he)對H100的有效分(fen)配,研究人員能夠進一步(bu)改(gai)進Muse實例,包括(kuo)更(geng)高分(fen)辨率的圖像編碼器(qi)和(he)更(geng)大的模型,并(bing)擴(kuo)展到所有7個Bleeding Edge地(di)圖。

微軟高級研(yan)究員(yuan)Tabish Rashid提到:“最初分配H100是(shi)(shi)相當艱巨的(de)(de),尤(you)其是(shi)(shi)在早期階(jie)段,要弄清楚如(ru)何最好地(di)利用它來擴展到帶有新圖(tu)像(xiang)編碼(ma)器的(de)(de)更大型號(hao)。經過數月的(de)(de)實驗,終于在不(bu)同的(de)(de)地(di)圖(tu)上看(kan)到模型的(de)(de)輸(shu)出(chu),并且不(bu)必(bi)瞇著(zhu)眼睛看(kan)較小的(de)(de)圖(tu)像(xiang),這是(shi)(shi)非常有益的(de)(de)。”

三、生成效果接近人類真實水平,新角色也能合理融入

論文闡釋了研究人員對模(mo)型一致性、多樣性和(he)持久性的(de)具體評(ping)估結果。

研究人員通過Fréchet視頻距離 (FVD)衡量一致性效果。研究中使用模(mo)型(xing)生成游戲視覺效果,以包含視頻和控制器動作的1秒游戲體驗為條件,再加上人類玩家在接下來的9秒內的游戲過程中采取的控制器動作,可以看出生成(cheng)的游戲玩法與真實情況匹配。

開局一張圖,AI秒生超燃游戲大片!微軟首個世界和人類行動模型登Nature

Wasserstein距離是以前用于評估模型動作是否捕捉到人類動作全部分布的指標。研究人員將真實人類行為的邊際分布與模型生成的邊際分布進行了比較,Wasserstein距離越短,模型的世代就越接近人類玩家在我們的數據集中采取的行動。在訓練過程中,所有模型的Wasserstein距離都會減小,接近人與人基線(計算為人類動作序列中兩個隨機動作子集之間的平均距離)。

開局一張圖,AI秒生超燃游戲大片!微軟首個世界和人類行動模型登Nature

為了評估模(mo)型的持久性,研究人員通過插入游戲內對象、其他玩家、地圖元素之一來手動編輯游戲圖像。結果表明,Muse能夠保留已插入到看似合理但新的起始位置的常見游戲元素

開局一張圖,AI秒生超燃游戲大片!微軟首個世界和人類行動模型登Nature

結語:微軟世界模型,開啟重塑游戲體驗新大門

微(wei)軟新推出的世(shi)界(jie)模(mo)型為我(wo)們呈現了生成式(shi)AI在游(you)戲領域的巨大潛力,正如其(qi)在示例中所言,這(zhe)樣的模(mo)型既可以學習游(you)戲世(shi)界(jie)的豐富結構,還能(neng)(neng)展示如何進一步支持模(mo)型的創造性使用。這(zhe)可能(neng)(neng)會從根本上改變用戶未來保存和體驗(yan)經典游(you)戲的方式(shi),并使更(geng)多玩(wan)家接觸到(dao)它們。

同(tong)時,他們一開始通過與多學科人員(yuan)的協作,以找到構建模型能力(li)滿足創意人員(yuan)需(xu)求的切入點,也為模型在不同(tong)場景的應用提(ti)供了經(jing)驗。

目前,微軟已(yi)經(jing)開源了權重(zhong)和樣本數據,會加速開發者基于(yu)此(ci)進行(xing)后續研究,或許會在(zai)不久的(de)將來誕生(sheng)基于(yu)AI的(de)新穎游戲體驗,挖掘出AI在(zai)游戲應(ying)用的(de)更多(duo)應(ying)用場景。