智東西(公眾號:zhidxcom
編譯?|?香草
編輯?|?李水青

智東西3月8日報道,近日,深度學習三巨頭之一、Meta首席科學家楊立昆點贊分享了一篇萬字博文《視頻生成器是世界模擬器嗎?(Are Video Generation Models World Simulators?)》。

哲學家萬字解析Sora本質,楊立昆點贊轉發,AI視頻離世界模擬器還有多遠?

▲楊立(li)昆在X平臺上轉(zhuan)發并稱這是一篇好文(wen)章(zhang)

文章從Sora的工作原理、模擬假說、直觀物理學、世界模型的定義、圖像生成等角度,深入探討了標題所提出的問題,并得出結論:像Sora這樣的視頻生成器,可能不是人們想象中的“世界模擬器”,但從更寬泛的定義上來看,它們可以被視作有限的“世界模型”

本文作者以文生圖模型為例證,論述了Sora可能和Stable Diffusion類似,生成過程超出了對像素空間表面統計的擬合,可能受到3D幾何和動態關鍵方面的潛在表示的影響,從而學到有用的深度、因果等特征的抽象表征。換句話說,Sora能在潛在空間中學習抽象規律,具有部分模擬世界的能力

自Sora于今年初發布以來,“Sora是否理解物理世界”話題引來眾多大佬下場討論。其中英偉達的科學家Jim Fan將Sora描述為“數據驅動的物理引擎”;楊立昆則多次開噴Sora,稱Sora的訓練方式無法構建世界模型,通過生成像素的方式來建模世界,與幾乎已經被拋棄的“綜合分析”方法一樣,浪費時間且“是一次徹頭徹尾的失敗”。

該(gai)文(wen)章的(de)作者是澳大利亞悉尼麥考瑞大學(xue)的(de)哲(zhe)學(xue)講(jiang)師拉斐爾(er)(er)·米利埃爾(er)(er)(Rapha?l Millière),他主要從事AI、認知科學(xue)和心智(zhi)哲(zhe)學(xue)等(deng)方面的(de)學(xue)術(shu)研究。以下是對(dui)該(gai)文(wen)章的(de)全文(wen)編(bian)譯,由于篇幅(fu)原(yuan)因進行(xing)了(le)部分刪(shan)減(jian)。

哲學家萬字解析Sora本質,楊立昆點贊轉發,AI視頻離世界模擬器還有多遠?

▲文章首頁截圖

原文地址(zhi):

//artificialcognition.net/posts/video-generation-world-simulators/#concluding-thoughts

一、Sora是一項工程壯舉,架構沒有真正突破

2024年2月16日,OpenAI推(tui)出Sora,一個令人印象深(shen)刻(ke)的(de)(de)新型深(shen)度學習模型,可以(yi)根據(ju)文本提(ti)示生成(cheng)視(shi)頻和圖像(xiang)。Sora可以(yi)生成(cheng)長(chang)達一分鐘的(de)(de)視(shi)頻,具有(you)不同(tong)的(de)(de)分辨率和寬高比。雖然目前無法測試(shi)該模型,但OpenAI挑選的(de)(de)結果表明它(ta)在(zai)先前的(de)(de)技(ji)術水(shui)平上(shang)有(you)了巨大的(de)(de)改進。

OpenAI有些自大地聲稱Sora是一個“世界模擬器”。那么什么是世界模擬器呢?這是OpenAI對(dui)訓練Sora動機的陳述:

“我們正在教AI如何理解和模擬物理世界中的運動,目標是訓練出能夠幫助人們解決需要與現實世界進行交互的問題的模型。”

OpenAI還發布(bu)了(le)Sora技術報告,其中闡述了(le)對Sora理(li)論意(yi)義的(de)理(li)解:

“我(wo)們(men)的研(yan)究(jiu)結果表(biao)明,擴展視(shi)頻生成(cheng)模型是建立物(wu)理(li)世界通用模擬(ni)器的一(yi)條可(ke)行(xing)之路。”

Sora的技術報告對細節描述得很少,但提供了一些關于架構的線索。其核心是一個擴散變換器(Diffusion Transformer,簡稱DiT),這是(shi)比爾·皮布爾斯(si)(Bill Peebles,也是(shi)Sora的主要作者之一)紐約大(da)學(xue)的謝賽寧設計的一種架構。

DiT是(shi)一種具有Transformer主干網絡的擴(kuo)(kuo)(kuo)散(san)模型(xing)。我(wo)們熟悉的圖像(xiang)生成模型(xing),如Stable Diffusion是(shi)潛在擴(kuo)(kuo)(kuo)散(san)模型(xing)。它們使用(yong)(yong)預訓練(lian)的變(bian)分自(zi)動編碼(ma)器(qi)(VAE)將原始圖像(xiang)從像(xiang)素空(kong)間壓(ya)縮到潛在空(kong)間;然后,擴(kuo)(kuo)(kuo)散(san)模型(xing)在從VAE學習的較低(di)維潛在空(kong)間上進行訓練(lian),而(er)不是(shi)在高維像(xiang)素空(kong)間上。這種擴(kuo)(kuo)(kuo)散(san)過程通常使用(yong)(yong)U-Net骨干實現。U-Net是(shi)一種卷積神經網絡,最初用(yong)(yong)于圖像(xiang)分割,后來被調整(zheng)用(yong)(yong)于去噪擴(kuo)(kuo)(kuo)散(san)。

DiT架構受潛(qian)在擴(kuo)散(san)模型的(de)啟(qi)發,但將U-Net骨干替換為修改后的(de)視(shi)覺Transformer(ViT)。ViT是(shi)(shi)專門(men)用于(yu)視(shi)覺任務的(de)Transformer模型,它不以語言標記作為輸入(ru)(ru),而(er)是(shi)(shi)接收圖像塊的(de)序列。例如(ru),一幅圖像可以分割(ge)成(cheng)16*16的(de)補丁(Patches),從而(er)為Transformer提供256個輸入(ru)(ru)Tokens。同(tong)樣,作為DiT的(de)核心修改后,ViT接受來自VAE的(de)圖像補丁的(de)潛(qian)在表示作為序列輸入(ru)(ru)Tokens。相較于(yu)帶有(you)U-Net的(de)傳統潛(qian)在擴(kuo)散(san)模型,DiT具有(you)一些優勢:效(xiao)率(lv)更(geng)高、擴(kuo)展性更(geng)好(hao),而(er)且易于(yu)適應不同(tong)的(de)生(sheng)成(cheng)分辨率(lv)。

在(zai)Sora之前,DiT架構已經被用于文本(ben)條件下的(de)圖像和視(shi)頻(pin)生成。OpenAI提出的(de)解(jie)決方案(an)使用所謂的(de)“視(shi)頻(pin)壓(ya)縮網(wang)絡(luo)”(Video compressor network),這可能是針對視(shi)頻(pin)進行改編的(de)VAE。其基本(ben)思(si)想與最初(chu)的(de)DiT相同(tong):

(1)視(shi)頻壓(ya)縮網絡將原始視(shi)頻輸(shu)入壓(ya)縮為潛在時空表示;

(2)壓縮后的視頻被轉換為“時(shi)空補(bu)丁”,作為輸入Token提(ti)供給(gei)擴(kuo)散(san)變(bian)換器(qi);

(3)在(zai)最后(hou)一(yi)個Transformer塊(kuai)之(zhi)后(hou),與視頻(pin)壓縮(suo)網絡一(yi)起訓練的(de)解碼(ma)器模型將(jiang)生成的(de)潛在(zai)表示映(ying)射回像素空間(jian)。

與OpenAI之前的GPT-3等成就一樣,大家的共識似乎是,Sora的架構并沒有什么真正的突破。正如謝賽(sai)寧所說,它實質上是一種適用于視(shi)頻的DiT,沒有(you)額外的花哨功能(neng)。

因此,Sora在很大程度上是一項工程壯舉,也是對擴展能力的又一次證明。技術報告生動地說明了樣本質量隨著訓練計算量的增加而提高。與語言模型一樣,某些能力似乎也會隨著規模的擴大而顯現;自然地,Sora也再次引發了關于純粹的擴展到底能達到什么程度的激烈爭論。

二、模擬假說:視頻生成模型在訓練中習得物理規律

Sora的技術報告聲稱,隨著規模的擴大,Sora獲得了“新興的模擬能力”。它(ta)提到了通過動態攝(she)像機運動、遮擋(dang)、客體永久性和(he)視頻游戲模擬等來實現場景一致性,作為此類(lei)能力的示例(li)。報告繼續得(de)出(chu)結論(lun):

“這些能力表明,視頻模型的持續擴展是開發高性能物理和數字世界模擬器的有力路徑,這些模(mo)擬器涵蓋了生(sheng)活在(zai)其中(zhong)的對(dui)象、動物和人。”

我們稱之為模擬(ni)假說Simulation hypothesis

這個假設的問題在于,它非常模糊視頻生成模型模擬物理世界到底意(yi)味著什(shen)么?什么樣的證據可以支持這一主張?讓我們(men)逐一回(hui)答這些問(wen)題。

在Sora發布之后,AI行業的知名人士紛紛表達了他們對模擬假說的理解。英偉達的Jim Fan將Sora描述為“數據驅動的物理引擎”。他這樣解釋這句(ju)話的(de)含義:

“Sora通過大量視頻(pin)的梯(ti)度下降,在神經參數中隱(yin)式地學習(xi)物(wu)理(li)引(yin)擎。Sora是一個可學習(xi)的模(mo)擬(ni)器(qi),或者說(shuo)是‘世界(jie)模(mo)型(xing)’。

Sora必(bi)須(xu)學(xue)習一些(xie)隱式的文(wen)本到3D、3D變換、光線追(zhui)蹤渲染和物理規則,以便盡可能準確地模擬視頻像素。它必(bi)須(xu)學(xue)習游戲引擎的概念,以滿(man)足(zu)目標。”

物理引擎的術(shu)語(yu)有(you)些令人困惑,尤其是考慮到有(you)猜測認為Sora是在虛幻5場(chang)景上(shang)訓練得(de)到的,所以(yi)讓我們(men)先(xian)澄清這一(yi)點(dian)。

據我所知,包括Jim Fan在內,沒有人真的認為Sora在推理時有一個物理引擎在循環中。換句話說,作為一個DiT模型,它不會在生成視頻時調用虛幻引擎

實際(ji)上(shang),神(shen)經網絡(luo)調用(yong)物理引擎以前已經有人嘗試過,但不是用(yong)于視頻(pin)生成,而是為(wei)了物理推(tui)(tui)理。2023年,谷歌大腦的(de)一篇論(lun)文Mind’s Eye通過物理引擎模(mo)擬(ni)可(ke)能的(de)結(jie)果(guo),來提(ti)高(gao)語言模(mo)型(xing)在物理推(tui)(tui)理問題上(shang)的(de)表現,將(jiang)這些模(mo)擬(ni)的(de)結(jie)果(guo)作為(wei)提(ti)示(shi)詞中的(de)線索(suo)。

哲學家萬字解析Sora本質,楊立昆點贊轉發,AI視頻離世界模擬器還有多遠?

▲Mind’s Eye論(lun)文截圖

那(nei)么,我(wo)們應(ying)該如(ru)何理(li)解Sora類似于“數據(ju)驅動的物理(li)引擎(qing)”模(mo)擬物理(li)世界的主張(zhang)呢?谷歌DeepMind的Nando de Freitas這樣說(shuo):

“一(yi)個有限大小的(de)神(shen)經網絡能夠預測任何情(qing)況下會發(fa)生什么的(de)唯一(yi)方式,是通過學習內部模型來促進這種預測,包括直觀的(de)物理定律。”

我們越來越接近模擬假說的明確陳述一個基于端到端神經網絡架構、參數設置有限的足夠好的視頻生成模型,應該有望在訓練過程中獲得物理世界的內部模型,因為這是(shi)神經網絡生成任意場景的(de)(de)連貫、逼真視(shi)頻的(de)(de)最有效(xiao)方法——也(ye)許是(shi)唯(wei)一的(de)(de)方法。

Sora 是否真的從 2D 視頻中歸納出物理定律?

如上所述,這(zhe)可能看起來(lai)很荒謬。

游戲(xi)引(yin)擎(qing)通常也不模擬這些(xie)法則。雖然它們(men)可能會模擬熱(re)效應(火(huo)災(zai)、爆炸)和做功(物體克服摩(mo)擦力移動),但這些(xie)模擬通常是高度抽(chou)象的,并不嚴格(ge)遵守熱(re)力學方程。他們(men)根本不需要這樣做,因為他們(men)的重點是渲染場景的視覺和交互可信度,而不是嚴格(ge)的物理(li)準確性。

Sora會做類似的事情嗎?

如果想回答這個問題,我們需要探討直觀物理學

三、像人一樣,通過直觀物理引擎模擬事件?

對(dui)人類而(er)言(yan),即使是嬰兒(er)也展現出對(dui)物(wu)理世界的(de)穩定預(yu)期(qi)。例如看到(dao)一只球沿(yan)著(zhu)地板滾向墻壁(bi),我們會直(zhi)覺(jue)地知道球會撞(zhuang)到(dao)墻壁(bi)并反彈回來,而(er)不是穿過它。

這就是認知科學家稱之為直觀(guan)物理學Intuitive physics的東(dong)西:一種快速、自動的日常推理,它讓人(ren)們知道當各種物體相互(hu)作用時會發(fa)生(sheng)什么,而不需要(yao)有意識地進行物理計算(suan)。

哲學家萬字解析Sora本質,楊立昆點贊轉發,AI視頻離世界模擬器還有多遠?

▲作為概(gai)率推理的直觀(guan)物(wu)理學論文截圖

人類是如何做到的呢?認知科學家提出了一個著名的假設,人們使用一個直觀物理引擎IPE來模擬物理事件。

IPE類似于(yu)(yu)計算機游戲中(zhong)的(de)物理(li)(li)(li)引擎,它基于(yu)(yu)不完全準確的(de)物理(li)(li)(li)原理(li)(li)(li),通過(guo)隨機模(mo)擬來(lai)(lai)預測(ce)物理(li)(li)(li)現象。根據(ju)(ju)這種觀(guan)點,當我(wo)們觀(guan)察物理(li)(li)(li)場景時,會根據(ju)(ju)質量、摩擦、彈性等感知證據(ju)(ju)構建對物體、屬性和作(zuo)用力的(de)心(xin)理(li)(li)(li)表征,然后運行內部模(mo)擬來(lai)(lai)預測(ce)接(jie)下來(lai)(lai)會發(fa)生什么。

然而,關于IPE假設也存在爭議。批評者指出,人(ren)類(lei)的(de)(de)物理推理有時會(hui)偏離IPE式模(mo)擬(ni)預測,包(bao)括(kuo)系(xi)統偏差和錯誤以及對(dui)(dui)視覺(jue)捷徑的(de)(de)依賴等。一(yi)些人(ren)認為(wei),非(fei)牛頓(dun)心理模(mo)型、深度學習(xi)模(mo)型可能更(geng)好地解釋(shi)人(ren)類(lei)對(dui)(dui)物理的(de)(de)直覺(jue)。

盡管(guan)存在(zai)爭議,但至少有(you)一(yi)個相對合(he)理且有(you)豐富(fu)實驗(yan)文獻(xian)支持(chi)的案例支持(chi)模擬(ni)假說。現在(zai),我(wo)們(men)可(ke)以將這一(yi)背景知(zhi)識應用(yong)于人工神經網絡,探討它(ta)們(men)是(shi)否能夠模擬(ni)物(wu)理世界(jie)。

四、已有“世界模型”,未達強因果概念高標準

通過心理學中的直觀物理學,我們提出了一個重要的點對物理場景進行心理模擬,與僅僅表示物理世界的各個方面(例如幾何形狀)之間存在表面上的區別,這個區別在討論像視頻生成模型這樣的神經網絡的能力時非常重要。

世界模(mo)型World models的含義已經被淡化,以至于在實踐中變得相當難以捉摸。在機器學習研究中,它主要起源于20世紀90年代Juergen Schmidhuber實驗室的強化學習文獻。在這種情況下,世界模型指的是智能體對其交互的外部環境的內部表示。具體(ti)來(lai)說,給(gei)定環境狀態(tai)和智(zhi)能(neng)體(ti)行動(dong),世界模(mo)型可以預測智(zhi)能(neng)體(ti)采取(qu)該(gai)行動(dong)后環境的未(wei)來(lai)狀態(tai)。

在2018年Ha和(he)Schmidhuber發表的(de)世(shi)界(jie)模(mo)型(xing)論文中(zhong),他們(men)提出世(shi)界(jie)模(mo)型(xing)包括(kuo)一個(ge)感官組件(jian),它處理原始觀察結果,并將它們(men)壓縮成一個(ge)緊湊的(de)編碼。具體(ti)來說,基于RNN的(de)世(shi)界(jie)模(mo)型(xing)被(bei)訓(xun)練為(wei)在智(zhi)能體(ti)之前的(de)經(jing)驗(yan)條件(jian)下,內部模(mo)擬(ni)并預測(ce)未來的(de)潛在觀察編碼、獎勵和(he)終止(zhi)信號(完成狀態(tai))。

哲學家萬字解析Sora本質,楊立昆點贊轉發,AI視頻離世界模擬器還有多遠?

▲Ha和Schmidhuber的世界(jie)模型(xing)模擬的環境中駕駛的智能(neng)體(ti)

Ha和Schmidhuber的世界模型論文影響了許多后續作品。谷歌DeepMind近日推出了基礎世界模型Genie,雖然它(ta)不(bu)是一個強(qiang)化學(xue)習(xi)系統,但(dan)它(ta)與Ha和(he)Schmidhuber的框架具(ju)有關(guan)鍵的相似之處。

Genie生成(cheng)(cheng)一個交互式(shi)環(huan)境(jing),人類(lei)用戶可(ke)以(yi)通過影響未(wei)來視頻(pin)生成(cheng)(cheng)的操作來控制智能體(ti),它(ta)引(yin)入了無監督動作空間學習的概(gai)念,以(yi)避(bi)免訓(xun)練過程中對動作標簽的依賴。因此,任意(yi)視頻(pin)都可(ke)以(yi)作為訓(xun)練數據(ju),而不(bu)是帶有動作標記的示(shi)例。

哲學家萬字解析Sora本質,楊立昆點贊轉發,AI視頻離世界模擬器還有多遠?

▲Genie

另一個值得一提的世界模型概念來自楊立昆,這在他的聯合嵌入式預測架構(JEPA)中(zhong)得(de)到(dao)了突出體(ti)現。在他的框架(jia)中(zhong),世界模型是一個智能(neng)體(ti)用(yong)于(yu)規劃和推(tui)理世界如何運作的內部(bu)預測模型,用(yong)于(yu)兩個關鍵功能(neng):

(1)估算(suan)智能體感知系統(tong)未提供的(de)有關(guan)當前世界狀態的(de)缺(que)失(shi)信息;

(2)預測智(zhi)能體提出的(de)一系(xi)列動作可能產生的(de)多個可能的(de)未來世界狀態。

哲學家萬字解析Sora本質,楊立昆點贊轉發,AI視頻離世界模擬器還有多遠?

▲楊立昆提(ti)出的自主機器智能(neng)認知架(jia)構的高層示意圖(tu)

在JEPA架構中,世界模型模塊是由預測器網絡實現的。它最近被應用于視頻,自監督模型V-JEPA通過預測視頻潛在空間中遮蔽時空區域的表示來學習。V-JEPA和Sora之間的一個關鍵區別是它們各自的學習目標,以及這些目標可能對其潛在表示產生的下游影響。Sora針對像素空間的幀重建進行訓練的,而V-JEPA則針對潛在空間的特征預測進行訓練。根據楊立昆的觀點,這會導致它們潛在表示之間的巨大差異。在他看來,像素級別的生成目標根本不足以誘導可能對在世界中規劃和行動有用的抽象表示。

總之,人們使用“世界模型”一詞的方式略有不同。無論是生成模型、強化模型,還是JEPA模型,都沒有達到因果推理文獻中“世界模型”這一強因果概念所設定的高標準。

那么像Sora這樣的視頻生成模型呢?我們可以從圖像生成模型中尋找線索。

五、圖像生成模型能學習3D幾何結構,提供重要線索

Sora模型的(de)核心是DiT,它(ta)受(shou)到(dao)常(chang)用于圖像生(sheng)成的(de)潛在擴散模型的(de)啟發,但將U-Net骨(gu)干替換為了ViT。

這引發了一系列問題:基于潛在擴散的圖像生成模型實際上編碼了哪些信息是(shi)僅(jin)僅(jin)編碼(ma)了圖像(xiang)表面的啟發式信(xin)息,還是(shi)編碼(ma)了視覺場景(jing)的潛在(zai)變量,比如(ru)3D幾何結構?

目前,關于這個問題的(de)研究并不多。

Zhan等人于2023年提出了一種方法來評估潛在擴散模型是否編碼了圖像中描繪的3D場景的不同物理屬性。測試結果顯示,像Stable Diffusion這樣的模型能夠(gou)編碼(ma)關(guan)于3D場景幾(ji)何(he)、支持關(guan)系、照明和相(xiang)對深度的信息,盡(jin)管在(zai)遮擋(dang)方面的分類(lei)性能(neng)較低(di)。

這項研究僅僅表明物理屬性的信息可以從模型的激活中解碼出來,并不意味著這些信息在模型行為上具有因果效力。

Chen等人在2023年的研究填補了這一空白。他們創建了一個由潛在擴散模型Stable Diffusion生成的圖像數據集,并訓練線性探測器來預測顯著對象的分割和深度值。通過干預實驗,他們發現模(mo)型的內部激(ji)活對生成圖(tu)像(xiang)的幾何形狀有因果影(ying)響。

哲學家萬字解析Sora本質,楊立昆點贊轉發,AI視頻離世界模擬器還有多遠?

▲用Chen等人的擴散模型解碼的深度和(he)突出(chu)物體表(biao)示

這個實驗表明,像SD這樣的潛在擴散模型能夠學習到關(guan)于簡單場景幾何的(de)線性表示,特別是與深(shen)度和前景(jing)/背景(jing)區分相關的表示,即使它們僅僅在沒(mei)有(you)顯式(shi)深(shen)度監督的情況下(xia),只(zhi)通過2D圖像進行訓練。

此外,這些表示在迭代采樣過程的早期階段就出現了,而在這些階段,圖像本身對于人類觀察者來說仍然像是隨機噪聲,并且幾乎不包含深度信息。這表明潛在擴散模型所做的遠遠超(chao)出了對(dui)像(xiang)素空間表面統(tong)計的擬合。它們引導了(le)關(guan)于(yu)深度和顯著性的(de)潛在信(xin)息,因為這樣的(de)信(xin)息對(dui)于(yu)生成逼真的(de)圖像目標非常有(you)用(yong)。

還有(you)其他關于圖像生成(cheng)模型的(de)(de)相關研究(jiu)。低秩(zhi)自適應(LoRA)可以(yi)(yi)用來直(zhi)接從潛在擴散模型中提取(qu)內在的(de)(de)“場(chang)景(jing)(jing)圖”,如表面法(fa)(fa)線和(he)深度。該(gai)方法(fa)(fa)可以(yi)(yi)將任(ren)何圖像生成(cheng)模型轉(zhuan)化為固有(you)場(chang)景(jing)(jing)屬性(xing)預測器,而不需(xu)要額(e)外的(de)(de)解(jie)碼網絡。結果表明,可以(yi)(yi)通過(guo)利用模型參數中已經存(cun)在的(de)(de)信息來提取(qu)關于3D場(chang)景(jing)(jing)幾何的(de)(de)精細預測。

哲學家萬字解析Sora本質,楊立昆點贊轉發,AI視頻離世界模擬器還有多遠?

▲在SD的(de)內在場景地圖使(shi)用I-LoRA方(fang)法

這并不意味著潛在擴散模型能完美地表示視覺場(chang)景的各個方(fang)面的三維幾何。實際上,經(jing)過訓練(lian)的(de)人眼通(tong)常(chang)可以注意(yi)到輸出(chu)中的(de)各(ge)種(zhong)缺陷,物(wu)(wu)理不(bu)(bu)一致性(xing)甚至可以通(tong)過分類器進行量化,就像Sarker等人(2023年(nian))所做的(de)那(nei)樣。這些不(bu)(bu)一致性(xing)包(bao)括物(wu)(wu)體及其陰(yin)影的(de)錯位,以及違(wei)反(fan)投影幾何學的(de)情況,例(li)如線條未能正確(que)地收斂到消失點或不(bu)(bu)遵循線性(xing)透視:

哲學家萬字解析Sora本質,楊立昆點贊轉發,AI視頻離世界模擬器還有多遠?

▲AI生成的圖(tu)像中存在的物(wu)理(li)不一致性

對于如(ru)何(he)修復生成圖像中這(zhe)些持續存在(zai)的(de)(de)(de)(de)(de)缺陷,有(you)很多(duo)有(you)趣的(de)(de)(de)(de)(de)猜想。一個(ge)假(jia)設是,測試的(de)(de)(de)(de)(de)模(mo)型(xing)(xing)可(ke)能(neng)(neng)不夠大(da),或者訓練數(shu)據不夠充(chong)分。通過擴(kuo)大(da)參數(shu)和數(shu)據集的(de)(de)(de)(de)(de)規(gui)模(mo),可(ke)能(neng)(neng)足以(yi)(yi)使(shi)(shi)潛在(zai)擴(kuo)散模(mo)型(xing)(xing)學習正確的(de)(de)(de)(de)(de)投影幾何(he),就像它(ta)足以(yi)(yi)修復先前模(mo)型(xing)(xing)中的(de)(de)(de)(de)(de)許(xu)多(duo)其(qi)他(ta)逼真性(xing)和連貫(guan)性(xing)問(wen)題(ti)(ti)一樣(yang)。但(dan)也(ye)有(you)可(ke)能(neng)(neng)存在(zai)更(geng)基本(ben)的(de)(de)(de)(de)(de)問(wen)題(ti)(ti),阻(zu)止潛在(zai)擴(kuo)散模(mo)型(xing)(xing)正確學習投影幾何(he)。例(li)如(ru),它(ta)們的(de)(de)(de)(de)(de)架構可(ke)能(neng)(neng)缺乏(fa)適當的(de)(de)(de)(de)(de)歸納偏差(cha)。在(zai)這(zhe)種情況(kuang)下,使(shi)(shi)用ViT作為主(zhu)干結構的(de)(de)(de)(de)(de)DiT也(ye)可(ke)能(neng)(neng)減輕純潛在(zai)擴(kuo)散的(de)(de)(de)(de)(de)不足之處。

總之,對潛在擴散模型的探測和干預研究表明,它們確實能(neng)表示(shi)視覺場景3D幾何的一些特征(zheng),這與它們原則上可以學習至少有限程度的“世界模型”的假設是一致的。它們的潛在空間編碼了結構保持(chi)、因果(guo)有效的信息,這些信息超(chao)越(yue)了像素空間(jian)的表面統計(ji)數據。這是解決(jue)關于(yu)Sora和模擬假說(shuo)的(de)猜測的(de)重要線(xian)索。

六、Sora在潛在空間中學習抽象規律,是有限的“世界模擬器”

與用于(yu)圖像生(sheng)成的潛在擴散模(mo)(mo)型一樣(yang),Sora是(shi)根據視覺輸(shu)入(ru)進行端(duan)(duan)到端(duan)(duan)訓練(lian)的,其(qi)訓練(lian)和生(sheng)成都沒有(you)明(ming)確(que)地(di)以物理變量為條件。但(dan)就像潛在擴散模(mo)(mo)型一樣(yang),它的輸(shu)出表現出驚(jing)人的規律性(xing)。

在回顧了認知科學和機器學習中的直觀物理模擬和世界模型的不同方式后,我們可以肯定的第一件事是,Sora從根本上不同于使用專用“直觀物理引擎”來運行模擬的復合模型

與直觀物理引擎模型不同,Sora沒(mei)有專門(men)的感知、預測和決(jue)策模(mo)塊,需要像物理引擎這樣的接口(kou);它只是(shi)一個(ge)高維空間,其中潛在表示經歷跨層的連續變換。

Sora也與Ha和Schmidhuber的世界模型大不相同。它不基于離(li)散動作(zuo)、觀察(cha)和獎勵信號(hao)的歷史來運行模擬。

在這方面,OpenAI的技術報告有些誤導性內容。其給出的(de)Sora演示視(shi)頻(pin)看(kan)起來像是從(cong)Minecraft這樣的(de)視(shi)頻(pin)游戲中捕獲的(de),但技術報告對(dui)這些輸出結果的(de)解釋卻(que)更進一步(bu):Sora可(ke)通過(guo)基(ji)本策略(basic policy)控制Minecraft中的(de)玩家,同時還能高保真地(di)呈(cheng)現(xian)世界及其動態效果。

哲學家萬字解析Sora本質,楊立昆點贊轉發,AI視頻離世界模擬器還有多遠?

▲Sora演示視頻

這表明Sora模仿了一個智能體(“可控”角色)的政策,就像離線強化學習一樣。但這里沒有傳統意義上的“策略”——或者說代理、動作、獎勵。與Genie不同Sora沒有接受過從(cong)視頻中誘發潛在(zai)動作的(de)訓(xun)練,并(bing)且其(qi)輸出也不以此類動作為條件。

如果按照字面意思,技術報告暗示Sora已經自發地學會了在Minecraft角色內部表示類似隱式策略的東西,但這肯定不是我們僅通過查看輸出就可以推斷出來的。這是一個相當大膽的主張,應該通過分析模型內部的情況來澄清和支持。

因此,Sora與IPE模型、基于RL世界模型以及Genie不同,在以下強定義上,它不是一個“世界模擬器”。

定義1:一個可以對環境的元素和動態進行向前時間模擬,并且其預測是基于這些模擬的輸出條件的系統。

Sora對時(shi)空Token的(de)(de)(de)預(yu)測是基于先前的(de)(de)(de)時(shi)空Token序列(lie)進(jin)行的(de)(de)(de),它(ta)不涉(she)及運行大量關于2D視(shi)頻場(chang)景中所描繪(hui)的(de)(de)(de)3D世界的(de)(de)(de)向前時(shi)間模擬。它(ta)不會(hui)像傳統搜索算法一樣,通過運行多個內部模擬來預(yu)測合法移動,并根據(ju)結果調整下一步(bu)的(de)(de)(de)預(yu)測。

然而,我們不(bu)能完全(quan)排除(chu)Sora是一個(ge)(ge)“世(shi)(shi)界模擬器”的假(jia)設,或者稍微不(bu)那么嚴(yan)謹(jin)地說,它是一個(ge)(ge)“世(shi)(shi)界模型”,這(zhe)個(ge)(ge)概念的弱(ruo)意(yi)義(yi)是受到(dao)Othello-GPT等系統(tong)的啟發。

定義2:一種可學習其輸入域(包括三維環境的物理屬性等)屬性的結構保留、因果效應表征的系統。

作為DiT,Sora本質上是一(yi)個(ge)(ge)潛(qian)(qian)在(zai)(zai)擴散模型,盡管它有一(yi)個(ge)(ge)Transformer主干網絡。Sora與像(xiang)(xiang)Stable Diffusion這樣(yang)的(de)潛(qian)(qian)在(zai)(zai)擴散模型在(zai)(zai)兩個(ge)(ge)重要方面有所(suo)不(bu)同:(1)處理視頻(3D“時(shi)空(kong)”對象)的(de)潛(qian)(qian)在(zai)(zai)表(biao)示,而(er)不(bu)是圖像(xiang)(xiang);(2)其規模可(ke)能要大得多(duo),并且(qie)在(zai)(zai)更(geng)(geng)多(duo)的(de)數據上進(jin)行(xing)訓練(lian)。因此,我們(men)可(ke)以(yi)預期(qi)(qi),Stable Diffusion在(zai)(zai)潛(qian)(qian)在(zai)(zai)空(kong)間中的(de)3D幾(ji)何圖形,可(ke)以(yi)轉化為像(xiang)(xiang)Sora這樣(yang)的(de)系統(tong);我們(men)也可(ke)以(yi)預期(qi)(qi),Sora能代表(biao)其輸入域的(de)更(geng)(geng)多(duo)“世(shi)界屬性”,包括隨時(shi)間展開的(de)過程(cheng)屬性等。

加里·馬(ma)庫斯(Gary Marcus)等批評(ping)者指出,Sora的(de)某些(xie)輸出結果公然違反(fan)了物理(li)學原(yuan)理(li),以此作為反(fan)對模擬假說(shuo)的(de)證據。OpenAI在自己的(de)博文和(he)Sora技術報告中承認了這些(xie)局限(xian)性(xing),并提供了一些(xie)特別嚴重的(de)例子。例如,在下面摘錄的(de)視頻(pin)中,我們(men)可以看到明顯的(de)時(shi)空(kong)不一致,包括違反(fan)重力、碰撞(zhuang)動力學、穩(wen)固(gu)性(xing)和(he)物體永恒性(xing)。

哲學家萬字解析Sora本質,楊立昆點贊轉發,AI視頻離世界模擬器還有多遠?

▲Sora生成的(de)視頻違反重力和碰撞物(wu)理學(xue)原理

哲學家萬字解析Sora本質,楊立昆點贊轉發,AI視頻離世界模擬器還有多遠?

▲Sora生成的視(shi)頻(pin)違反了(le)實體和客體永恒(heng)性

首(shou)先要注(zhu)意的(de)(de)是(shi),雖(sui)然(ran)(ran)這(zhe)些不一(yi)致(zhi)的(de)(de)現(xian)象自然(ran)(ran)會讓我們覺(jue)(jue)得不可思議,但(dan)這(zhe)些視頻也(ye)表現(xian)出(chu)了高度的(de)(de)一(yi)致(zhi)性。玻璃杯懸浮、液體(ti)在玻璃中(zhong)流(liu)動、椅子(zi)變形為(wei)奇怪的(de)(de)形狀、人在被(bei)遮擋(dang)時突然(ran)(ran)出(chu)現(xian)……這(zhe)些反(fan)常(chang)現(xian)象之(zhi)所以讓人覺(jue)(jue)得奇怪,部分(fen)原因(yin)是(shi)其他一(yi)切看起(qi)來都與人們預想(xiang)的(de)(de)差不多。這(zhe)就是(shi)為(wei)什么(me)這(zhe)些輸出(chu)結果(guo)看起(qi)來更像是(shi)來自一(yi)個物理原理奇特的(de)(de)世界的(de)(de)怪異科幻特效,而不是(shi)抽(chou)象混亂的(de)(de)視覺(jue)(jue)圖案。例如(ru),場(chang)(chang)景(jing)的(de)(de)全局3D幾何結構相當一(yi)致(zhi),各種(zhong)場(chang)(chang)景(jing)元素(su)的(de)(de)運動軌跡也(ye)是(shi)如(ru)此。

Sora的(de)(de)輸(shu)出(chu)結(jie)果(guo)顯然會在(zai)(zai)直觀物理方面(mian)出(chu)錯,就像(xiang)SD的(de)(de)輸(shu)出(chu)結(jie)果(guo)會在(zai)(zai)投(tou)影幾何方面(mian)出(chu)錯一(yi)樣(yang),但這(zhe)并不能(neng)排除(chu)這(zhe)樣(yang)一(yi)種假(jia)設,即該模型在(zai)(zai)某些方面(mian)的(de)(de)三維幾何和動(dong)態表現是一(yi)致的(de)(de)。

我們在討論Sora架構時提到的一點值得重溫。與用于生成圖像的潛在擴散模型一樣,Sora的生成過程并不是在像素空間中進行的,而是在潛在空間中進行的,即對時空斑塊的潛在表征進行編碼的空間。這大概率是(shi)很(hen)重要的一(yi)點,因為一(yi)些評論家認為Sora只(zhi)是(shi)學會了在逐(zhu)幀像(xiang)素變(bian)化中插(cha)值常(chang)見模式。對(dui)這一(yi)評價的一(yi)種(zhong)理(li)解(jie)是(shi),Sora只(zhi)是(shi)對(dui)像(xiang)素空(kong)間中視頻時(shi)空(kong)“紋理(li)”的常(chang)見變(bian)換(huan)進行近(jin)似處理(li)。

以(yi)這種方式思(si)考Sora如(ru)何生(sheng)(sheng)成(cheng)視(shi)頻(pin)可(ke)(ke)能會產(chan)生(sheng)(sheng)誤導(dao)。在Sora的架構中,編碼器和解碼器之間(jian)發(fa)生(sheng)(sheng)的一切都發(fa)生(sheng)(sheng)在潛在空間(jian)中。正如(ru)對潛在擴散(san)模(mo)型的研究表(biao)明,深度等(deng)屬(shu)性的潛在表(biao)征可(ke)(ke)以(yi)從早期(qi)擴散(san)時(shi)間(jian)步開始產(chan)生(sheng)(sheng)因果(guo)效(xiao)應。Sora的情況(kuang)也可(ke)(ke)能如(ru)此:與場(chang)景直觀物理相關的屬(shu)性的潛在表(biao)征即使在早期(qi)擴散(san)時(shi)間(jian)步也能對生(sheng)(sheng)成(cheng)過(guo)程產(chan)生(sheng)(sheng)因果(guo)效(xiao)應,這并非(fei)不可(ke)(ke)信。

楊立昆等人可能不同意這一觀點,因為Sora的訓練目標是像素級重建,盡管生成過程發生在潛在空間。因此,有人認為Sora對視頻場景的潛在表征不可能那么抽象。但是,同樣的論點也適用于用于圖像生成的潛在擴散模型;而且,我們也有具體證據表明,這些模型確實能學習到有用的深度等特征的抽象表征。也許(xu)V-JEPA的表征比Sora的更加抽象(xiang)和(he)結構化,但這(zhe)是(shi)一個開放的經驗性(xing)問(wen)題(ti)。

結語:視頻生成模型,從娛樂到世界模擬的探索

那(nei)么,像(xiang)Sora這樣的視頻生成模(mo)型是世界模(mo)擬器(qi)嗎?

或許在某種程度上是,但不一定是人們所想象的方式。它們的生成過程并不以直觀物理的前向時間模擬為條件,就像直觀物理引擎那樣;但它可能受到3D幾何和動態關鍵方面的潛(qian)在(zai)表(biao)示的影響。

從更弱的意義(yi)上說,Sora可能(neng)有(you)(you)一個(ge)有(you)(you)限(xian)的世界模(mo)型(xing)(xing)(xing),就像(xiang)用于圖像(xiang)生(sheng)成的潛在擴散模(mo)型(xing)(xing)(xing)有(you)(you)一個(ge)更有(you)(you)限(xian)的世界模(mo)型(xing)(xing)(xing)一樣。但我們(men)還(huan)不能(neng)確定,除非某個(ge)研(yan)(yan)究(jiu)(jiu)小組以正確的方式對Sora進行研(yan)(yan)究(jiu)(jiu)。OpenAI仍然(ran)偶爾進行可解釋性研(yan)(yan)究(jiu)(jiu),所以還(huan)是有(you)(you)希(xi)望的;我們(men)希(xi)望看到(dao)更廣(guang)泛的研(yan)(yan)究(jiu)(jiu)團隊能(neng)在可解釋性方面(mian)做出努力,比如(ru)(ru)Stable Video這(zhe)(zhe)樣的開源視頻(pin)生(sheng)成模(mo)型(xing)(xing)(xing)。雖然(ran)這(zhe)(zhe)些模(mo)型(xing)(xing)(xing)的能(neng)力遠(yuan)不如(ru)(ru)Sora,但它(ta)們(men)便于研(yan)(yan)究(jiu)(jiu)。

在我(wo)們進(jin)行猜想(xiang)的(de)(de)(de)同時(shi),請(qing)允(yun)許我(wo)對視頻生(sheng)成模(mo)(mo)型的(de)(de)(de)未(wei)來(lai)做(zuo)一個簡單的(de)(de)(de)推測(ce)。我(wo)曾(ceng)說過(guo),Sora并(bing)不(bu)是(shi)一個模(mo)(mo)擬(ni)器,因為它并(bing)不(bu)是(shi)通過(guo)先對場景進(jin)行一系列模(mo)(mo)擬(ni)來(lai)預測(ce)視頻幀的(de)(de)(de)。不(bu)過(guo),也許Sora或其他更強大的(de)(de)(de)視頻生(sheng)成模(mo)(mo)型可以(yi)(yi)在一個更綜合(he)的(de)(de)(de)系統(tong)(tong)中用作模(mo)(mo)擬(ni)器。例如(ru),Genie論文的(de)(de)(de)作者們暗示了(le)類(lei)似的(de)(de)(de)模(mo)(mo)型可以(yi)(yi)用來(lai)為訓(xun)練強化(hua)學習智能(neng)體生(sheng)成多樣化(hua)的(de)(de)(de)模(mo)(mo)擬(ni)環(huan)境。未(wei)來(lai),我(wo)們可以(yi)(yi)想(xiang)象機器人(ren)系統(tong)(tong)將使用三個主(zhu)要組件:

(1)一個大型(xing)的(de)視覺語言模型(xing),用于解析(xi)語言指(zhi)令,將其轉化(hua)為計劃(hua),并對視覺輸入(ru)進行推理;

(2)一個大型(xing)的視(shi)頻(pin)生成(cheng)模(mo)型(xing),用于模(mo)擬未來可(ke)能的觀察結(jie)果(guo),以(yi)進行底層規(gui)劃(hua);

(3)一(yi)個通用的(de)逆(ni)動力學模(mo)型,用于從(cong)這些模(mo)擬中提取合(he)適(shi)的(de)行(xing)動,并據(ju)此(ci)執(zhi)行(xing)計(ji)劃。

也(ye)許(2)和(3)可以(yi)合并到一(yi)個通用的(de)Genie式生(sheng)(sheng)成(cheng)模(mo)(mo)(mo)型(xing)中,該模(mo)(mo)(mo)型(xing)具有內置的(de)(或者學習(xi)到的(de))表(biao)示潛(qian)在動作的(de)能力;也(ye)可以(yi)將這三個模(mo)(mo)(mo)型(xing)合并成(cheng)一(yi)個巨大的(de)Gato式多模(mo)(mo)(mo)態模(mo)(mo)(mo)型(xing),該模(mo)(mo)(mo)型(xing)可以(yi)解析和生(sheng)(sheng)成(cheng)語(yu)言、時空和動作的(de)標記。這些(xie)推測性(xing)的(de)場(chang)景揭示了從(cong)視頻的(de)生(sheng)(sheng)成(cheng)建模(mo)(mo)(mo)到更強大意義上的(de)“世界模(mo)(mo)(mo)擬”之(zhi)間(jian)的(de)路徑。

讓我們(men)以(yi)一個有趣(qu)的(de)(de)開(kai)放(fang)性問題來做個總結。無論視頻生(sheng)(sheng)成(cheng)(cheng)模(mo)(mo)型(xing)在AI和機器人(ren)技(ji)術(shu)的(de)(de)未(wei)(wei)來中扮(ban)演什么角(jiao)色,人(ren)們(men)可能會問,與任何深(shen)度(du)學習模(mo)(mo)型(xing)一樣,它們(men)是否會以(yi)非(fei)表面(mian)的(de)(de)方式與認知科(ke)學相關。正(zheng)如前(qian)(qian)面(mian)討論的(de)(de)那樣,關于人(ren)類(lei)物(wu)理(li)推理(li)在多大程度(du)上依賴于直觀物(wu)理(li)引擎的(de)(de)顯式模(mo)(mo)擬,目(mu)前(qian)(qian)仍未(wei)(wei)達成(cheng)(cheng)共識。也許視頻生(sheng)(sheng)成(cheng)(cheng)模(mo)(mo)型(xing)的(de)(de)進展,以(yi)及未(wei)(wei)來對其作(zuo)(zuo)為基于代(dai)理(li)架構的(de)(de)實(shi)際模(mo)(mo)擬器的(de)(de)可行性研究,會給IPE模(mo)(mo)型(xing)帶來一些壓力。這也可能會引發有趣(qu)的(de)(de)討論,即是否應(ying)將能可靠(kao)模(mo)(mo)擬直觀物(wu)理(li)的(de)(de)神經(jing)網絡作(zuo)(zuo)為端到端學習IPE的(de)(de)核心機制,而(er)不是作(zuo)(zuo)為直觀物(wu)理(li)IPE模(mo)(mo)型(xing)的(de)(de)真正(zheng)替代(dai)品。

無論人(ren)們對Sora和OpenAI持何(he)種觀點,思考(kao)視頻生(sheng)成(cheng)模(mo)型如(ru)何(he)超(chao)越其娛樂價值而與深度學習和認知科學的關(guan)鍵研(yan)究問題相關(guan),都是一件令(ling)人(ren)興奮的事(shi)情(qing)。從GIF生(sheng)成(cheng)器(qi)到世(shi)界模(mo)擬器(qi),我(wo)們拭目(mu)以待。