
智東西(公眾號:zhidxcom)
作者 | GenAICon 2024
2024中國生成式AI大會于(yu)4月18-19日在(zai)北京(jing)舉(ju)行,在(zai)大會第二天的主會場AI Infra專場上,新加坡國立大學校長青(qing)年(nian)教授、潞晨科技創始人兼董事長尤洋以《技術共享(xiang):類Sora開源架構(gou)模型與訓練細節》為題發表(biao)演講。
潞晨科技在今年3月開源的全球首個類Sora視頻生成模型Open-Sora,是迄今GitHub上獲得星標數最高的開源視頻大模型項目之一,截至發稿前已有1.6萬個星標,用戶群體遍及全球。
值得一提的是,這個模型在低成本下訓練而成,相比Sora耗費數千張H100 GPU、花費數千萬美元乃至數億美元,Open-Sora的訓練成本僅不到1萬美元。
尤洋認為,視頻生成正處于“GPT-2時刻”,還沒有出現成熟的應用。對于視頻生成模型來說,數據可能是最核心的資產。他還談到,模型開源是有意義且重要的。正如Meta最新發布的(de)Llama 3,極(ji)大地調動了開(kai)源社區的(de)積極(ji)性,不(bu)但造福大量開(kai)發者,更有(you)助(zhu)于(yu)開(kai)源社區整體(ti)的(de)繁(fan)榮。
因此,Open-Sora模型也進行了全面的訓練流程開源,開源了包括模型架構、模型權重、訓練細節、數據處理在(zai)內(nei)的(de)(de)多(duo)項技術細節,讓更多(duo)的(de)(de)開發者可(ke)以嘗試Open-Sora模型,共同迭(die)代與升級。
在演講期間,他詳細解讀了成功復現類Sora視頻生成模型的四個關鍵要素,并分享了Open-Sora的底(di)層(ceng)架(jia)構、demo和教程。
在他看來,考慮到成本壓力,視頻生成模型將分為大規模圖像預訓練、大規模視頻預訓練、高質量視頻數據微調三個階段。在模型設計上,時空分割處理將是顯著降低視頻生成模型計算成本和內存壓力的關鍵一步。他還提到,Open-Sora未來的發展方向主要在于完善數據處理流程以及訓練視頻壓縮Encoder。
以下為尤洋的演講實錄:
我演講的主題(ti)是最近做(zuo)的Open-Sora,希望(wang)幫助更多中小企業以及研究人員去快速地復(fu)現(xian)類似Sora這(zhe)樣的視頻生成模型(xing)。
首先(xian)簡要介紹(shao)一下我(wo)(wo)的(de)(de)技(ji)術背景(jing)。這張照片拍攝自我(wo)(wo)博士畢業答辯時,圖中的(de)(de)人物包括我(wo)(wo)在加州(zhou)大學伯克利分(fen)校(xiao)的(de)(de)幾(ji)位教(jiao)授(shou),他們的(de)(de)專(zhuan)業背景(jing)主要集(ji)中在高性能計算(HPC)和計算機視(shi)覺(CV)領域。HPC的(de)(de)目標(biao)是(shi)(shi)提(ti)高模型訓(xun)練的(de)(de)效(xiao)率(lv),即(ji)用成百上千的(de)(de)處理(li)器卡(ka)來加快訓(xun)練速度。CV則是(shi)(shi)視(shi)頻生成模型的(de)(de)關鍵技(ji)術之一,這與我(wo)(wo)的(de)(de)個(ge)人技(ji)術背景(jing)非常相似。
目前,我們了解到大模型對計算能力的需求非常高,特別是在今天的Infra專場中,我們可以預見,未來對算力要求最高的模型可能會是視頻生成模型。
今天我的分享旨在拋磚引玉,我認為視頻生成模型目前還處于一個相對早期的發展階段,其情形有點類似于視頻領域的GPT-2時期。市場上(shang)尚未出現一(yi)(yi)個完(wan)全(quan)成(cheng)熟且廣(guang)泛可用(yong)的(de)視頻(pin)生成(cheng)應用(yong)。因此,我將分享我們在這(zhe)一(yi)(yi)領域的(de)一(yi)(yi)些(xie)初步探索成(cheng)果,并(bing)希望(wang)這(zhe)能激發大(da)家(jia)的(de)興趣,進而深入(ru)探討。
本次演講將分為幾個部分。首先,我會簡單介紹Open-Sora模型,以及與之相關的OpenAI Sora。需要明確的是,盡管我們稱之為Open-Sora,也確實采用了類似于OpenAI技術報告中類似的技術,但它實際上是一個不同的模型。然后我(wo)將(jiang)介紹Open-Sora的(de)技術要點、性能表(biao)現,以及我(wo)們對未來發(fa)展的(de)規劃。
一、未來人人都能成為導演,視頻生成有顛覆教育和技術傳播的潛力
大家(jia)都看過Sora的(de)Demo視頻(pin),其效果確實令人震(zhen)撼。未來(lai),我們可(ke)能(neng)會進入一個每個人都能(neng)成為導演的(de)時代,每個人都能(neng)夠迅速生成自己想要的(de)視頻(pin)或(huo)故事,并且通過視頻(pin)這(zhe)種形式進行學(xue)習(xi),這(zhe)很可(ke)能(neng)比傳(chuan)統的(de)文字學(xue)習(xi)效率要高得多。
如果我(wo)們需要(yao)了解某個問題(ti),能否讓AI為(wei)(wei)我(wo)們生成一段視頻(pin)(pin),以便快(kuai)速掌握相關知識呢?我(wo)認為(wei)(wei)視頻(pin)(pin)生成技術有潛力顛覆教(jiao)育和技術傳播領域。
在Sora模型之前(qian),市場上已經(jing)存(cun)在一些(xie)視頻(pin)生成(cheng)工具,例(li)如Pika、RunwayML、Stable Video等(deng)。然而,Sora在視頻(pin)長(chang)度(du)上實現了顯著的(de)突(tu)破,超越了之前(qian)所有頂尖產品,因(yin)此其(qi)效(xiao)果(guo)還是非常(chang)驚艷的(de)。Sora的(de)應用(yong)前(qian)景非常(chang)可(ke)觀(guan),可(ke)以(yi)涵蓋游戲、藝術、媒(mei)體創(chuang)作、藥物研發、市場營銷和(he)教育等(deng)多個領域。甚至在未來,許多物理(li)模擬領域也(ye)可(ke)能采用(yong)視頻(pin)生成(cheng)模型。
盡管如此,視頻生成技術目前尚未廣泛普及。我們希望能大幅降(jiang)低制(zhi)(zhi)作(zuo)電(dian)(dian)影或(huo)視(shi)頻的(de)(de)成(cheng)本。以今(jin)天的(de)(de)標準,制(zhi)(zhi)作(zuo)一部優秀的(de)(de)電(dian)(dian)影可能需要高達五千萬美元(yuan)的(de)(de)投(tou)資,這顯然限(xian)制(zhi)(zhi)了(le)普通(tong)人參與的(de)(de)可能性。但如果未來有了(le)先進的(de)(de)視(shi)頻生成(cheng)模型,我們只(zhi)需向AI描(miao)述我們的(de)(de)想法,它就能為我們生成(cheng)一部高質量(liang)的(de)(de)動畫片或(huo)電(dian)(dian)影。
只有達到這樣的水平,視頻生成模型的真正價值(zhi)才能得到最大化的體現。
二、介紹首個類Sora開源視頻生成模型,成功復現Sora有四個關鍵要素
在介紹了Sora及其影響力后,第二部分介紹一下Open-Sora。
Open-Sora是(shi)一(yi)(yi)個開源的視頻生(sheng)成模型項目,我們的目標是(shi)將(jiang)模型的重(zhong)要部分都公之于眾,以便(bian)社區能進(jin)一(yi)(yi)步發(fa)展這一(yi)(yi)技術。
要成功(gong)復現視(shi)頻生(sheng)成模(mo)型,主要包括幾個部分。
首先,需要了解模型的架構,比(bi)如我到底用的是Diffusion、Llama、GPT還是BERT,不同的架構(gou)決定(ding)我模型(xing)基本(ben)的骨架。
其次,一旦模型訓練完成,分享訓練得到的權重也是非常重(zhong)要的(de)(de)。這意味著其(qi)他人可以(yi)直接(jie)拿(na)來用(yong),而不需要從頭(tou)開始訓練(lian)(lian)模型(xing)。例如Meta剛剛開放了(le)Llama 3,盡管(guan)4000億參(can)數版本還(huan)沒有完(wan)全(quan)訓練(lian)(lian)完(wan)成,但已經可以(yi)從中看到很好的(de)(de)效果。通(tong)過分(fen)享這些權重(zhong),社區可以(yi)快速(su)地將模型(xing)部署到各(ge)種應用(yong)中。
通過這種(zhong)開(kai)放的(de)(de)方式,我們希望能(neng)夠(gou)促進視頻生成(cheng)技術的(de)(de)創(chuang)新(xin)和(he)普及,讓更(geng)多有興(xing)趣的(de)(de)研(yan)究者(zhe)和(he)開(kai)發(fa)者(zhe)能(neng)夠(gou)參與進來,共同推(tui)動這一領域的(de)(de)發(fa)展。
第三點非常關鍵,它涉及到開源模型的透明度和可控性。
雖然現有的(de)一些開(kai)源模型(xing),如Llama 1和Llama 2,已(yi)經公開(kai)了模型(xing)參數(shu)和使(shi)用(yong)方(fang)式,但它們并沒(mei)有公開(kai)訓(xun)練過(guo)程(cheng)的(de)具(ju)體(ti)細節,包(bao)括超參數(shu)的(de)設置(zhi)。這(zhe)導(dao)致了我們無法完全復現其預訓(xun)練過(guo)程(cheng),也就是說(shuo),模型(xing)的(de)預訓(xun)練并不(bu)是百分(fen)百自主可(ke)控(kong)的(de)。
我們認為,如果未來的視頻生成大模型能夠實現百分之百的自主可控,那么將能更有效地激發和調動整個行業的生產力。
此外,數據處理也是決(jue)定模(mo)型(xing)性能的一(yi)個關鍵因素。
通過審視OpenAI的技術報告,我們可以發現,盡管在模型架構和算法方面,OpenAI并沒有特別強調其創新性,沿用了如Video Diffusion等現有模型,但OpenAI在數據方面做得非常出色。高質量的數據是決定視頻生成效果的直接因素,因此,數據處理方式和數據集的質量極為關鍵。
三、解讀STDiT架構核心思想,將成本控制在1萬美元
我將展(zhan)示(shi)一些我們的(de)demo和教程,這將涵蓋開源模型的(de)幾個重要組成部分(fen)。
從技術角度來看,Open-Sora模型采用了STDiT架構。我們選擇STDiT的主要原因是考慮到成本效益。我們的目標是將Open-Sora的成本控制在1萬美金或者更少。
STDiT架構的核心思想在于它包含時間維度的Self Attention和空間維度的Self Attention,這兩個方面是分開處理的,而不是合并計算,這樣的設計可以顯著降低模型的訓練和推理成本。相比于DiT模型,STDiT在成本上有著顯著的優勢,而且在相同的硬件條件下,其吞吐量也更高,這對于提升模型效率來說是非常有利的。
在架(jia)構方面(mian),我們(men)的創新點并不是特別多,核心思(si)想(xiang)仍然與DiT的架(jia)構相(xiang)似。具體來說,處理視(shi)(shi)頻的流程是這樣的:首先,我們(men)獲(huo)取一個視(shi)(shi)頻,然后通過Encoder將其壓縮到(dao)Latent Space中(zhong),這樣視(shi)(shi)頻就可以在這個空間中(zhong)進行交互和處理。這種方法(fa)實際上與文本(ben)到(dao)圖像生成的技術(shu)非(fei)常相(xiang)似。
我們對文生圖的概念并不陌生。我們首先對視頻進行壓縮,目的是為了將其轉換到潛在空間中。壓縮有兩個主要目的:首先,原始(shi)視(shi)頻(pin)(pin)(pin)文(wen)件可(ke)能非常大,直接處理它們(men)成本(ben)太高(gao);其次,我們(men)的目(mu)標是生(sheng)成特定的視(shi)頻(pin)(pin)(pin)內(nei)(nei)容(rong)(rong),比如(ru)(ru)一只(zhi)狗在(zai)雪(xue)地里追雪(xue)球的場景。如(ru)(ru)果(guo)我們(men)不(bu)進(jin)行壓縮,而是直接在(zai)原始(shi)視(shi)頻(pin)(pin)(pin)上操作,可(ke)能會生(sheng)成不(bu)符合要求的內(nei)(nei)容(rong)(rong),比如(ru)(ru)生(sheng)成了(le)一只(zhi)老(lao)虎或一只(zhi)貓(mao),即(ji)使視(shi)頻(pin)(pin)(pin)質(zhi)量再高(gao),如(ru)(ru)果(guo)內(nei)(nei)容(rong)(rong)不(bu)是我們(men)想要的,那么(me)這樣的結果(guo)顯然是不(bu)可(ke)接受的。
通過這種方式,我們可以更有效地控制視頻生成的過程,確保生成的視頻內容符合我們的預期和需求。這種方法不僅降低了處理成本,而且提高了生成視頻的準確性和相關性。
在潛在空間中,我們需要融入人類的指令,這些指令通常通過自然語言處理來實現。然而,自然語言數據類型并不能直接與視頻信息進行交互。因此,潛在空間的第二個關鍵作用是將自然語言也轉換到這個空間中。這樣潛(qian)在空(kong)(kong)間就包含了(le)視(shi)覺信(xin)息和文本信(xin)息,使得這兩類(lei)信(xin)息能夠在該空(kong)(kong)間內進行交互。這是我們壓縮視(shi)頻并將其轉換到潛(qian)在空(kong)(kong)間的兩個主要目的。
完成(cheng)這一(yi)過程后,我們(men)的工作流程與文(wen)(wen)本到圖像生(sheng)(sheng)(sheng)成(cheng)技(ji)術非(fei)常相似。文(wen)(wen)本到視頻(pin)生(sheng)(sheng)(sheng)成(cheng)本質(zhi)上是文(wen)(wen)本到圖像生(sheng)(sheng)(sheng)成(cheng)的一(yi)種擴(kuo)展,因為視頻(pin)可以被視為一(yi)系列圖片的集合。在這種情況下,我們(men)仍(reng)然需(xu)要借鑒許多(duo)文(wen)(wen)本到圖像生(sheng)(sheng)(sheng)成(cheng)的技(ji)術。
具體到實現方式,與擴散模型的做法非常相似,我們通過引入高斯噪聲來生成(cheng)所需(xu)的(de)視頻(pin)。首先,在(zai)潛在(zai)空(kong)(kong)間(jian)中隨(sui)機采樣一(yi)個高(gao)斯噪聲,然(ran)后將這個噪聲與人類的(de)指令一(yi)起輸入模型(xing),模型(xing)據此生成(cheng)視頻(pin)。最后,我們將生成(cheng)的(de)視頻(pin)從潛在(zai)空(kong)(kong)間(jian)解碼回原始的(de)三(san)維空(kong)(kong)間(jian),完(wan)成(cheng)整(zheng)個生成(cheng)過(guo)程。
四、視頻生成模型三階段:圖像預訓練,視頻預訓練,高質量視頻數據微調
至于如何實現這一技術,考慮到成本的壓力,我們可以將其分為三個階段進行。
盡管今(jin)天(tian)介紹(shao)的(de)技術在未(wei)來十年或二(er)十年可(ke)能(neng)(neng)會被新的(de)技術所取代(dai),但在當前算力有限(xian)的(de)情況(kuang)下,我們可(ke)能(neng)(neng)需要采取分階(jie)段的(de)方法來訓練高(gao)質(zhi)量(liang)的(de)視(shi)頻模型。直接使用高(gao)質(zhi)量(liang)視(shi)頻數(shu)據訓練視(shi)頻模型的(de)成本(ben)可(ke)能(neng)(neng)高(gao)達數(shu)千(qian)萬甚至數(shu)億美元,這顯(xian)然限(xian)制了大多數(shu)人參與的(de)可(ke)能(neng)(neng)性(xing)。
在成(cheng)(cheng)本(ben)受限的現實條件下,我們(men)的策略(lve)是,首(shou)先找到(dao)(dao)一(yi)(yi)個不錯(cuo)的文(wen)本(ben)到(dao)(dao)圖像(xiang)生成(cheng)(cheng)模型(xing),這(zhe)類模型(xing)目前比(bi)較容易獲取,市場上也(ye)有很多(duo)選(xuan)擇,當然我們(men)也(ye)可以自(zi)己訓練一(yi)(yi)個。
第(di)二階段,有了文生圖模型,再給(gei)它(ta)大量(liang)視頻做初(chu)始訓練,讓它(ta)對視頻世界有很好的理解。
第三階段(duan),用高質量、精挑的(de)(de)視(shi)頻(pin)提升它的(de)(de)視(shi)頻(pin)質量。這種思想在大模型領域已經用了七(qi)八(ba)年,早在2018年、我們訓(xun)(xun)練(lian)(lian)BERT的(de)(de)時候,BERT訓(xun)(xun)練(lian)(lian)也是分兩個階段(duan),第一(yi)階段(duan)sequence是128,第二階段(duan)的(de)(de)sequence是512。短序列上讓它對自然語言有基本的(de)(de)理解,再在長序列上微調(diao),給它一(yi)個更好(hao)的(de)(de)生成效果,這些其實都(dou)是出于成本的(de)(de)壓(ya)力才(cai)這樣操作(zuo)的(de)(de)。
理論(lun)上(shang)(shang)我們(men)有無限算(suan)力的(de)話,我們(men)應該直接拿最(zui)好的(de)數(shu)據讓它(ta)去(qu)訓(xun)(xun)練。包括Llama、GPT,它(ta)們(men)訓(xun)(xun)練時也都(dou)參考(kao)了類似(si)的(de)思(si)路,先在短序(xu)列(lie)上(shang)(shang)大規模訓(xun)(xun)練,之后再(zai)在長(chang)序(xu)列(lie)或者更好的(de)數(shu)據上(shang)(shang)去(qu)做微(wei)調,提升最(zui)終的(de)模型生成質(zhi)量。
具體而言,我們可以看一下三個階段究竟是怎么操作的。
第一個(ge)階段還比較(jiao)簡單,現在有很多(duo)文生圖的模型,即便不(bu)(bu)自(zi)己訓練,也(ye)可能找(zhao)一些(xie)不(bu)(bu)錯的文生圖模型,它其實就是我(wo)的基準(zhun),我(wo)從起點開始去構造我(wo)的整個(ge)方案。我(wo)們改造Stable Diffusion,可以(yi)快速把(ba)這件事完成(cheng)。
第二階段(duan),現(xian)(xian)在有(you)了基(ji)本對三維世(shi)(shi)界的理解(jie),文生(sheng)(sheng)圖(tu)本質上還是(shi)對自然語言指令信息轉(zhuan)到三維世(shi)(shi)界,有(you)一個基(ji)本的能(neng)力之(zhi)后,現(xian)(xian)在我希望它每秒鐘能(neng)生(sheng)(sheng)成很多(duo)(duo)圖(tu),每秒鐘生(sheng)(sheng)成60張圖(tu)就是(shi)一個視頻(pin)(pin)了。這種情(qing)況下,再(zai)進一步給它很多(duo)(duo)視頻(pin)(pin)數(shu)據讓它訓(xun)練。
我(wo)們的(de)創(chuang)新點(dian)有兩部分,用了(le)STDiT,有時間(jian)信(xin)息(xi)和空間(jian)信(xin)息(xi),我(wo)們新加了(le)時間(jian)上(shang)的(de)Attention模塊(kuai),因(yin)為本(ben)身已經有空間(jian)上(shang)的(de)Attention模塊(kuai)。比(bi)如空間(jian)上(shang)就(jiu)是S,時間(jian)上(shang)就(jiu)是T,現在有一個(ge)(ge)S和T,S是已經訓得差不多了(le),T剛剛開始。S相當于(yu)是一個(ge)(ge)初中生,T相當于(yu)是一個(ge)(ge)嬰(ying)兒,但現在我(wo)們希望S和T都(dou)能(neng)達(da)到大學生的(de)水(shui)平。
有時我們會采用一種混合訓練的方法,即將成熟度不同(tong)的模型一(yi)起(qi)訓練。這種(zhong)方法聽起(qi)來可(ke)能(neng)(neng)有些(xie)冒險,因為S可(ke)能(neng)(neng)已經相當于一(yi)個初中(zhong)生,而T可(ke)能(neng)(neng)還只是一(yi)個剛剛起(qi)步(bu)的嬰(ying)兒。如果將它(ta)們放在一(yi)起(qi)訓練,可(ke)能(neng)(neng)會擔心(xin)它(ta)們無(wu)法跟上對(dui)方學習(xi)的節奏。
然而,現代的大型模型擁有龐大的參數量,這使得它們能夠通過適當的調整迅速自適應不同的學習速度。在這種情況下,盡管S模型最初學習速度較慢,但T模型可以快速增長,最終兩者都能迅速達到相同的水平,最終都能達到相當于大學生的能力水平。
即(ji)使我(wo)們沒有自己的(de)S模型,也可以(yi)利用(yong)一些(xie)現有的(de)資源。當(dang)我(wo)們引入T模型后(hou),通過適當(dang)的(de)整合和調整,可以(yi)顯(xian)著提升整體系統的(de)性能(neng)。
這種策略體現了深度學習模型訓練的靈活性和適應性,通過合理的設計和調整,即使是成熟度不同的模型也能夠協同工作,最終實現性能的共同提升。
當我(wo)們擁有了視(shi)頻生成(cheng)模型(xing)之后,接下(xia)來(lai)的(de)第(di)三部(bu)分工作是使用更高質量的(de)視(shi)頻數據對模型(xing)進行精(jing)調。
這里的(de)(de)核心區(qu)別在于,第三部分(fen)生成(cheng)的(de)(de)視頻在質量上將顯(xian)著優(you)于第二部分(fen)。盡管(guan)第二部分(fen)的(de)(de)模(mo)型已(yi)經(jing)對三維視覺世界有了(le)一定(ding)的(de)(de)理解(jie),但其生成(cheng)的(de)(de)視頻質量仍有提(ti)升空間,這也(ye)正(zheng)是(shi)我們進行第三階段工作的(de)(de)原因。
在這一過程中,還有一個關鍵點值得注意,即我們在OpenAI的技術報告中發現,他們使用了多模態版本的GPT-4來進行視頻描述,但這種方法的成本較高。為了降低成本,我們轉而采用了開源的LLaVA 1.6模型來(lai)進行(xing)視頻描述任(ren)務。LLaVA 1.6是(shi)基于E34B數據(ju)集訓練的,如果大家對(dui)此(ci)感興(xing)趣,可(ke)以進一步了解(jie)和探索。
通過使用LLaVA 1.6,我們能夠在保持描述質量的同時,減少計算資源的消耗。這種(zhong)方法不僅有(you)助(zhu)于提升(sheng)最終視頻(pin)產品的質量,也使得整(zheng)個視頻(pin)生成過程更加高效和經濟,從而為更廣泛的應用(yong)場景(jing)和用(yong)戶群體提供(gong)了可能性。
五、如何將成本降到最低?時空分割是關鍵一步
介紹完整體的模型、算法、設計流程之后,接下來考慮如何把成本降到最低。
要想把成本控制在1萬美金左右,顯然我們不能用太多的GPU,我們可以簡單地做一筆數學計算。現在H800一臺月租8萬-10萬人民幣,假設有8臺H800,每月的租金就要80萬,如果用20臺,每月的租金大概需要200萬。要想一次性試驗成本控制在10萬以下,只能用8臺H800 64個H800GPU,就需要把速度、效率破到最高。
之前我們打造了Colossal-AI系統,從三個角度,高效的內存優化、N維并行系統、低延遲推理,通過Colossal-AI進一步實現2-4倍的加速。
訓練過程中,一個關鍵因素是它們需要處理的序列長度通常非常長。無論(lun)是國內還是美國的(de)大(da)模(mo)型,研究者們(men)都在努力擴展模(mo)型的(de)序列長度(du),以(yi)(yi)期獲得更高的(de)預(yu)測精度(du)。以(yi)(yi)GPT模(mo)型為(wei)例,其損失函數(shu)依賴于一個窗(chuang)口(kou)的(de)信息(xi)來預(yu)測下(xia)一個詞(ci)的(de)概率,窗(chuang)口(kou)越大(da),即包含的(de)信息(xi)越多,預(yu)測的(de)準確(que)性也(ye)就越高。
對于視頻生成模型(xing)而言(yan),即便是(shi)較短的(de)視頻,其(qi)序列長度,這里指的(de)是(shi)幀(zhen)(zhen)數(shu),即每秒鐘包(bao)含的(de)畫面數(shu)量,也可能是(shi)巨大(da)的(de)。例如(ru),即便是(shi)每秒24幀(zhen)(zhen)的(de)視頻,如(ru)果幀(zhen)(zhen)率提高到(dao)60,那么在數(shu)據訓練(lian)中(zhong)的(de)長度可能達到(dao)150萬tokens,這將(jiang)導致計(ji)算和(he)內存開銷急劇增加。
因此,將時間信息和空間信息進行分割處理是非常關鍵的一步。通(tong)過時空(kong)分(fen)割,我們可以顯(xian)著(zhu)降低計算(suan)成(cheng)本和內存壓力。具體(ti)來說,這意味著(zhu)我們不(bu)是(shi)同時計算(suan)時間(jian)(jian)(jian)信息和空(kong)間(jian)(jian)(jian)信息,而是(shi)分(fen)步(bu)驟進(jin)行(xing),先處理(li)時間(jian)(jian)(jian)維(wei)度(du),再處理(li)空(kong)間(jian)(jian)(jian)維(wei)度(du),這樣可以大幅提(ti)升處理(li)效率。
通過這種方法,我們可以更高(gao)效地訓練(lian)視頻生成模型,同時控制計(ji)算(suan)資源的消耗,使得(de)模型訓練(lian)變得(de)更加可行,即(ji)使是在資源有限的情(qing)況下。
經過我們的優化之后,訓練策略提升了很大。從右圖可以看出,即使在8個GPU上訓練速度也提升了16%,尤其在Encoder部(bu)分,計算密集(ji)型(xing)任務也實(shi)現(xian)了顯著(zhu)加速。
六、低成本模型能生成20秒視頻,Open-Sora已獲得1.4萬個GitHub星標
最后展(zhan)示下我們的(de)demo。我們的(de)demo遠差于OpenAI,主要(yao)有(you)兩個原因:
首先,我們的demo是在低成本條(tiao)件下(xia)完成(cheng)的(de)(de),OpenAI使用了(le)2000到4000個H100 GPU,花費了(le)五(wu)千萬(wan)(wan)美元到兩億美元,而我(wo)(wo)們(men)僅用了(le)不到1萬(wan)(wan)美金進行(xing)試(shi)驗。在如此有限的(de)(de)預算下(xia),我(wo)(wo)們(men)取得的(de)(de)效果(guo)是可接受的(de)(de)。
其次,我們沒有使用大量的數據。通常數據質量越高,生成(cheng)的視(shi)頻質量越好(hao)。如(ru)果我(wo)們采(cai)用更好(hao)的數據集,我(wo)們目(mu)前的內(nei)部版本能(neng)夠生成(cheng)大約20秒的視(shi)頻。這是一個在成(cheng)本受限條(tiao)件下的演示版本,感興趣的朋友(you)可以(yi)在我(wo)們GitHub頁(ye)面上查看更多信息。
Open-Sora目前在視頻大模型開源領域中是GitHub上獲得星標數最高的項目之一。自從我們在3月3日開源以來,已經獲得了1.6萬個星標,用戶群(qun)體遍布全球,包括中國、美(mei)國、歐洲、印(yin)度和東南(nan)亞(ya)。
我們的發展方向包括完善數據處理流程。我再次強調,對于視頻生成模型來說,數據可能是最核心的資產。雖然算法大多是公開的,比如STDiT、DiT或Video Diffusion,大家使用的算法和模型結構相似,結果也不會有太大差異。但是,如果數據質量有顯著差異,那么模型的質量也會有很大差別。因此數(shu)據處理流程非(fei)常關(guan)鍵。
此外,視頻壓縮和編碼也非常重要,如(ru)何(he)將視(shi)覺(jue)信(xin)息(xi)有效(xiao)地轉換到潛(qian)在空間,以及潛(qian)在空間是否能夠準確表達(da)視(shi)頻(pin)內容的所(suo)有信(xin)息(xi),這(zhe)對于模(mo)型的推理和學(xue)習過(guo)程至關重(zhong)要。
以上是尤洋演講內容的完整整理。