智東西(公眾號:zhidxcom)
編譯 | 楊蕊伃
編輯 |?漠影

智東西10月11日(ri)消(xiao)息,據VentureBeat報道,北京(jing)大(da)學(xue)、北京(jing)郵電大(da)學(xue)和快手科技(ji)在本(ben)周聯(lian)合開源了(le)一款(kuan)名(ming)為Pyramid Flow的高清視頻(pin)生(sheng)成模(mo)型。Pyramid Flow能(neng)根據文本(ben)描述制作長達10秒(miao)、分辨(bian)率為1280×768、每秒(miao)24幀的視頻(pin)。

Pyramid Flow采(cai)用了金字塔流(liu)匹配算法,優化了視(shi)頻(pin)生成(cheng)的效率和質(zhi)量。這(zhe)一(yi)算法將視(shi)頻(pin)生成(cheng)過程分解為多(duo)個階(jie)段,每個階(jie)段對應著不同(tong)的分辨(bian)率。

在(zai)推理階段(duan),Pyramid Flow模型能夠以(yi)相當快的(de)速度生成視頻(pin)。具體來說(shuo),它可以(yi)在(zai)56秒內生成一(yi)段(duan)時長(chang)為5秒、分(fen)辨率(lv)為384p的(de)視頻(pin),這一(yi)速度與市面上許(xu)多全序列擴(kuo)散模型相當,甚(shen)至更(geng)快。

目前(qian),該(gai)項目已經(jing)在(zai)Hugging Face和GitHub上開源(yuan)。

開源地址:

1、

2、

一、金字塔流匹配算法:高質量AI視頻新技術,逐層提高分辨率

文生視(shi)頻領(ling)域有一個非常(chang)難的技(ji)術挑戰,就是如何(he)有效地處理和生成高維度(du)的視(shi)頻數(shu)據。

針對這一技術(shu)挑戰,Pyramid Flow研發團隊(dui)提出了金字塔流匹配算法。

金字塔(ta)流匹配算(suan)法的核心思想是將視頻生成過程分(fen)解為多個(ge)階段(duan)來有效處理高維度的視頻數據。這些(xie)階段(duan)從(cong)低分(fen)辨率(lv)(lv)開始,逐步升(sheng)級到高分(fen)辨率(lv)(lv),從(cong)而逐步提升(sheng)視頻的清晰度。

這個過程就像是(shi)先畫(hua)(hua)一(yi)個簡單的草圖,然后(hou)一(yi)點點地加上顏色(se)和細節,直到畫(hua)(hua)出一(yi)幅完整的畫(hua)(hua)。

北大、快手開源視頻生成模型Pyramid Flow,1分鐘生成5秒視頻

▲金字塔(ta)流匹配算法(fa):視頻的生成是(shi)在不同的分(fen)辨率層次上(shang)逐步進行的(圖源:arxiv論文截圖)

二、開源數據集訓練,Pyramid Flow生成5-10秒高清視頻

Pyramid Flow模型通過分階段的方式生成視頻(pin),大大減少了(le)計算成本。

▲Pyramid Flow生成的視頻展示(shi)(圖源:Pyramid Flow官網)

與傳統的擴散模(mo)型相(xiang)比,Pyramid Flow的金字(zi)塔流匹配算法將token數(shu)量(liang)減少了4倍(bei)。

▲Pyramid Flow生(sheng)成(cheng)的視(shi)頻(pin)展示(圖源:Pyramid Flow官網)

據官網(wang)介紹(shao),該模(mo)型可以在768p分辨率和每秒24幀的條件下生成5至10秒的視頻,并且(qie)是基于開源數(shu)據集進(jin)行訓練的。

▲Pyramid Flow生成的視頻(pin)展(zhan)示(shi)(圖源:Pyramid Flow官網)

具體(ti)來說,Pyramid Flow在訓練時(shi)用(yong)到的(de)數據集包(bao)括LAION-5B、CC-12M、SA-1B以及WebVid-10M和OpenVid-1M等(deng)。

1、LAION-5B:一個用于多(duo)模態AI研究(jiu)的大型(xing)數據集。

2、CC-12M:一個由網絡爬蟲收(shou)集(ji)的圖(tu)像(xiang)文本(ben)對的數據集(ji)。

3、SA-1B:具有高質(zhi)量、無模糊圖像(xiang)的(de)數(shu)據集。

4、WebVid-10M和(he)OpenVid-1M:兩個被廣泛用于文本到視(shi)頻生成(cheng)的視(shi)頻數據(ju)集。

三、寬松許可,Pyramid Flow開源商業用途,輕松實現視頻微調

Pyramid Flow是(shi)開源的(de)AI視頻生成工(gong)具,它允許用戶用在商業項目里,但(dan)須保留版(ban)權聲明。

▲Pyramid Flow生成的(de)視(shi)頻展示(圖源:Pyramid Flow官網(wang))

通(tong)過使用Pyramid Flow,用戶可(ke)以(yi)免費調整視(shi)頻細節,這(zhe)項功能(neng)對于電影制(zhi)片(pian)廠來說很有吸引力。

電影制(zhi)片(pian)廠可以通(tong)過使用(yong)Pyramid Flow來提高(gao)視(shi)頻(pin)制(zhi)作(zuo)效(xiao)率、降低視(shi)頻(pin)制(zhi)作(zuo)成本,并探索新的視(shi)頻(pin)創意(yi)工具。

不(bu)過,要想(xiang)充分利用好這一模型(xing),電影制片廠還(huan)需(xu)要具備一定的開(kai)發(fa)人才和計算資源(yuan)。

目前,Pyramid Flow缺乏像Runway Gen-3 Alpha這樣的模(mo)型(xing)所具(ju)備(bei)的一(yi)些高級微調功(gong)能,比如(ru)精(jing)確控制攝(she)像機角度(du)、關鍵幀和人體姿態(tai)等電影元素(su)。

▲Pyramid Flow生成的視頻展示(圖源:Pyramid Flow官(guan)網(wang))

▲Pyramid Flow生(sheng)成的視頻(pin)展示(圖源(yuan):Pyramid Flow官網(wang))

▲Pyramid Flow生成的視頻展示(圖源:Pyramid Flow官網)

來(lai)源:VentureBeat、Pyramid Flow官網、arxiv