智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 心緣

智東西7月28日報道,剛剛,阿里開源視頻生成模型通義萬相Wan2.2,包括文生(sheng)視(shi)頻Wan2.2-T2V-A14B、圖生(sheng)視(shi)頻Wan2.2-I2V-A14B和統(tong)一視(shi)頻生(sheng)成Wan2.2-IT2V-5B三款模型(xing)。

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

其中,文生視頻模型和圖生視頻模型為業界首個使用MoE架構的視頻生成模型,總參數量為27B,激活參數14B,在同參數規模下可節省約50%的計算資源消耗,在復雜運動生成、人物交互、美學表達等(deng)維度上取得(de)了顯著提升。5B版(ban)本統(tong)一視(shi)頻(pin)生成模型(xing)同時支持文生視(shi)頻(pin)和圖生視(shi)頻(pin),可在消費級(ji)顯卡部署,是(shi)目前24幀每秒、720P像(xiang)素級(ji)的(de)生成速(su)度最快的(de)基礎模型(xing)。

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

▲通義萬相Wan2.2生成的視頻

此外,阿里通義萬相團隊首次推出電影級美學控制系統,將光影、構圖、色彩等要素編碼成60多個直觀(guan)的參數并裝進生成模型。Wan2.2目(mu)前單次可(ke)生成5s的高(gao)清視頻,可(ke)以隨意組(zu)合60多個直觀(guan)可(ke)控(kong)的參數。

官方測試(shi)顯示,通義萬相Wan2.2在(zai)運(yun)動質量、畫面質量等(deng)多項(xiang)測試(shi)中(zhong)超(chao)越了OpenAI Sora、快手Kling 2.0等(deng)領先的閉源商業(ye)模型(xing)。

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

業界首個使用MoE架構的視頻生成模型有哪些技術創新點?5B版本又是如何實現消費級顯卡可部署的?通過對(dui)話(hua)通義萬相相關技術負責人,智東西對(dui)此(ci)進行(xing)探(tan)討解讀。

目前,開發者可(ke)在GitHub、HuggingFace、魔搭社區下載(zai)模(mo)型和(he)代碼(ma),企業(ye)可(ke)在阿里云百煉調用模(mo)型API,用戶還(huan)可(ke)在通義(yi)萬相官網(wang)和(he)通義(yi)APP直接體驗。

GitHub地址:
//github.com/Wan-Video/Wan2.2
HuggingFace地址:
//huggingface.co/Wan-AI
魔搭社區地址:
//modelscope.cn/organization/Wan-AI

一、推出首個MoE架構視頻生成模型,5B版本消費級顯卡可跑

根據官方介紹,通義萬相Wan2.2的特色包括光影色彩及構圖達到電影級,擅長生成復雜運動等,首先來看幾個視頻生成案例:

提示詞1:Sidelit, soft light, high contrast, medium shot, centered composition, clean single subject frame, warm tones. A young man stands in a forest, his head gently lifted, with clear eyes. Sunlight filters through leaves, creating a golden halo around his hair. Dressed in a light-colored shirt, a breeze plays with his hair and collar as the light dances across his face with each movement. Background blurred, featuring distant dappled light and soft tree silhouettes.

(側光(guang)照明,光(guang)線柔和(he)(he),高對比度,中(zhong)景鏡頭,居中(zhong)構圖,畫(hua)面簡潔且主(zhu)體單一(yi)(yi),色(se)調溫(wen)暖。一(yi)(yi)名年輕男子佇(zhu)立(li)在(zai)森林(lin)中(zhong),頭部微微上揚,目光(guang)清澈(che)。陽光(guang)透過樹葉灑落(luo),在(zai)他(ta)(ta)發間勾勒出一(yi)(yi)圈金(jin)色(se)光(guang)暈(yun)。他(ta)(ta)身著(zhu)淺(qian)色(se)襯(chen)衫,微風(feng)拂動著(zhu)他(ta)(ta)的(de)(de)發絲與(yu)衣領,每(mei)一(yi)(yi)個細微的(de)(de)動作都讓光(guang)影在(zai)他(ta)(ta)臉上流轉跳躍(yue)。背景虛化,隱(yin)約(yue)可見(jian)遠處斑駁(bo)的(de)(de)光(guang)影和(he)(he)樹木柔和(he)(he)的(de)(de)剪(jian)影。)

視頻輸出的gif截取:

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

提示詞2:A man on the run, darting through the rain-soaked back alleys of a neon-lit city night, steam rising from the wet pavement. He’s clad in a drenched trench coat, his face etched with panic as he sprints down the alley, constantly looking over his shoulder. A chase sequence shot from behind, immersing the viewer deeply, as if the pursuers are right behind the camera lens.

(一個(ge)在逃的(de)男人,在霓虹燈點亮的(de)城市夜色中,沖過被雨水浸透的(de)后巷(xiang),潮濕的(de)路面上蒸騰起霧氣。他(ta)裹(guo)著一件濕透的(de)風衣(yi),臉上刻滿(man)驚慌,順著巷(xiang)子狂(kuang)奔,不(bu)斷回頭(tou)張(zhang)望。這段追逐戲從后方拍攝(she),將(jiang)觀(guan)眾(zhong)深(shen)深(shen)帶(dai)入情境,仿佛(fo)追捕(bu)者(zhe)就(jiu)在鏡頭(tou)背后。)

視頻輸出的gif截取:

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

提示詞3:A purely visual and atmospheric video piece focusing on the interplay of light and shadow, with a corn train as the central motif. Imagine a stage bathed in dramatic, warm spotlights, where a corn train, rendered as a stark silhouette, moves slowly across the space. The video explores the dynamic interplay of light and shadow cast by the train, creating abstract patterns, shapes, and illusions that dance across the stage. The soundtrack should be ambient and minimalist, enhancing the atmospheric and abstract nature of the piece.

(這是一(yi)部純粹以視(shi)覺和氛圍見長(chang)的(de)(de)影(ying)像(xiang)作品(pin),核心聚(ju)焦(jiao)光影(ying)的(de)(de)交織互動,以玉(yu)米(mi)列(lie)車為中心意象(xiang)(xiang)(xiang)。試想一(yi)個舞臺(tai),被富有戲劇(ju)張力的(de)(de)暖調(diao)聚(ju)光燈(deng)籠罩,一(yi)列(lie)玉(yu)米(mi)列(lie)車化作鮮明的(de)(de)剪影(ying),在空間中緩緩穿(chuan)行。影(ying)片探尋列(lie)車投下(xia)的(de)(de)光影(ying)所形成的(de)(de)動態(tai)呼應(ying)——它們在舞臺(tai)上(shang)舞動,幻化出抽象(xiang)(xiang)(xiang)的(de)(de)圖案、形態(tai)與視(shi)覺幻象(xiang)(xiang)(xiang)。配樂(le)應(ying)采用氛圍化的(de)(de)極簡(jian)風格,以此強化作品(pin)的(de)(de)氛圍感與抽象(xiang)(xiang)(xiang)特質。)

視頻輸出的gif截取:

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

背后,生(sheng)成(cheng)這些視頻(pin)的(de)生(sheng)成(cheng)模型有什(shen)么(me)技(ji)術創新點?這要(yao)(yao)從視頻(pin)生(sheng)成(cheng)模型在擴展規模(scale-up)時面臨(lin)的(de)挑(tiao)戰說起,主要(yao)(yao)原因(yin)在于視頻(pin)生(sheng)成(cheng)需要(yao)(yao)處理的(de)視頻(pin)token長(chang)度遠超過文本和圖(tu)像,這導致計算資源消耗巨大,難以支撐大規模模型的(de)訓練(lian)與部署。

混合專(zhuan)家(jia)模(mo)(mo)型(xing)(xing)(MoE)架構(gou)作為一種廣泛應用于大型(xing)(xing)語言模(mo)(mo)型(xing)(xing)領(ling)域的模(mo)(mo)型(xing)(xing)擴展方式(shi),通過選擇(ze)專(zhuan)門的專(zhuan)家(jia)模(mo)(mo)型(xing)(xing)處理輸入的不同部分,擴種模(mo)(mo)型(xing)(xing)容量卻不增加額外的計算負載。

1、首個MoE架構的視頻生成模型,高噪+低噪專家模型“搭檔”

萬(wan)相2.2模(mo)(mo)型(xing)(xing)將MoE架構實現(xian)到了視頻(pin)生成(cheng)擴散模(mo)(mo)型(xing)(xing)(Diffusion Model)中(zhong)。考慮擴散模(mo)(mo)型(xing)(xing)的(de)去噪過程存在階段(duan)性差(cha)異,高噪聲(sheng)階段(duan)關(guan)注生成(cheng)視頻(pin)的(de)整體布局,低噪聲(sheng)階段(duan)則更(geng)關(guan)注細節的(de)完善,萬(wan)相2.2模(mo)(mo)型(xing)(xing)根(gen)據去噪時(shi)間步(bu)進行了專家(jia)模(mo)(mo)型(xing)(xing)劃分(fen)。

相比傳統(tong)架構(gou),通義萬相Wan2.2 MoE在減少(shao)計算負載的(de)同時(shi)有哪些關鍵效果提升?業界首個使用MoE架構(gou),團隊主要攻(gong)克了哪些難(nan)點(dian)?

通義萬相(xiang)團隊相(xiang)關(guan)負責(ze)人(ren)告訴智東西(xi),團隊并不是(shi)將語言模(mo)(mo)型(xing)中的MoE直(zhi)接(jie)套用到視(shi)頻模(mo)(mo)型(xing),而(er)(er)是(shi)用適(shi)配了視(shi)頻生成(cheng)(cheng)擴散(san)模(mo)(mo)型(xing)的MoE架(jia)構。該架(jia)構將整個(ge)(ge)去噪(zao)過程劃分為(wei)高噪(zao)聲和低(di)噪(zao)聲兩個(ge)(ge)階(jie)段(duan):在高噪(zao)聲階(jie)段(duan),模(mo)(mo)型(xing)的任務是(shi)生成(cheng)(cheng)視(shi)頻大體(ti)的輪廓與(yu)時空布(bu)局;在低(di)噪(zao)聲階(jie)段(duan),模(mo)(mo)型(xing)主(zhu)要是(shi)用來細化(hua)細節紋理和局部。每個(ge)(ge)階(jie)段(duan)對(dui)應一(yi)個(ge)(ge)不同的專家模(mo)(mo)型(xing),從而(er)(er)使每個(ge)(ge)專家專注特定的任務。

“我們的(de)創新點是(shi)找到高階(jie)噪聲和(he)低(di)(di)噪聲階(jie)段的(de)劃(hua)分(fen)點。不合理(li)的(de)劃(hua)分(fen)會導致MoE架構(gou)的(de)增益效(xiao)果不足。我們引入了一個簡單而有效(xiao)的(de)新指標——信噪比(bi)來(lai)進行(xing)指導,根據信噪比(bi)范圍對高噪和(he)低(di)(di)噪的(de)時間T進行(xing)劃(hua)分(fen)。通過(guo)這(zhe)(zhe)種MoE的(de)架構(gou),我們總參(can)數(shu)量相比(bi)于2.1版本擴大了一倍,但訓練和(he)推理(li)每階(jie)段的(de)激活值還是(shi)14B,所以整體的(de)計算量和(he)顯存(cun)并沒有顯著增加,效(xiao)果上是(shi)有效(xiao)地提升了運(yun)動(dong)復雜(za)運(yun)動(dong)和(he)美(mei)學的(de)生存(cun)能力(li)。”這(zhe)(zhe)位(wei)負(fu)責人說。

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

▲萬(wan)相2.2的28B版本由(you)高(gao)噪專家模(mo)型(xing)和(he)低噪專家模(mo)型(xing)組成

2、數據擴容提高生成質量,支撐與美學精調

較(jiao)上一(yi)代萬相(xiang)2.1模型,萬相(xiang)2.2模型的訓練數據(ju)實(shi)現(xian)了顯著(zhu)擴充與(yu)升(sheng)級,其中圖像數據(ju)增加(jia)65.6%,視(shi)頻數據(ju)增加(jia)83.2%。數據(ju)擴容提(ti)升(sheng)了模型的泛化能(neng)力與(yu)創作(zuo)多樣性,使得模型在復雜場景、美學表達(da)和運(yun)動生成方面表現(xian)更加(jia)出色。

模(mo)型(xing)還引入了專門(men)的美(mei)學精調階段,通過細(xi)粒度地訓練,使(shi)得視(shi)頻(pin)生成(cheng)的美(mei)學屬性能夠與用戶給定的Prompt(提示(shi)詞)相對應。

萬相(xiang)2.2模型在(zai)訓練過程中融合(he)了電影工業標(biao)準(zhun)的光影塑(su)造、鏡頭構圖法(fa)則和色(se)彩心(xin)理學體系,將專業電影導演的美(mei)學屬性(xing)進行(xing)了分類,并細(xi)致整理成美(mei)學提示(shi)詞。

因此,萬相(xiang)2.2模(mo)型能(neng)夠根據用(yong)戶的美(mei)(mei)學(xue)(xue)(xue)提示詞準確理解并響應用(yong)戶的美(mei)(mei)學(xue)(xue)(xue)需求(qiu)。訓(xun)練(lian)后期,模(mo)型還通過強化(hua)學(xue)(xue)(xue)習(RL)技術進(jin)(jin)行進(jin)(jin)一(yi)步的微調,有效(xiao)地對齊人類審美(mei)(mei)偏好。

3、高壓縮比視頻生成,5B模型可部署消費級顯卡

為了更高效地部署視(shi)頻生成模型,萬相2.2探索了一種模型體積更小、信息下降率更高的技術路徑。

通義萬(wan)相Wan2.2開源5B版本(ben)消(xiao)費(fei)級(ji)顯卡(ka)可部署,該(gai)設計如何平衡壓縮率與(yu)重建質量?

通(tong)義(yi)萬(wan)相團隊(dui)(dui)相關負(fu)責人(ren)告訴智東西,為了(le)(le)兼顧性(xing)能與部署的(de)便捷性(xing),Wan2.2版(ban)(ban)本(ben)開(kai)發了(le)(le)一個5B小參數版(ban)(ban)。這一版(ban)(ban)本(ben)比(bi)2.1版(ban)(ban)本(ben)的(de)14B模型小了(le)(le)一半多。同時團隊(dui)(dui)采用了(le)(le)自(zi)研高壓縮比(bi)VAE結構,整體實現了(le)(le)在特征空(kong)間上16×16的(de)高壓縮率,是(shi)2.1版(ban)(ban)本(ben)壓縮率(8×8)的(de)四倍,從而顯著降低了(le)(le)顯存占(zhan)用。

為了(le)(le)解決(jue)高壓縮比帶來(lai)(lai)的(de)問題,團隊在這(zhe)個(ge)VAE的(de)訓(xun)練中引入了(le)(le)非對稱的(de)編碼結構以(yi)及殘差(cha)采(cai)樣機(ji)制;同時(shi)其還增加了(le)(le)這(zhe)個(ge)隱空間的(de)維度,把原來(lai)(lai)的(de)2.1版本的(de)16位(wei)增加到了(le)(le)48位(wei)。這(zhe)樣使模型在更大的(de)壓縮率下保持了(le)(le)良好的(de)重(zhong)建(jian)質量。

此次開源的5B版(ban)(ban)本(ben)采用(yong)了(le)高壓(ya)縮(suo)比VAE結(jie)構,在(zai)(zai)視頻(pin)生成的特征空間實現(xian)了(le)視頻(pin)高度(H)、寬(kuan)度(W)與時間(T)維度上(shang)32×32×4的壓(ya)縮(suo)比,有效減少了(le)顯存占用(yong)。5B版(ban)(ban)本(ben)可在(zai)(zai)消費(fei)級顯卡上(shang)快速部署,僅(jin)需(xu)22G顯存即可在(zai)(zai)數分(fen)鐘內生成5秒高清視頻(pin)。此外,5B版(ban)(ban)本(ben)實現(xian)了(le)文本(ben)生成視頻(pin)和圖像生成視頻(pin)的混合訓練,單一模(mo)型(xing)可滿足兩大核(he)心任務需(xu)求。

此次開源中,萬相2.2也同(tong)步公開了(le)全新的(de)高(gao)壓縮比VAE結構(gou)(gou),通(tong)過引入殘差采樣結構(gou)(gou)和非對稱編(bian)解碼框架(jia),在更高(gao)的(de)信(xin)息壓縮率下依然保持了(le)出色(se)的(de)重建質量(liang)。

二、60+專業參數引入,實現電影級美學控制

本(ben)次,阿里通義(yi)萬(wan)相團隊還推出了“電影(ying)級美(mei)學控制系統”,通過60+專業參數賦能,?將專業導演的光影(ying)、色彩、鏡頭語言裝進生成模型(xing)。用戶通過直觀選擇美(mei)學關鍵(jian)詞(ci),即可智能生成電影(ying)質感的視頻(pin)畫面。

許多(duo)創作者都遇到過這樣(yang)的(de)(de)(de)難題:明明腦海中有(you)充滿(man)電影感的(de)(de)(de)畫面,如王家(jia)衛式(shi)(shi)的(de)(de)(de)霓虹夜晚、諾蘭式(shi)(shi)的(de)(de)(de)硬核實景、韋斯·安德(de)森式(shi)(shi)的(de)(de)(de)對(dui)稱構(gou)圖,實際生成的(de)(de)(de)效果卻總(zong)差強(qiang)人意——光線平淡像隨手拍、構(gou)圖隨意缺乏張力、色調混亂沒有(you)氛圍。

通義萬相團隊認(ren)為,根本原因在于,真正(zheng)的(de)(de)電影感源于對(dui)光影、色彩、鏡(jing)頭語言三大(da)美學體(ti)系的(de)(de)精密(mi)控制(zhi)。這些專業能(neng)力以往需(xu)要多年(nian)的(de)(de)學習和實踐(jian)才能(neng)掌(zhang)握。Wan2.2的(de)(de)全新功能(neng)可以解(jie)決(jue)這一核心痛點(dian)。

智(zhi)能美學詞(ci)響(xiang)(xiang)應(ying)是系統的核心創新(xin)。用戶無需(xu)理(li)解復(fu)雜的電影術(shu)語(yu),只需(xu)在(zai)中文界面選(xuan)擇想要(yao)的美學關鍵詞(ci),如黃昏(hun)、柔(rou)光(guang)、側光(guang)、冷色調、對稱構(gou)圖(tu)、特寫等,系統將自動理(li)解并(bing)精確響(xiang)(xiang)應(ying),在(zai)后臺智(zhi)能調整燈(deng)光(guang)屬性(xing)、攝像機參數、色彩(cai)濾(lv)鏡(jing)等數十項技術(shu)指標。

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

三、可生成復雜運動,強化物理世界還原能力

在文(wen)生(sheng)視頻領域,生(sheng)成基(ji)礎(chu)、平緩的(de)動作已非難事,但如(ru)何生(sheng)成大(da)幅度(du)、高(gao)復雜度(du)、高(gao)細節(jie)的(de)動作,如(ru)街舞、體操等,始(shi)終是技術躍遷(qian)的(de)關(guan)鍵挑戰。

Wan2.2模(mo)型針對面部表(biao)情,手(shou)(shou)部動(dong)(dong)作(zuo),單人(ren)(ren)、多(duo)人(ren)(ren)交(jiao)(jiao)互、復雜(za)(za)動(dong)(dong)作(zuo)等方面進行了專門優化,大(da)幅提升了細微表(biao)情、靈巧手(shou)(shou)勢、單人(ren)(ren)與多(duo)人(ren)(ren)交(jiao)(jiao)互、復雜(za)(za)體育運(yun)動(dong)(dong)等生成(cheng)能力。

比如,Wan2.2構建了人類面(mian)部原(yuan)子動作和情緒(xu)表(biao)情系統。它(ta)不(bu)(bu)僅能(neng)生成如“開懷(huai)大笑(xiao)”、“輕蔑冷笑(xiao)”、“驚恐屏息”等(deng)典型情緒(xu)表(biao)達,更能(neng)細膩刻畫“羞澀微(wei)(wei)笑(xiao)中的臉頰微(wei)(wei)紅(hong)”、“思考(kao)時不(bu)(bu)經意的挑眉”、“強忍淚水時的嘴唇(chun)顫(zhan)抖”等(deng)復雜微(wei)(wei)表(biao)情,從而(er)精準傳達復雜的人物情緒(xu)與內心狀態(tai)。

比如,Wan2.2還(huan)構建了豐富的(de)手部(bu)動(dong)作系統,能(neng)夠生成從力量(liang)傳遞的(de)基(ji)礎物(wu)理(li)操作、精細器具交互的(de)復雜控制,到(dao)蘊含文化語義的(de)手勢符號體(ti)系,乃至專業領域(yu)的(de)精密動(dong)作范式等手部(bu)動(dong)作。

此外值得一提的是,Wan2.2模型(xing)針對(dui)多項基(ji)(ji)礎物(wu)理(li)定律與現象進(jin)行了優化(hua)。這包(bao)括對(dui)力學(xue)、光學(xue)以及(ji)流體力學(xue)和常見(jian)物(wu)理(li)狀態變化(hua)的學(xue)習,力求構建高(gao)度真實的物(wu)理(li)基(ji)(ji)礎。

在復(fu)(fu)雜動態場景的(de)(de)處理上,Wan2.2專門(men)優化了多(duo)目(mu)標生成(cheng)(cheng)與(yu)交互(hu)場景。它能夠穩(wen)定(ding)地生成(cheng)(cheng)多(duo)個(ge)獨立物體或角色(se)同時進行的(de)(de)復(fu)(fu)雜動作及其相互(hu)影響。此外,Wan2.2 對(dui)復(fu)(fu)雜空(kong)間(jian)關系的(de)(de)理解(jie)與(yu)呈現也(ye)得到大幅增強,能夠精確理解(jie)物體在三維(wei)空(kong)間(jian)中的(de)(de)相對(dui)位(wei)置(zhi)、距離、深度、遮(zhe)擋的(de)(de)空(kong)間(jian)結構變化。

結語:突破視頻模型規模瓶頸,推動AI視頻生成專業化演進

Wan2.2首(shou)創MoE架(jia)構視(shi)頻生(sheng)(sheng)成(cheng)模型(xing)(xing),為(wei)突破視(shi)頻模型(xing)(xing)規模瓶頸(jing)提供了新路徑;5B版(ban)本大幅降低高質量視(shi)頻生(sheng)(sheng)成(cheng)門(men)檻(jian),加(jia)速(su)生(sheng)(sheng)成(cheng)式AI工具普(pu)及。

“電影(ying)級美學(xue)控制”將(jiang)專業影(ying)視標(biao)準體(ti)系化融入AI,有望推動AI視頻(pin)生成工具向(xiang)更加專業化的(de)方向(xiang)發展,助廣告(gao)、影(ying)視等行業高效產出專業內容;其復(fu)雜(za)運動與物理還原能力(li)的(de)提升(sheng),顯著增強(qiang)了生成視頻(pin)的(de)真實感,為教育、仿真等多領域應用奠定基(ji)礎(chu)。