
智東西(公眾號:zhidxcom)
作者|程茜
編輯|心緣
智東西2月26日報道,昨夜,阿里云視覺生成基座模型萬相2.1(Wan)宣布開源!
萬相2.1共有兩個參數規模,140億(yi)參數模型適用于對生成效果要求更高的專業人士,13億(yi)參數模型生成速(su)度較快且能兼容所有消費級GPU,兩(liang)個模型(xing)的全部推理(li)代碼和權重已(yi)全部開源。
強大的視頻VAE:Wan-VAE提供卓越的效率和性能,可(ke)對任意長度(du)的1080P視頻進(jin)行編碼(ma)和解碼(ma),同時保留時間信息。
萬相系列(lie)模(mo)型的研(yan)發(fa)團隊基于(yu)運動(dong)質量(liang)、視覺質量(liang)、風格和(he)多目標(biao)等14個主要維度和(he)26個子維度進行了(le)模(mo)型性(xing)能(neng)評估,該模(mo)型實現5項第(di)一,萬相系列(lie)模(mo)型能(neng)夠穩定(ding)展現各種復(fu)(fu)雜(za)的人(ren)物(wu)肢(zhi)體運動(dong),如旋轉、跳躍、轉身、翻滾等;還能(neng)還原碰撞、反彈、切割(ge)等復(fu)(fu)雜(za)真實物(wu)理場景(jing)。
官方Demo中“熊貓用滑板(ban)炫技”的視頻,展示(shi)了一只(zhi)熊貓連續完成多個高難度動作:
阿里云通義實驗室的研究人員昨夜23點直播介紹了萬相2.1的模型及技術(shu)細節(jie)。
此外,阿里通義官方(fang)文章(zhang)還提到,萬相2.1的開源,標志著阿里云實現(xian)了全模態、全尺寸的開源。
目前,萬相2.1支持訪問通義(yi)官(guan)網在(zai)線體驗或者在(zai)Github、HuggingFace、魔搭社區下載進行本地部署體驗。
通義官網體(ti)驗地址(zhi)://tongyi.aliyun.com/wanxiang/
Github: //github.com/Wan-Video/Wan2.1
一、生成能力全方位開掛,文字、特效、復雜運動都在行
在生成能力方面,萬相2.1可以還原復雜運動表現、遵循物理規律、影院級別畫質、具備文字生成和視覺特效制作能力。
萬相2.1支持生成走路、吃(chi)飯等基(ji)本(ben)的日常(chang)運(yun)動,還能還原(yuan)復雜的旋轉(zhuan)、跳(tiao)躍(yue)、轉(zhuan)身跳(tiao)舞以及擊劍(jian)、體操等體育運(yun)動類(lei)的動作。
此外,其能在遵循物理世(shi)界(jie)規律的前提(ti)下,還原重力、碰撞、反(fan)彈、切(qie)割等物理場景,并生成萬物生長等有創(chuang)意的視頻。
在畫質(zhi)方面,萬(wan)相2.1生成的視頻(pin)達到影院級別畫質(zhi),同時理解(jie)多(duo)語(yu)言、長文本指令,呈(cheng)現角色的互(hu)動。
同(tong)時,萬相(xiang)2.1是首次在開源模型中(zhong)支持中(zhong)英文(wen)文(wen)字(zi)渲染,中(zhong)英文(wen)藝術字(zi)生成。
阿里云還公開了多個萬相2.1生成視頻的Demo。
以紅色新年宣紙為背景,出現一滴水墨,暈染墨汁緩緩暈染開來。文字的筆畫邊緣模糊且自然,隨著暈染的進行,水墨在紙上呈現“福”字,墨色從深到淺過渡,呈現出獨特的東方韻味。背景高級簡潔,雜志攝影感。
不過(guo),紙上福字(zi)左(zuo)上角的(de)一點(dian)并沒有書寫過(guo)程,而是突(tu)然在(zai)視頻(pin)后期(qi)出現(xian)。
紀實攝影風格,低空追蹤視角,一輛寶馬M3在蜿蜒的山路上疾馳,車輪揚起滾滾塵土云。高速攝像機定格每個驚險過彎瞬間,展現車輛極致的操控性能。背景是連綿起伏的山脈和藍天。畫面充滿動感,輪胎與地面摩擦產生的煙霧四散。中景,運動模糊效果,強調速度感。
可以看到(dao),視頻鏡頭隨著汽車的(de)漂移加(jia)速,捕捉(zhuo)到(dao)了每一個畫(hua)面,并且在漂移時路邊(bian)還(huan)有與地面摩擦飛揚的(de)塵土。
微觀攝影,珊瑚管蟲和霓虹刺鰭魚在五彩斑斕的海底世界中游弋。珊瑚管蟲色彩鮮艷,觸手輕輕搖曳,仿佛在水中舞蹈;霓虹刺鰭魚身體閃耀著熒光,快速穿梭于珊瑚之間。畫面充滿奇幻視覺效果,真實自然,4k高清畫質,展現海底世界的奇妙與美麗。近景特寫,水下環境細節豐富。
整個畫面色彩(cai)鮮艷,對提示詞中(zhong)的細節基本都表現到了。
中國古典風格的動畫角色,一個身穿淡紫色漢服的女孩站在櫻花樹下。她有著大大的眼睛和精致的五官,頭發上裝飾著粉色的花朵。女孩表情溫柔,眼神中帶著一絲憂郁,仿佛在思考什么。背景是朦朧的古建筑輪廓,花瓣在空中輕輕飄落,營造出一種寧靜而夢幻的氛圍。近景特寫鏡頭,強調女孩的面部表情和細膩的光影效果。
視頻對“眼神中帶(dai)著一(yi)絲憂郁(yu),仿佛在(zai)思(si)考什么”這類復(fu)雜的(de)指令,也在(zai)女孩(hai)的(de)眼神中得到了呈現。
二、優于其他開閉源模型,可兼容消費級顯卡
為(wei)了評(ping)估萬相2.1的(de)(de)性能,研發人員(yuan)基于1035個(ge)(ge)內部提示集,在14個(ge)(ge)主要維度(du)和26個(ge)(ge)子維度(du)上進(jin)行(xing)了測試,然后通過對每個(ge)(ge)維度(du)的(de)(de)得分進(jin)行(xing)加(jia)權(quan)(quan)計(ji)算來計(ji)算總分,其中利用了匹(pi)配過程(cheng)中人類偏好(hao)得出的(de)(de)權(quan)(quan)重(zhong)。詳細結果(guo)如下表所示:
研(yan)發人員還對(dui)文生(sheng)(sheng)視頻、圖生(sheng)(sheng)視頻以(yi)及模型在不同GPU上的計算效率(lv)進(jin)行(xing)了評估。
文生視頻的評估結果:
圖生視頻的(de)評估結果:
其(qi)(qi)結(jie)果顯示,萬相2.1均優于(yu)其(qi)(qi)他(ta)開源(yuan)、閉源(yuan)模型(xing)。
不同(tong)GPU上(shang)的計算效(xiao)率:
可(ke)以(yi)看(kan)到,13億參數(shu)模型可(ke)兼(jian)容消費級顯卡,并實現較快的生(sheng)成速度(du)。
三、模型性能提升大殺器:3D VAE、可擴展預訓練策略、大規模數據鏈路構建……
基于主流的DiT和線性噪聲軌(gui)跡(ji)Flow Matching范(fan)式,萬相2.1基于自研因(yin)果3D VAE、可擴展的預訓練策略、大(da)規模(mo)(mo)數據鏈路構建以及自動化評估指標提升了(le)模(mo)(mo)型最終(zhong)性能表現。
VAE是視(shi)頻生成領(ling)域廣泛(fan)使用(yong)的模塊,可以(yi)使得視(shi)頻模型在(zai)接近無損情況下有(you)效(xiao)降低資源占(zhan)用(yong)。
在算法設計(ji)上,萬相(xiang)基(ji)于主流DiT架(jia)構(gou)和線性噪(zao)聲(sheng)軌跡Flow Matching范(fan)式,研發了(le)高效(xiao)的因(yin)果3D VAE、可擴(kuo)展的預訓練策略等。以3D VAE為例,為了(le)高效(xiao)支(zhi)持任意(yi)長(chang)度視(shi)頻(pin)的編碼(ma)(ma)和解碼(ma)(ma),萬相(xiang)在3D VAE的因(yin)果卷積模塊(kuai)中實現(xian)了(le)特征緩存機制,從而代替(ti)直接對長(chang)視(shi)頻(pin)端到端的編解碼(ma)(ma)過程,實現(xian)了(le)無限長(chang)1080P視(shi)頻(pin)的高效(xiao)編解碼(ma)(ma)。
此(ci)外,通過將空間降采樣壓縮提前,在不損失性(xing)能(neng)的情況(kuang)下(xia)進一步減(jian)少了29%的推理時內存占用。
?
萬相2.1模型架構基于主流的(de)視(shi)(shi)頻DiT結構,通(tong)過(guo)Full Attention機制確保長時(shi)程(cheng)時(shi)空依賴的(de)有效建(jian)模,實現時(shi)空一致的(de)視(shi)(shi)頻生成。
采樣(yang)策略上,模型(xing)的(de)整體訓(xun)練則(ze)采用(yong)了(le)線(xian)性噪聲軌跡的(de)流匹(pi)配(Flow Matching)方法。如模型(xing)架(jia)構圖所(suo)示,模型(xing)首先使(shi)用(yong)多(duo)語(yu)言umT5編碼器對輸入文本進行(xing)語(yu)義編碼,并通過逐層的(de)交(jiao)叉注意力層,將文本特(te)征(zheng)向量(liang)注入到每個Transformer Block的(de)特(te)征(zheng)空間,實現細粒度的(de)語(yu)義對齊。
此外,研發人員通過一組在所有Transformer Block中(zhong)共(gong)享(xiang)參數(shu)(shu)(shu)的MLP,將輸入的時(shi)間(jian)步特(te)征T映射為模型(xing)中(zhong)AdaLN層(ceng)(ceng)的可學習縮(suo)放與偏(pian)置參數(shu)(shu)(shu)。在相同參數(shu)(shu)(shu)規模下(xia),這種共(gong)享(xiang)時(shi)間(jian)步特(te)征映射層(ceng)(ceng)參數(shu)(shu)(shu)的方法在保持模型(xing)能力同時(shi)可以顯著降低參數(shu)(shu)(shu)和計(ji)算量(liang)。
數據(ju)方面(mian),研究人員整理(li)(li)并去重(zhong)(zhong)了一(yi)個包含大(da)量圖(tu)像和視頻數據(ju)的候選數據(ju)集(ji)。在數據(ju)整理(li)(li)過程(cheng)中,其設計了四步數據(ju)清理(li)(li)流(liu)程(cheng),重(zhong)(zhong)點關注基本維度、視覺質(zhi)量和運(yun)動質(zhi)量。通(tong)過強大(da)的數據(ju)處理(li)(li)流(liu)程(cheng)快速獲得高(gao)質(zhi)量、多樣化、大(da)規模的圖(tu)像和視頻訓練集(ji)。
訓練階段,對于文(wen)本、視頻編碼模塊,研究人員使(shi)用DP和FSDP組合的分布式策(ce)(ce)略;對于DiT模塊采用DP、FSDP、RingAttention、Ulysses混(hun)合的并行(xing)策(ce)(ce)略。
基于萬相2.1模型參(can)數量較(jiao)小和長序列帶(dai)(dai)來的(de)計算(suan)量較(jiao)大的(de)特征,結合集(ji)群計算(suan)性能(neng)(neng)和通信帶(dai)(dai)寬采用FSDP切分模型,并在FSDP外嵌套DP提升多機拓展性,FSDP和DP的(de)通信均能(neng)(neng)夠(gou)完全被計算(suan)掩蓋。
為了(le)切分長(chang)序列訓練下的Activation,DiT部分使用(yong)了(le)Context Parallelism (CP) 對序列維度進行(xing)切分,并使用(yong)外層RingAttention、內層Ulysses的2D CP的方案減少CP通信開銷。
此外(wai),為了提升端到(dao)端整體效率,在文(wen)本、視頻(pin)編碼和DiT模塊間進行高效策略切換避免計算冗(rong)余。具體來說(shuo),文(wen)本、視頻(pin)編碼模塊每個設備(bei)(bei)讀不同(tong)數據(ju),在進入DiT之前,通過(guo)循環廣(guang)播方(fang)式將(jiang)不同(tong)設備(bei)(bei)上的數據(ju)同(tong)步,保證CP組里中數據(ju)一樣(yang)。
在推理階(jie)段,為了使用多(duo)卡減少生成單個視頻的延(yan)遲,選擇CP來進行(xing)分(fen)布式加速。此外,當(dang)模型(xing)較大時,還需要進行(xing)模型(xing)切分(fen)。
一(yi)方(fang)面,模(mo)型(xing)切(qie)分(fen)策略時,單卡顯存(cun)不(bu)足時必須(xu)考慮模(mo)型(xing)切(qie)分(fen)。鑒于序列長(chang)度通(tong)常(chang)較長(chang),與張量(liang)并(bing)(bing)行(TP)相比,FSDP的通(tong)信開銷更(geng)小,并(bing)(bing)且可以被計算掩(yan)蓋。因此,研究(jiu)人員(yuan)選擇(ze)FSDP方(fang)法進行模(mo)型(xing)切(qie)分(fen)(注(zhu)意:這里僅做(zuo)切(qie)分(fen)權重,而不(bu)做(zuo)數據并(bing)(bing)行);另(ling)一(yi)方(fang)面采用(yong)序列并(bing)(bing)行策略:采用(yong)與訓練階段相同的2D CP方(fang)法:外層(跨機器)使用(yong)RingAttention,內(nei)層(機器內(nei))使用(yong)Ulysses。
在萬相(xiang)2.1 140億(yi)參數模型上,使(shi)用(yong)FSDP和2D CP的組合(he)方法,在多卡上具有如下圖所(suo)示的近(jin)線性(xing)加速:
顯(xian)存優化方面(mian),研究人員采用(yong)分層的顯(xian)存優化策略,選擇(ze)一(yi)些層進行(xing)Offload,其他層根據不同(tong)算子計算量和顯(xian)存占(zhan)用(yong)的分析使用(yong)細粒度(du)Gradient Checkpointing(GC)進一(yi)步優化Activation顯(xian)存。最后利用(yong)PyTorch顯(xian)存管理機(ji)制,解決顯(xian)存碎片問題。
在訓(xun)練穩定性方面,萬相2.1借(jie)助于阿里云訓(xun)練集群的(de)智(zhi)能化(hua)調度(du)、慢(man)機檢測以及自(zi)(zi)愈能力,在訓(xun)練過(guo)程中可以自(zi)(zi)動識別故障節(jie)點并快速重(zhong)啟任務(wu),平(ping)均重(zhong)啟時間(jian)為(wei)39秒,重(zhong)啟成功率(lv)超(chao)過(guo)98.23%。
結語:開啟全模態開源新時代
2023年8月,阿里(li)云率(lv)先開(kai)源Qwen模(mo)(mo)型(xing)(xing),正式拉(la)開(kai)了(le)開(kai)源大模(mo)(mo)型(xing)(xing)的(de)序幕。隨(sui)(sui)后,Qwen1.5、Qwen2、Qwen2.5等四代模(mo)(mo)型(xing)(xing)相(xiang)繼開(kai)源,覆蓋了(le)從0.5B到(dao)110B的(de)全尺(chi)寸范圍,涵(han)蓋大語言、多模(mo)(mo)態等領(ling)域。目前其(qi)千問(wen)(Qwen)衍生(sheng)模(mo)(mo)型(xing)(xing)數(shu)量(liang)已超過10萬個。其(qi)官方(fang)文章顯示,隨(sui)(sui)著萬相(xiang)的(de)開(kai)源,阿里(li)云實現了(le)全模(mo)(mo)態、全尺(chi)寸的(de)開(kai)源。
從大語(yu)言模(mo)(mo)型(xing)到視(shi)覺生成模(mo)(mo)型(xing),從基(ji)礎(chu)模(mo)(mo)型(xing)到多樣化(hua)的衍生模(mo)(mo)型(xing),開源生態的發展正不斷被(bei)注入強大的動力。