
智東西(公眾號:zhidxcom)
作者 | ?陳家陽
編輯 | ?漠影
智東西4月18日(ri)消息(xi),通義萬相首尾幀生視頻模(mo)型Wan2.1-FLF2V-14B昨日(ri)宣布開源,用戶僅(jin)需上傳兩張照片(pian)作(zuo)為(wei)首幀和尾幀,就能得到一段5秒720p的高清視頻。
該模型還可以開啟靈感(gan)模式,通(tong)過AI智能擴寫(xie)對視頻(pin)創意進行(xing)描述,提升畫面豐(feng)富度與表現力,從(cong)而滿(man)足用戶更可控、更個性(xing)化的視頻(pin)生成需求。
用戶當前可(ke)以登陸通義萬(wan)相(xiang)官網免費體(ti)驗(yan)新發(fa)布的(de)首(shou)尾幀生視頻模型(xing),也能到 Github、Hugging Face或魔搭社區(Modelscope)下載(zai)該模型(xing)進(jin)行二次(ci)開發(fa),解鎖(suo)更多(duo)創意可(ke)能。
此外,憑借(jie)14B的參數量(liang),該模(mo)型(xing)成為(wei)全球首個百億參數規(gui)模(mo)的開(kai)源首尾幀生視頻模(mo)型(xing)。
體驗地址:
開源地址:
1.Github:
2.Hugging Face:
3.魔搭社區:
一、細節處理、情感表達、各種運鏡,都不在話下
通義(yi)萬相在官方公眾號推文中放出了幾(ji)個(ge)新鮮(xian)的演(yan)示案例,展示出新模型(xing)出色的工(gong)作(zuo)能(neng)力(li)。
▲提示(shi)詞:“黑(hei)暗(an)的環境,一群人(ren)站(zhan)成一列(lie),背(bei)對鏡頭,站(zhan)在一束(shu)光前,鏡頭上移,俯拍出(chu)光源全貌。”
該模型可以真實地還原物理規律(lv),在光源(yuan)出現時,地面上的人影會隨(sui)著光束(shu)移(yi)動而(er)發(fa)生(sheng)變(bian)化。
在復(fu)雜的(de)動態場景中,通義萬相首尾幀生視(shi)頻模型(xing)也能做到對內容細(xi)節進(jin)行高(gao)精度(du)處理。比如女(nv)孩的(de)衣服會隨著(zhu)跑步時的(de)肢體動作而出現褶皺、深褐(he)色的(de)頭發(fa)在光線(xian)影響下(xia)不時變換(huan)顏色等,讓視(shi)頻看上去(qu)更加逼真。
▲提示詞(ci):“寫(xie)實風(feng)格,一個(ge)身穿粉色(se)運動服的女生在城市(shi)街道中跑步(bu),鏡頭先(xian)特寫(xie)女生的臉部(bu),然后(hou)記錄下(xia)女生轉(zhuan)過街角向前跑去的背(bei)影。”
當生(sheng)成(cheng)首尾(wei)幀(zhen)銜(xian)接畫(hua)面時,通(tong)義萬相首尾(wei)幀(zhen)生(sheng)視頻模型能夠根據不同運鏡方式對視頻場(chang)景(jing)進行豐(feng)富(fu)和完善。
▲提示(shi)詞:“漫(man)畫風格,黑暗中,一個男人正在看向(xiang)一束光,鏡(jing)頭逐漸(jian)拉遠,展現出四周都是(shi)樓梯的環境全貌。”
通(tong)義萬相首(shou)尾幀生視頻模型也可以滿足用(yong)戶對(dui)視頻情(qing)感(gan)表達的(de)訴求。
▲提示詞:“卡通風格,一個(ge)打著紅色雨(yu)傘的藍色卡通人物站(zhan)在雨(yu)中。它的眼神充滿憂郁。”
此(ci)外,通義萬相首(shou)尾幀生視頻(pin)模型(xing)可以(yi)自(zi)主優化提術語(yu)指令,幫助創作(zuo)者快速生成創意視頻(pin),降低使(shi)用(yong)門檻,使(shi)更多用(yong)戶(hu)能(neng)夠輕松生成高質(zhi)量的視頻(pin)內容。
二、通義萬相2.1首尾幀生視頻模型是如何訓練的
Wan2.1系列(lie)模型均采用DiT(Diffusion in Transformer)架構,將擴散模型的生(sheng)成(cheng)能力(li)與(yu)Transfomer模型的特征(zheng)提取和長序列(lie)處理(li)能力(li)相(xiang)結合,并(bing)通過(guo)VAE視頻壓縮讓視頻生(sheng)成(cheng)過(guo)程兼顧清晰(xi)度和工作(zuo)效(xiao)率。
Wan2.1還借助Full Attension機制,使(shi)得生成視(shi)頻在時間和(he)空間上(shang)都具有很高的(de)一致性,不會出現時間上(shang)動作跳躍、不連貫,或者空間上(shang)物(wu)體異位、形態變化不合理等情況。
▲通義萬相模型結構圖(tu)
在Wan2.1系列模(mo)型(xing)(xing)的(de)(de)基礎架構上(shang),通義萬(wan)相首尾幀(zhen)生視(shi)頻模(mo)型(xing)(xing)新增(zeng)了(le)條(tiao)件控(kong)制(zhi)分支,以(yi)用(yong)戶上(shang)傳的(de)(de)首、尾幀(zhen)照(zhao)片作為控(kong)制(zhi)條(tiao)件,實(shi)現了(le)視(shi)頻從首幀(zhen)到尾幀(zhen)絲滑準(zhun)確的(de)(de)過渡效果。
此外,該模型還(huan)提(ti)取(qu)了首幀和尾幀的(de)CLIP語(yu)義特征,并將處理結果反饋(kui)到DiT的(de)生(sheng)成過程(cheng)中,保(bao)證模型生(sheng)成首尾幀銜(xian)接畫面時的(de)穩定性。
▲通義萬相首尾(wei)幀(zhen)生視頻模型架構(gou)圖
在訓(xun)(xun)練(lian)和推理階段,通義萬相首尾(wei)幀生(sheng)視(shi)頻(pin)模型采用了線性噪聲軌跡的(de)流匹配(pei)(Flow Matching)方法,用于處理噪聲和優化視(shi)頻(pin)生(sheng)成過程(cheng),使(shi)高(gao)精(jing)度的(de)視(shi)頻(pin)切片訓(xun)(xun)練(lian)成為可(ke)能。
為在有限內存(cun)下支持高清視頻推(tui)理,通義萬相首尾(wei)幀(zhen)生視頻模(mo)(mo)型使用(yong)了模(mo)(mo)型切分策略和序列并行策略。通過多種優化在保證(zheng)推(tui)理效果無損的同時,大幅縮短了推(tui)理時間。
通義萬相首尾(wei)幀(zhen)生視頻模型的(de)訓(xun)練(lian)過程總(zong)共經歷了三(san)個(ge)階段(duan),從(cong)480p分(fen)辨(bian)(bian)率下(xia)(xia)的(de)混合任務訓(xun)練(lian),到針對首尾(wei)幀(zhen)生成能力的(de)專項優化,最后(hou)在(zai)720p分(fen)辨(bian)(bian)率下(xia)(xia)完成高精度訓(xun)練(lian)。
結語:首尾幀生視頻模型為使用者提供更多創作自由度
相(xiang)較于文生(sheng)視(shi)(shi)頻(pin)和(he)單圖(tu)生(sheng)視(shi)(shi)頻(pin),首尾幀(zhen)生(sheng)視(shi)(shi)頻(pin)具有更(geng)強的可控性,用戶可以自主決定開頭和(he)結尾畫面,并通過提示詞指(zhi)令(ling)對生(sheng)成內容(rong)進行(xing)描述。
但這無疑提高(gao)了訓練首(shou)尾(wei)幀生視頻(pin)模型的難度(du),既要實現(xian)畫面從(cong)首(shou)幀到尾(wei)幀的流(liu)暢(chang)銜接,又要滿足視頻(pin)本身的質感和自然表現(xian)。
通義萬相首尾(wei)幀生(sheng)視(shi)(shi)頻(pin)模型(xing)不(bu)僅(jin)可以實現對(dui)圖(tu)像細節的(de)高精度處理(li),還(huan)能(neng)生(sheng)成和(he)諧自然的(de)動作視(shi)(shi)頻(pin),展現出了強大(da)的(de)技(ji)術優勢和(he)創(chuang)新性,開源后(hou)將(jiang)為(wei)圖(tu)生(sheng)視(shi)(shi)頻(pin)領域帶來更多價值。