
智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影
智東西8月27日消息,昨夜,阿里通義萬相正式開源全新多模態視頻生成模型通義萬相Wan2.2-S2V,用戶僅需一張靜態圖片和一段音頻,即可通過該模型生成面部表情自然、口型一致、肢體動作絲滑的電影級數字人視頻。
Wan2.2-S2V單次生成的視頻時長可達分鐘級,有望(wang)大幅提升數字人直播、影視(shi)制作(zuo)、AI教(jiao)育等行業的視(shi)頻創作(zuo)效(xiao)率(lv)。目前(qian),模型已在通義萬相(xiang)官(guan)網、Hugging Face和魔搭社區上線。
7月28日(ri),阿里開源(yuan)視(shi)(shi)頻(pin)生成模(mo)(mo)型通義(yi)萬相Wan2.2,包括文(wen)生視(shi)(shi)頻(pin)Wan2.2-T2V-A14B、圖生視(shi)(shi)頻(pin)Wan2.2-I2V-A14B和統一(yi)視(shi)(shi)頻(pin)生成Wan2.2-IT2V-5B三款模(mo)(mo)型。其中,文(wen)生視(shi)(shi)頻(pin)模(mo)(mo)型和圖生視(shi)(shi)頻(pin)模(mo)(mo)型為業界首個使用MoE架(jia)構的視(shi)(shi)頻(pin)生成模(mo)(mo)型。
8月11日,Wan2.2-I2V-Flash上線, 相比Wan2.1推理速度提升12倍,0.1元/秒(miao),抽卡成(cheng)功率提升123%。
本次發布并開源(yuan)的(de)Wan2.2-S2V則更加(jia)偏(pian)向音(yin)頻(pin)驅(qu)動,專攻圖像+音(yin)頻(pin),讓(rang)畫面(mian)和音(yin)頻(pin)更加(jia)契合。
體驗鏈接:
通義萬相官網(wang)://tongyi.aliyun.com/wanxiang/generate
阿(a)里云百煉API://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215
開源(yuan)地址:
Github://github.com/Wan-Video/Wan2.2
魔搭社區(qu)://www.modelscope.cn/models/Wan-AI/Wan2.2-S2V-14B
Hugging Face://huggingface.co/Wan-AI/Wan2.2-S2V-14B
智東西第一(yi)(yi)時間(jian)對Wan2.2-S2V進行了體驗,發現其針對真(zhen)人角色(se)的視頻生成,口(kou)型對的很(hen)精(jing)準,手部或身(shen)體其他(ta)部分(fen)的晃(huang)動也十(shi)分(fen)自然,但(dan)在動畫角色(se)的五官識別還不(bu)太精(jing)準,并且該模型免費版本排隊時間(jian)較長且只有一(yi)(yi)個(ge)排隊名(ming)額(e)。
一、一張照片+一段音頻,就能讓圖片中的人物開口說話
Wan2.2-S2V可驅動(dong)真人(ren)(ren)、卡通、動(dong)物、數字人(ren)(ren)等類型圖片(pian),并支持肖像(xiang)、半身以及全身等任(ren)意畫幅,用戶上傳一段(duan)音頻后,模型就(jiu)能讓圖片(pian)中的主(zhu)體形象完成說話(hua)、唱歌和表演(yan)等動(dong)作。
點開Wan2.2-S2V主頁,可以看到在聊天框(kuang)下方有兩(liang)個方框(kuang)可以選(xuan)擇(ze)模式,視頻(pin)類可以選(xuan)擇(ze)“圖生(sheng)視頻(pin)”“文(wen)生(sheng)視頻(pin)”“視頻(pin)特(te)效”等7個功(gong)能。
我上傳了(le)一張(zhang)動畫人物“吉伊(yi)”的(de)圖片(pian),并輸入文字(zi)“讓畫面(mian)中的(de)角色唱歌”:
“吉伊”不(bu)僅動了(le)起來,連身邊的星星都(dou)跟著旋轉(zhuan),還自(zi)己配(pei)上了(le)bgm,就是嘴巴(ba)的線(xian)條沒有識(shi)別準確:
用戶如想要(yao)生(sheng)成人物對嘴(zui)型的(de)(de)視頻,則需選(xuan)擇數字人選(xuan)項(xiang),上傳角色圖像。音頻可以選(xuan)擇自己上傳,也可以用AI生(sheng)成,AI生(sheng)成的(de)(de)音頻需要(yao)用戶輸(shu)入想要(yao)的(de)(de)臺詞并選(xuan)擇喜歡的(de)(de)聲線,目(mu)前(qian)還僅(jin)支(zhi)持中文(wen)和英文(wen)。
比如,讓小狗張嘴唱(chang)歌:
讓愛(ai)因(yin)斯坦張口說(shuo)話:
我還上傳(chuan)了一(yi)張歐美男生的人物照片(pian)和(he)一(yi)段中文(wen)音(yin)頻:
Wan2.2-S2V生成(cheng)的視頻不(bu)僅能(neng)保證人物形(xing)象(xiang)和原圖一致(zhi),其面部表情和嘴(zui)部動作都(dou)能(neng)與音頻基本對齊(qi),視頻人物臉上的光線甚至還(huan)可以隨著(zhu)嘴(zui)形(xing)的變化而變化。
此外,該(gai)模型還支持(chi)文本控(kong)制,用戶輸(shu)入(ru)Prompt后可對視頻畫(hua)面進行控(kong)制,讓(rang)視頻主體的運動(dong)和背景的變化更豐富。
再比如,生成(cheng)一段(duan)音樂(le)MV:
畫面(mian)中的(de)人物不僅可以(yi)對上口型,連手部動作和身(shen)體搖(yao)晃都在音樂(le)的(de)節拍上,車(che)窗外(wai)的(de)畫面(mian)也可以(yi)移(yi)動,模擬火車(che)行進的(de)真(zhen)實場景。
二、歷史參考幀擴展至73幀,還支持不同分辨率
基于(yu)通(tong)義(yi)萬(wan)相視頻(pin)生成基礎模型能力,Wan2.2-S2V融(rong)合了文本引導的全局(ju)運動(dong)控制和音頻(pin)驅動(dong)的細粒(li)度(du)局(ju)部運動(dong),實現了復雜場景的音頻(pin)驅動(dong)視頻(pin)生成。
同時該(gai)模型(xing)還(huan)引入AdaIN和CrossAttention兩種控(kong)制機制,實現了(le)更準確更動態的音(yin)頻(pin)控(kong)制效果。
為保障長視(shi)頻生成效果(guo),Wan2.2-S2V通過(guo)層次化幀壓縮技術,將(jiang)motion frames(歷史參考幀)的(de)長度從(cong)數幀拓展到73幀,從(cong)而(er)實現了穩定(ding)的(de)長視(shi)頻生成效果(guo)。
Wan2.2-S2V還可支(zhi)持不同分辨率場景的視(shi)頻生成需(xu)求(qiu), 如豎屏(ping)短視(shi)頻、橫(heng)屏(ping)影視(shi)劇。
結語:產業需求推動AI生成視頻的技術迭代
文生視(shi)頻、圖生視(shi)頻賽(sai)道真(zhen)是太(tai)卷(juan)了。
無(wu)論是國(guo)內的(de)即夢(meng)AI、MiniMax、昆侖萬(wan)維(wei)等,還是國(guo)外的(de)Runway、Midjouney等,都在視頻生(sheng)成類大模(mo)型上猛下功(gong)夫。
就拿(na)通義萬相來說(shuo),自今年2月以來,通義萬相已連續(xu)開源文生視(shi)頻、圖生視(shi)頻、首尾幀生視(shi)頻、全能編輯、音(yin)頻驅動生視(shi)頻等多款模型(xing)。
當前,數字人(ren)直播、影視(shi)制作、AI教育(yu)等行業(ye)對高效視(shi)頻創作工(gong)具(ju)的需求日(ri)益廣泛。
這(zhe)種旺盛的(de)產業(ye)需(xu)求,正成為推動視頻生成類大模型技(ji)術快速(su)迭(die)代的(de)核(he)心動力,也為賽(sai)道(dao)未來的(de)發展提(ti)供(gong)了廣闊(kuo)空間。