
智東西(公眾號:zhidxcom)
作者 | 香草
編輯 | 李水青
最適合(he)二次元的“國產Sora”來(lai)了!
就在剛剛,清華系大模型創企生數科技,在全球范圍上線視頻生成模型Vidu,全面(mian)開(kai)放文生、圖生視頻(pin)能力。
先來看看效果:
如果(guo)沒有右上(shang)角的(de)水印,你會(hui)不(bu)會(hui)以為這是某個日本動畫(hua)電影的(de)片(pian)段截(jie)取?
實際上,這是我用Vidu文生視頻能力生成的動畫,提示詞為:兩個人舉起茶杯小口抿了一口。左邊的人輕抿雙唇后微笑,右邊的人專注于他們的茶,形成一種靜雅和微妙互動的場景。布景精致,淡雅的顏色、花卉布置和古典家具增強了優雅氛圍。
今年4月,Vidu首次亮相,據稱具備高動態性、高逼真度、高一致性等特點。此次上線,Vidu主打兩大能力:動漫風格、角色一致性,其支持生成4秒、8秒固定時長的視頻,分辨率達到1080P,此外還支持生成數字、英文等文字。在推理速度上,Vidu生成一段4秒片段只需30秒。
在價格方面,Vidu提供免費版和3種收費機制。免費版(ban)每月(yue)有80積分,可生成20個4秒視頻(pin);按月(yue)度訂閱,標(biao)準版(ban)、高級版(ban)、尊享版(ban)價格依次(ci)為19.99美(mei)元(yuan)、59.99美(mei)元(yuan)、199.99美(mei)元(yuan)(約(yue)合人民幣145.22元(yuan)、435.80元(yuan)、1452.83元(yuan)),每月(yue)分別可額外(wai)獲得240、800、2880積分,視頻(pin)時(shi)長延長到8秒,可去水印和(he)商(shang)用(yong)。目前在上(shang)線前兩周(zhou),Vidu提供限(xian)時(shi)5折(zhe)優惠(hui)。
用戶如果按年訂閱,標準版、高級版、尊享版目前的價格分別是7.99美元/月、23.99美元/月、79.99美元/月。此外,Vidu開放了API內測申請。
▲Vidu按年訂閱價格(ge)
具體的生成效果和速度還得用了才知道,智東西第一時間拿到了內測資格并上手測試了Vidu。一番體驗下來(lai),我主要有(you)以下幾點感受:
1、首先是快,經過掐(qia)表實(shi)測,Vidu生成4秒視頻不超過30秒。
2、語義理解能力很強,在100+字的長提示詞下,Vidu也能覆蓋到大部分細節并準確呈現。
3、Vidu實現了多鏡頭切換,能夠通過一(yi)個提示詞直接生成不同鏡頭的視(shi)(shi)頻,這對于(yu)影視(shi)(shi)場景等(deng)應用很有(you)價值。
4、運動幅度很大,無論是(shi)人物的表情、動(dong)作,還是(shi)景別切換,都保持(chi)了穩定性且沒有犧(xi)牲動(dong)幅(fu)。
5、對動漫風格的定向(xiang)優(you)化突出,能保持(chi)風格(ge)一致(zhi)性(xing),避免了常見的崩壞現(xian)象。
Vidu體驗鏈接:www.vidu.studio
一、文生視頻:單提示詞鏡頭切換,支持生成英文數字
打開Vidu,在左側的文本框中,我可以直接輸入文字進行視頻生成,也可以讓系統隨機生成提示詞。文生視頻可以選擇寫實、動畫兩種風格,時長支持4秒、8秒固定長度(du),其中8秒視頻需要訂(ding)閱套餐(can)。
圖生視頻則(ze)是上傳圖片(pian)后(hou),選(xuan)擇用作起始幀或參考人物(wu)角色(se),提示詞可(ke)有可(ke)無(wu),此外(wai)不(bu)支持選(xuan)擇風格。
▲Vidu視頻生成(cheng)界面
我們首先來測一下文生視頻的效果。
雖然主打動畫風格(ge),但(dan)寫(xie)實風格(ge)對Vidu來說也(ye)不(bu)在話下。例如文章開頭的案例,如果(guo)用同樣的提示(shi)詞選擇寫(xie)實風格(ge),生(sheng)成的視頻效果(guo)是這樣:
是不(bu)是還挺有(you)古(gu)風古(gu)韻那味兒的?
雖然視頻后半段出(chu)現(xian)了茶杯“閃現(xian)”的(de)失誤,但瑕(xia)不掩(yan)瑜(yu),Vidu無論是(shi)對提示詞的(de)語義(yi)理(li)解(jie)上(shang),還(huan)是(shi)對人(ren)臉、人(ren)手等細節的(de)呈現(xian)上(shang),都挑不出(chu)什(shen)么毛病。要是(shi)清晰度能再上(shang)一層,說是(shi)影視劇(ju)片段也不為過。
Vidu也在系統內提供了分辨率提升的功能(neng),點擊生成視頻底部的“超清(qing)”按鈕,就可以對(dui)視頻進行超清(qing)處理(li)。
在體驗過程中(zhong),我發現Vidu對長文本(ben)的(de)理解,以及基于單提(ti)示詞生成多鏡頭的(de)能力很突出。
例如這段提示詞:在一個柔和燈光的浴室里,一只造型如美國動畫角色的泰迪熊正在洗澡。它部分沉浸在泡泡浴缸中,一只爪子拿著電話,另一只爪子在搓洗自己。柔和的燈光營造出溫暖和愜意的氛圍,浴室的瓷磚是舒緩的粉彩色,增強了溫馨和奇幻的氛圍。泰迪熊的表情專注,表現出洗澡和打電話的同時進行。
這(zhe)個提示詞很長,覆蓋了(le)對主體(ti)(ti)動作(zuo)、表情,場(chang)景氛圍(wei)、燈光等多個細節的(de)(de)描寫,而(er)Vidu都一一準確地表現了(le)出(chu)來。在理解語義的(de)(de)基礎上,Vidu還增加了(le)“側面描寫”,為泰迪(di)熊添加了(le)口型變(bian)化來體(ti)(ti)現“打(da)電話”。
再比如這段提示詞:先是一個滴答作響的懷表的特寫鏡頭,然后拉遠,揭示出相對而坐的兩個人物,緊張氣氛撲面而來。最后鏡頭轉到窗外,是一篇黑壓壓的山脈。
這段(duan)提示詞切(qie)換了3個鏡(jing)(jing)頭,Vidu準(zhun)確(que)生成了懷表的(de)特寫,并轉(zhuan)換成兩(liang)個人對話的(de)場景,最后又抬(tai)高(gao)鏡(jing)(jing)頭對準(zhun)了窗外。
值得一提的是,Vidu還支持在視頻中生成包含數字、英文的畫面(mian)。在上面(mian)的案(an)例中也可見(jian)一斑,懷表上的數字清晰可見(jian),從1到12都很準確。
例如基于這個提示詞,我生成了一個動畫風格視頻:女孩捧著一個草莓生日蛋糕,上面插著蠟燭,蠟燭是數字“25”的形狀。
Vidu不僅準(zhun)確呈現了提示(shi)詞(ci),還“自(zi)由發揮”了后半(ban)段女孩走遠和轉(zhuan)身的細節(jie),并且在此過(guo)程中(zhong),畫(hua)面背(bei)景和人物保持了高度一致性(xing)。
再來看看英文單詞的生成,我用的提示詞為:一只柯基身穿紅色的賽車服,頭戴小頭盔。在類似賽道的簡約布景上,柯基坐在一輛小巧流線型的賽車中,準備起跑,賽車車身印有“DOGE”字樣。
除了準確生成了“DOGE”字樣外,Vidu在這個視頻中還有一點驚艷到我:對光影的模擬。
在(zai)經過(guo)一段看起來像建筑陰影(ying)(ying)的(de)地方時,畫面(mian)主體的(de)柯(ke)基(ji)和賽車隨(sui)著(zhu)相對(dui)建筑的(de)位置(zhi),從(cong)全部(bu)籠罩在(zai)陰影(ying)(ying)中,逐漸(jian)變為只(zhi)有柯(ke)基(ji)在(zai)陰影(ying)(ying)中、全部(bu)暴露在(zai)陽光(guang)下。雖然過(guo)渡(du)還(huan)有些不自然,但(dan)在(zai)一定(ding)程(cheng)度上體現了對(dui)物理世界(jie)光(guang)影(ying)(ying)關系的(de)模擬。
當然,Vidu也有“翻車(che)”的時候,在遇到涉(she)及大幅度運動或是偏專業場(chang)景的時候,它(ta)明顯有些力不(bu)從心。
例如我想讓它生成一個奧運會場景,提示詞為:在奧運會的乒乓球賽場上,燈光閃耀,觀眾們熱情歡呼。甲和乙站在球臺兩端,甲表情自信地準備發球,他將球高高拋起,然后用力揮拍發球。球在空中劃過一道弧線,乙則表情沉穩,快速移動腳步,精準地揮拍接球,隨后球在半空快速穿梭,甲眼神期待,乙頑強應對,兩人開始了激烈的對打,展現出高超的乒乓球技藝。
無論是動(dong)畫還是寫實風格,Vidu在這個提示(shi)詞上都(dou)大翻車,要(yao)么讓運動(dong)員(yuan)站在了球(qiu)臺的側面,要(yao)么直接(jie)在球(qiu)臺的一邊生成了第三(san)個運動(dong)員(yuan),還“放(fang)任”運動(dong)員(yuan)大肆犯規(gui)。
總的(de)來(lai)說,在文(wen)生視頻中(zhong),Vidu已(yi)經(jing)能(neng)應對大部分較(jiao)為日常的(de)場景(jing),雖然有(you)失誤和翻車情況,但(dan)整體瑕不掩瑜,并且這些情況也可(ke)能(neng)通過(guo)“抽(chou)卡(ka)”解決。同時,Vidu對文(wen)字、多鏡頭(tou)的(de)支持能(neng)大幅減少后期的(de)工(gong)作,在實際應用(yong)中(zhong)有(you)很大的(de)價值。
二、圖生視頻:角色風格高度一致,“紙片人”也能復刻
在圖生視頻方面,Vidu支持起始幀參考和角色一致參考兩種方式。
這兩個功能可以說(shuo)是表情(qing)包和梗圖制(zhi)作神器了,比如我(wo)可以讓馬斯克變(bian)身深(shen)情(qing)男,為屏幕對面(mian)獻(xian)上玫瑰。
或者讓他換(huan)上金剛狼(lang)的(de)衣(yi)服,在(zai)城市夜景中(zhong)“大秀(xiu)肌肉”。
我也(ye)可以用Vidu讓(rang)喜歡的(de)照片動起來(lai),比(bi)如上傳一張戴墨鏡(jing)男孩的(de)照片,把他的(de)墨鏡(jing)摘下來(lai)。
雖然這個人臉看起來有點詭異,但你就說墨(mo)鏡摘(zhai)(zhai)沒摘(zhai)(zhai)吧(ba)(doge)。
我又上傳了一張舉著攝像機的人像照片,輸入提示詞:男孩轉身面向鏡頭。
在保持發(fa)型、服裝一(yi)致性(xing)的前提下,Vidu不僅讓人(ren)物面向了(le)鏡頭,還發(fa)揮想(xiang)象力(li)為他(ta)生成(cheng)了(le)一(yi)個歐美(mei)男孩的臉,比上一(yi)個視(shi)頻中的臉進步了(le)不少(shao)。
不過,用AI復(fu)活(huo)真人照片(pian)已經涌現出不少玩法了。既然(ran)Vidu針對動漫風格進行了專門的(de)優(you)化,那(nei)它能(neng)復(fu)活(huo)“紙片(pian)人”嗎?
我上(shang)傳了一張日本動畫角色C.C.的特(te)寫,首先不寫任(ren)何提示詞,選(xuan)擇用作起始幀,看(kan)看(kan)Vidu會如何自由發揮(hui)。
▲日本動畫角色C.C.特(te)寫
不(bu)得不(bu)說(shuo),Vidu的(de)(de)表現有些超出我的(de)(de)預期(qi)了(le)(le),其(qi)在初始畫面的(de)(de)基(ji)礎(chu)上變(bian)換了(le)(le)人物角度、表情,在此過程中不(bu)僅保證(zheng)了(le)(le)畫面的(de)(de)流暢(chang)和風格一(yi)致(zhi)性,還(huan)讓頭發進行(xing)了(le)(le)大幅(fu)度隨風飄動,有點(dian)“中二病”那味(wei)兒了(le)(le)。
同樣是上傳這張參考圖,我又嘗試選擇參考人物角色,隨后分別輸入“她微笑著,向鏡頭伸出雙手”、“她生氣地抱著雙臂,轉過頭不理你”作為提示詞。
令我驚訝的是(shi),即使(shi)是(shi)“紙片(pian)人”,Vidu也實現了很高(gao)的角色一(yi)致性(xing),雖(sui)然(ran)畫風(feng)有所變化,但人物的發(fa)色、瞳色、衣服都(dou)保持一(yi)致。不過在第二個(ge)提(ti)示詞中(zhong),Vidu沒能呈現“轉過頭”這(zhe)個(ge)動作(zuo)。
看來2D平(ping)面角(jiao)(jiao)色(se)問題不大,那(nei)3D角(jiao)(jiao)色(se)呢?我(wo)上傳(chuan)了一(yi)款日(ri)本游(you)戲中的角(jiao)(jiao)色(se)愛麗(li)絲(si)。
▲日本游戲角色愛(ai)麗絲(si)
選擇參考人物角色后,我輸入提示詞:她幸福地笑著,眼睛瞇成一條線,背景是一片花海。
Vidu基(ji)本復現了她(ta)的(de)(de)發型、發飾和(he)服裝,但人臉顯然并不是同一張,同時(shi)發型等細看也有不一致,有點像(xiang)Cosplay和(he)原版的(de)(de)差別。不過在對提(ti)示詞的(de)(de)理解和(he)表達上(shang),Vidu倒是沒什么(me)失誤。
“紙(zhi)片人”都試(shi)了,“紙(zhi)片動物”是不是也能(neng)一(yi)試(shi)?我上傳了一(yi)張(zhang)杰瑞,讓(rang)Vidu將其作為起始幀生成了下面這個視頻。
只見(jian)小杰瑞表(biao)情、動作都(dou)十分生(sheng)動,就(jiu)是Vidu似乎沒分清他的(de)左右(you)腿(tui)……
總的來說,在圖生(sheng)視頻(pin)方面,Vidu不(bu)僅能實現其他(ta)同類產(chan)品復活照片的功能,而且(qie)基于對動(dong)漫風格的優化,它能將真實人物照片中(zhong)的玩法延伸到二次元,這為動(dong)畫、游戲等(deng)行(xing)業帶來了新的價(jia)值。
結語:劍走偏鋒,Vidu走出差異化道路
AI視頻生成賽(sai)道迎來小高潮,上(shang)周愛詩(shi)科技(ji)、智譜AI剛剛發布新模(mo)型,今天生數科技(ji)就甩出Vidu大模(mo)型迎戰。
Vidu大(da)模型在(zai)今年4月首次發布,當(dang)時據(ju)稱支(zhi)持(chi)一(yi)(yi)(yi)鍵(jian)生成(cheng)16秒(miao)、分(fen)辨率1080P的高清視頻內(nei)容,具備多(duo)(duo)鏡頭生成(cheng)、時空一(yi)(yi)(yi)致(zhi)性(xing)高等特點。從這次體驗來看(kan),雖然(ran)Vidu還沒有(you)上線16秒(miao)視頻生成(cheng)的能力,清晰(xi)度也有(you)待(dai)提高,但在(zai)多(duo)(duo)鏡頭、一(yi)(yi)(yi)致(zhi)性(xing)方(fang)面確(que)實(shi)有(you)很大(da)突破,這為Vidu帶來了差(cha)異化的特點。
短短5個(ge)多月,國內(nei)大廠、創(chuang)企紛(fen)紛(fen)亮出(chu)殺(sha)手锏,國產視頻生成大模型與Sora的差距(ju)越(yue)來越(yue)小(xiao),甚至已經實現彎道(dao)超車(che)。