“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

智東西（公眾號：zhidxcom）
作者 | 香草
編輯 | 李水青

最適合(he)二次元的“國產Sora”來(lai)了！

就在剛剛，清華系大模型創企生數科技，在全球范圍上線視頻生成模型Vidu，全面(mian)開(kai)放文生、圖生視頻(pin)能力。

先來看看效果：

如果(guo)沒有右上(shang)角的(de)水印，你會(hui)不(bu)會(hui)以為這是某個日本動畫(hua)電影的(de)片(pian)段截(jie)取？

實際上，這是我用Vidu文生視頻能力生成的動畫，提示詞為：兩個人舉起茶杯小口抿了一口。左邊的人輕抿雙唇后微笑，右邊的人專注于他們的茶，形成一種靜雅和微妙互動的場景。布景精致，淡雅的顏色、花卉布置和古典家具增強了優雅氛圍。

今年4月，Vidu首次亮相，據稱具備高動態性、高逼真度、高一致性等特點。此次上線，Vidu主打兩大能力：動漫風格、角色一致性，其支持生成4秒、8秒固定時長的視頻，分辨率達到1080P，此外還支持生成數字、英文等文字。在推理速度上，Vidu生成一段4秒片段只需30秒。

在價格方面，Vidu提供免費版和3種收費機制。免費版(ban)每月(yue)有80積分，可生成20個4秒視頻(pin)；按月(yue)度訂閱，標(biao)準版(ban)、高級版(ban)、尊享版(ban)價格依次(ci)為19.99美(mei)元(yuan)、59.99美(mei)元(yuan)、199.99美(mei)元(yuan)（約(yue)合人民幣145.22元(yuan)、435.80元(yuan)、1452.83元(yuan)），每月(yue)分別可額外(wai)獲得240、800、2880積分，視頻(pin)時(shi)長延長到8秒，可去水印和(he)商(shang)用(yong)。目前在上(shang)線前兩周(zhou)，Vidu提供限(xian)時(shi)5折(zhe)優惠(hui)。

用戶如果按年訂閱，標準版、高級版、尊享版目前的價格分別是7.99美元/月、23.99美元/月、79.99美元/月。此外，Vidu開放了API內測申請。

“清華系Sora”全球上線！首發實測：多鏡頭切換強到爆，30秒生成大片

▲Vidu按年訂閱價格(ge)

具體的生成效果和速度還得用了才知道，智東西第一時間拿到了內測資格并上手測試了Vidu。一番體驗下來(lai)，我主要有(you)以下幾點感受：

1、首先是快，經過掐(qia)表實(shi)測，Vidu生成4秒視頻不超過30秒。

2、語義理解能力很強，在100+字的長提示詞下，Vidu也能覆蓋到大部分細節并準確呈現。

3、Vidu實現了多鏡頭切換，能夠通過一(yi)個提示詞直接生成不同鏡頭的視(shi)(shi)頻，這對于(yu)影視(shi)(shi)場景等(deng)應用很有(you)價值。

4、運動幅度很大，無論是(shi)人物的表情、動(dong)作，還是(shi)景別切換，都保持(chi)了穩定性且沒有犧(xi)牲動(dong)幅(fu)。

5、對動漫風格的定向(xiang)優(you)化突出，能保持(chi)風格(ge)一致(zhi)性(xing)，避免了常見的崩壞現(xian)象。

Vidu體驗鏈接：www.vidu.studio

一、文生視頻：單提示詞鏡頭切換，支持生成英文數字

打開Vidu，在左側的文本框中，我可以直接輸入文字進行視頻生成，也可以讓系統隨機生成提示詞。文生視頻可以選擇寫實、動畫兩種風格，時長支持4秒、8秒固定長度(du)，其中8秒視頻需要訂(ding)閱套餐(can)。

圖生視頻則(ze)是上傳圖片(pian)后(hou)，選(xuan)擇用作起始幀或參考人物(wu)角色(se)，提示詞可(ke)有可(ke)無(wu)，此外(wai)不(bu)支持選(xuan)擇風格。

“清華系Sora”全球上線！首發實測：多鏡頭切換強到爆，30秒生成大片

▲Vidu視頻生成(cheng)界面

我們首先來測一下文生視頻的效果。

雖然主打動畫風格(ge)，但(dan)寫(xie)實風格(ge)對Vidu來說也(ye)不(bu)在話下。例如文章開頭的案例，如果(guo)用同樣的提示(shi)詞選擇寫(xie)實風格(ge)，生(sheng)成的視頻效果(guo)是這樣：

是不(bu)是還挺有(you)古(gu)風古(gu)韻那味兒的？

雖然視頻后半段出(chu)現(xian)了茶杯“閃現(xian)”的(de)失誤，但瑕(xia)不掩(yan)瑜(yu)，Vidu無論是(shi)對提示詞的(de)語義(yi)理(li)解(jie)上(shang)，還(huan)是(shi)對人(ren)臉、人(ren)手等細節的(de)呈現(xian)上(shang)，都挑不出(chu)什(shen)么毛病。要是(shi)清晰度能再上(shang)一層，說是(shi)影視劇(ju)片段也不為過。

Vidu也在系統內提供了分辨率提升的功能(neng)，點擊生成視頻底部的“超清(qing)”按鈕，就可以對(dui)視頻進行超清(qing)處理(li)。

在體驗過程中(zhong)，我發現Vidu對長文本(ben)的(de)理解，以及基于單提(ti)示詞生成多鏡頭的(de)能力很突出。

例如這段提示詞：在一個柔和燈光的浴室里，一只造型如美國動畫角色的泰迪熊正在洗澡。它部分沉浸在泡泡浴缸中，一只爪子拿著電話，另一只爪子在搓洗自己。柔和的燈光營造出溫暖和愜意的氛圍，浴室的瓷磚是舒緩的粉彩色，增強了溫馨和奇幻的氛圍。泰迪熊的表情專注，表現出洗澡和打電話的同時進行。

這(zhe)個提示詞很長，覆蓋了(le)對主體(ti)(ti)動作(zuo)、表情，場(chang)景氛圍(wei)、燈光等多個細節的(de)(de)描寫，而(er)Vidu都一一準確地表現了(le)出(chu)來。在理解語義的(de)(de)基礎上，Vidu還增加了(le)“側面描寫”，為泰迪(di)熊添加了(le)口型變(bian)化來體(ti)(ti)現“打(da)電話”。

再比如這段提示詞：先是一個滴答作響的懷表的特寫鏡頭，然后拉遠，揭示出相對而坐的兩個人物，緊張氣氛撲面而來。最后鏡頭轉到窗外，是一篇黑壓壓的山脈。

這段(duan)提示詞切(qie)換了3個鏡(jing)(jing)頭，Vidu準(zhun)確(que)生成了懷表的(de)特寫，并轉(zhuan)換成兩(liang)個人對話的(de)場景，最后又抬(tai)高(gao)鏡(jing)(jing)頭對準(zhun)了窗外。

值得一提的是，Vidu還支持在視頻中生成包含數字、英文的畫面(mian)。在上面(mian)的案(an)例中也可見(jian)一斑，懷表上的數字清晰可見(jian)，從1到12都很準確。

例如基于這個提示詞，我生成了一個動畫風格視頻：女孩捧著一個草莓生日蛋糕，上面插著蠟燭，蠟燭是數字“25”的形狀。

Vidu不僅準(zhun)確呈現了提示(shi)詞(ci)，還“自(zi)由發揮”了后半(ban)段女孩走遠和轉(zhuan)身的細節(jie)，并且在此過(guo)程中(zhong)，畫(hua)面背(bei)景和人物保持了高度一致性(xing)。

再來看看英文單詞的生成，我用的提示詞為：一只柯基身穿紅色的賽車服，頭戴小頭盔。在類似賽道的簡約布景上，柯基坐在一輛小巧流線型的賽車中，準備起跑，賽車車身印有“DOGE”字樣。

除了準確生成了“DOGE”字樣外，Vidu在這個視頻中還有一點驚艷到我：對光影的模擬。

在(zai)經過(guo)一段看起來像建筑陰影(ying)(ying)的(de)地方時，畫面(mian)主體的(de)柯(ke)基(ji)和賽車隨(sui)著(zhu)相對(dui)建筑的(de)位置(zhi)，從(cong)全部(bu)籠罩在(zai)陰影(ying)(ying)中，逐漸(jian)變為只(zhi)有柯(ke)基(ji)在(zai)陰影(ying)(ying)中、全部(bu)暴露在(zai)陽光(guang)下。雖然過(guo)渡(du)還(huan)有些不自然，但(dan)在(zai)一定(ding)程(cheng)度上體現了對(dui)物理世界(jie)光(guang)影(ying)(ying)關系的(de)模擬。

當然，Vidu也有“翻車(che)”的時候，在遇到涉(she)及大幅度運動或是偏專業場(chang)景的時候，它(ta)明顯有些力不(bu)從心。

例如我想讓它生成一個奧運會場景，提示詞為：在奧運會的乒乓球賽場上，燈光閃耀，觀眾們熱情歡呼。甲和乙站在球臺兩端，甲表情自信地準備發球，他將球高高拋起，然后用力揮拍發球。球在空中劃過一道弧線，乙則表情沉穩，快速移動腳步，精準地揮拍接球，隨后球在半空快速穿梭，甲眼神期待，乙頑強應對，兩人開始了激烈的對打，展現出高超的乒乓球技藝。

“清華系Sora”全球上線！首發實測：多鏡頭切換強到爆，30秒生成大片

無論是動(dong)畫還是寫實風格，Vidu在這個提示(shi)詞上都(dou)大翻車，要(yao)么讓運動(dong)員(yuan)站在了球(qiu)臺的側面，要(yao)么直接(jie)在球(qiu)臺的一邊生成了第三(san)個運動(dong)員(yuan)，還“放(fang)任”運動(dong)員(yuan)大肆犯規(gui)。

總的(de)來(lai)說，在文(wen)生視頻中(zhong)，Vidu已(yi)經(jing)能(neng)應對大部分較(jiao)為日常的(de)場景(jing)，雖然有(you)失誤和翻車情況，但(dan)整體瑕不掩瑜，并且這些情況也可(ke)能(neng)通過(guo)“抽(chou)卡(ka)”解決。同時，Vidu對文(wen)字、多鏡頭(tou)的(de)支持能(neng)大幅減少后期的(de)工(gong)作，在實際應用(yong)中(zhong)有(you)很大的(de)價值。

二、圖生視頻：角色風格高度一致，“紙片人”也能復刻

在圖生視頻方面，Vidu支持起始幀參考和角色一致參考兩種方式。

這兩個功能可以說(shuo)是表情(qing)包和梗圖制(zhi)作神器了，比如我(wo)可以讓馬斯克變(bian)身深(shen)情(qing)男，為屏幕對面(mian)獻(xian)上玫瑰。

“清華系Sora”全球上線！首發實測：多鏡頭切換強到爆，30秒生成大片

或者讓他換(huan)上金剛狼(lang)的(de)衣(yi)服，在(zai)城市夜景中(zhong)“大秀(xiu)肌肉”。

“清華系Sora”全球上線！首發實測：多鏡頭切換強到爆，30秒生成大片

我也(ye)可以用Vidu讓(rang)喜歡的(de)照片動起來(lai)，比(bi)如上傳一張戴墨鏡(jing)男孩的(de)照片，把他的(de)墨鏡(jing)摘下來(lai)。

雖然這個人臉看起來有點詭異，但你就說墨(mo)鏡摘(zhai)(zhai)沒摘(zhai)(zhai)吧(ba)（doge）。

我又上傳了一張舉著攝像機的人像照片，輸入提示詞：男孩轉身面向鏡頭。

“清華系Sora”全球上線！首發實測：多鏡頭切換強到爆，30秒生成大片

在保持發(fa)型、服裝一(yi)致性(xing)的前提下，Vidu不僅讓人(ren)物面向了(le)鏡頭，還發(fa)揮想(xiang)象力(li)為他(ta)生成(cheng)了(le)一(yi)個歐美(mei)男孩的臉，比上一(yi)個視(shi)頻中的臉進步了(le)不少(shao)。

不過，用AI復(fu)活(huo)真人照片(pian)已經涌現出不少玩法了。既然(ran)Vidu針對動漫風格進行了專門的(de)優(you)化，那(nei)它能(neng)復(fu)活(huo)“紙片(pian)人”嗎？

我上(shang)傳了一張日本動畫角色C.C.的特(te)寫，首先不寫任(ren)何提示詞，選(xuan)擇用作起始幀，看(kan)看(kan)Vidu會如何自由發揮(hui)。

“清華系Sora”全球上線！首發實測：多鏡頭切換強到爆，30秒生成大片

▲日本動畫角色C.C.特(te)寫

不(bu)得不(bu)說(shuo)，Vidu的(de)(de)表現有些超出我的(de)(de)預期(qi)了(le)(le)，其(qi)在初始畫面的(de)(de)基(ji)礎(chu)上變(bian)換了(le)(le)人物角度、表情，在此過程中不(bu)僅保證(zheng)了(le)(le)畫面的(de)(de)流暢(chang)和風格一(yi)致(zhi)性，還(huan)讓頭發進行(xing)了(le)(le)大幅(fu)度隨風飄動，有點(dian)“中二病”那味(wei)兒了(le)(le)。

“清華系Sora”全球上線！首發實測：多鏡頭切換強到爆，30秒生成大片

同樣是上傳這張參考圖，我又嘗試選擇參考人物角色，隨后分別輸入“她微笑著，向鏡頭伸出雙手”、“她生氣地抱著雙臂，轉過頭不理你”作為提示詞。

“清華系Sora”全球上線！首發實測：多鏡頭切換強到爆，30秒生成大片

令我驚訝的是(shi)，即使(shi)是(shi)“紙片(pian)人”，Vidu也實現了很高(gao)的角色一(yi)致性(xing)，雖(sui)然(ran)畫風(feng)有所變化，但人物的發(fa)色、瞳色、衣服都(dou)保持一(yi)致。不過在第二個(ge)提(ti)示詞中(zhong)，Vidu沒能呈現“轉過頭”這(zhe)個(ge)動作(zuo)。

看來2D平(ping)面角(jiao)(jiao)色(se)問題不大，那(nei)3D角(jiao)(jiao)色(se)呢？我(wo)上傳(chuan)了一(yi)款日(ri)本游(you)戲中的角(jiao)(jiao)色(se)愛麗(li)絲(si)。

“清華系Sora”全球上線！首發實測：多鏡頭切換強到爆，30秒生成大片

▲日本游戲角色愛(ai)麗絲(si)

選擇參考人物角色后，我輸入提示詞：她幸福地笑著，眼睛瞇成一條線，背景是一片花海。

Vidu基(ji)本復現了她(ta)的(de)(de)發型、發飾和(he)服裝，但人臉顯然并不是同一張，同時(shi)發型等細看也有不一致，有點像(xiang)Cosplay和(he)原版的(de)(de)差別。不過在對提(ti)示詞的(de)(de)理解和(he)表達上(shang)，Vidu倒是沒什么(me)失誤。

“紙(zhi)片人”都試(shi)了，“紙(zhi)片動物”是不是也能(neng)一(yi)試(shi)？我上傳了一(yi)張(zhang)杰瑞，讓(rang)Vidu將其作為起始幀生成了下面這個視頻。

“清華系Sora”全球上線！首發實測：多鏡頭切換強到爆，30秒生成大片

只見(jian)小杰瑞表(biao)情、動作都(dou)十分生(sheng)動，就(jiu)是Vidu似乎沒分清他的(de)左右(you)腿(tui)……

總的來說，在圖生(sheng)視頻(pin)方面，Vidu不(bu)僅能實現其他(ta)同類產(chan)品復活照片的功能，而且(qie)基于對動(dong)漫風格的優化，它能將真實人物照片中(zhong)的玩法延伸到二次元，這為動(dong)畫、游戲等(deng)行(xing)業帶來了新的價(jia)值。

結語：劍走偏鋒，Vidu走出差異化道路

AI視頻生成賽(sai)道迎來小高潮，上(shang)周愛詩(shi)科技(ji)、智譜AI剛剛發布新模(mo)型，今天生數科技(ji)就甩出Vidu大模(mo)型迎戰。

Vidu大(da)模型在(zai)今年4月首次發布，當(dang)時據(ju)稱支(zhi)持(chi)一(yi)(yi)(yi)鍵(jian)生成(cheng)16秒(miao)、分(fen)辨率1080P的高清視頻內(nei)容，具備多(duo)(duo)鏡頭生成(cheng)、時空一(yi)(yi)(yi)致(zhi)性(xing)高等特點。從這次體驗來看(kan)，雖然(ran)Vidu還沒有(you)上線16秒(miao)視頻生成(cheng)的能力，清晰(xi)度也有(you)待(dai)提高，但在(zai)多(duo)(duo)鏡頭、一(yi)(yi)(yi)致(zhi)性(xing)方(fang)面確(que)實(shi)有(you)很大(da)突破，這為Vidu帶來了差(cha)異化的特點。

短短5個(ge)多月，國內(nei)大廠、創(chuang)企紛(fen)紛(fen)亮出(chu)殺(sha)手锏，國產視頻生成大模型與Sora的差距(ju)越(yue)來越(yue)小(xiao)，甚至已經實現彎道(dao)超車(che)。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、文生視頻：單提示詞鏡頭切換，支持生成英文數字

二、圖生視頻：角色風格高度一致，“紙片人”也能復刻

結語：劍走偏鋒，Vidu走出差異化道路

相關推薦