智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西(xi)4月22日報道(dao),AI視(shi)(shi)頻生(sheng)成創企生(sheng)數科技最(zui)新上(shang)線的全(quan)新Vidu Q1視(shi)(shi)頻大模型,同時登上(shang)多(duo)個權威(wei)文生(sheng)視(shi)(shi)頻、圖(tu)生(sheng)視(shi)(shi)頻基準測(ce)試榜單的第一。

該模型可支持生成1080p分辨率5秒視頻,生成效果清晰穩定,已在網頁端(Vidu.cn)、手機端上線。

相較(jiao)2.0版(ban)本(ben),Vidu Q1進一步提升(sheng)了語義理解、畫質(zhi)、動作(zuo)、美學、逼真和絲滑程度,首(shou)尾幀銜(xian)接更加流暢,上傳兩張(zhang)圖就能生成一鏡(jing)到底的自然運鏡(jing)。

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

性價比也相當高。一個1080p 5秒視頻價格最低1.34元,價格低至0.3元/秒,僅為同類產品的1/10

Vidu Q1的動態表現出(chu)色,能(neng)駕(jia)馭特寫、特效(xiao)、微縮鏡頭,生成(cheng)即可商(shang)用(yong),適用(yong)于廣告(gao)營銷、短劇、電商(shang)、互動娛(yu)樂等場景。比如(ru)用(yong)它生成(cheng)耳機、香水(shui)的廣告(gao):

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

有海外網友反饋說,Vidu Q1對提示(shi)(shi)詞的(de)遵循表(biao)現提升(sheng)很(hen)多(duo),能執行一(yi)些復雜的(de)提示(shi)(shi)詞,比Veo2的(de)表(biao)現更好。

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

這位網友曬出了用Vidu Q1做的毛氈風動畫。視頻中,小狗從(cong)虛化到清晰的聚(ju)焦轉換處理得非常自然。

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

Vidu Q1已拿(na)下海外權威視頻(pin)(pin)生成(cheng)(cheng)評測榜單VBench-1.0和VBench-2.0綜(zong)合榜單的雙冠(guan),分數超越Runway、Sora、Luma AI等國內外知名視頻(pin)(pin)生成(cheng)(cheng)模(mo)型(xing),并(bing)在(zai)VBench-1.0的視頻(pin)(pin)質(zhi)量、視頻(pin)(pin)語義一(yi)致性和VBench-2.0的常識推理(li)、物理(li)理(li)解這幾個綜(zong)合維度上達到SOTA水平(ping)(即當前最先進的模(mo)型(xing))。

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

同期,Vidu Q1也在國內權威通用(yong)大模型綜合性(xing)測評基準SuperCLUE最新的圖生視頻榜單中,拿(na)下動漫風格(ge)、寫實風格(ge)雙(shuang)榜單的第一。

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

生數科(ke)技還推出了(le)全(quan)新AI音效功能(neng),支持一句(ju)話生成專屬(shu)音效、精細(xi)控制每段音頻的出現(xian)時間點。

一、兩張圖實現電影級運鏡,視頻生成風格多元,多人物遮擋也不會崩

Vidu Q1首尾(wei)幀功能升級(ji),基于兩張圖即可實現電影級(ji)運鏡(jing)。

比如(ru)上傳這兩(liang)張(zhang)圖(tu),分別作(zuo)為首幀(zhen)和尾幀(zhen):

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

輸入提示詞“女特工手持手槍,射出子彈,子彈穿破玻璃球瞬間爆炸,吉恩·科蘭的漫畫風格,緊張刺激的動畫場景”后(hou),Vidu Q1生成的(de)視頻效果是這樣(yang)的(de):

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

在生成電影場景方面(mian),Vidu的(de)畫面(mian)表現力已(yi)經接(jie)近以假(jia)亂真的(de)水平(ping),而且能夠(gou)對復雜語義理解到位。

例(li)如(ru)(ru),讓Vidu Q1按如(ru)(ru)下提(ti)示詞生成視頻(pin):

提示詞:深夜古堡的走廊,身穿(chuan)西裝的男子手(shou)持蠟燭轉身走在(zai)走廊中,兩旁的燈光忽明忽暗(an),緊張刺激的氛圍,推進鏡頭拍攝,鏡頭定格在(zai)男子的臉。

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

提(ti)示詞:寂靜的車(che)廂(xiang)里(li),老(lao)人抽著香煙(yan),煙(yan)霧彌漫,車(che)廂(xiang)內的燈(deng)光忽明忽暗,鏡頭推(tui)進拍(pai)攝,推(tui)進到老(lao)人的臉部。

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

提示(shi)詞:鏡頭聚焦(jiao)于一位身穿皮夾克的(de)男子,他獨(du)自行走(zou)在(zai)白天的(de)城市街(jie)道上。陽光在(zai)人行道上投(tou)射出逼(bi)真(zhen)的(de)陰影,背景(jing)中是(shi)汽(qi)車和行人,而模糊的(de)畫面(mian)則(ze)以電影般的(de)照片寫實風格呈(cheng)現。

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

在主(zhu)角快速移動且存在遮擋的(de)情(qing)景下,Vidu Q1依然能夠生成(cheng)人物(wu)運動自然、穩定的(de)視頻。

提(ti)示(shi)詞:一(yi)張黑白照片,一(yi)位優雅的黑發女子穿(chuan)過人群,動作模糊,從街道拍攝,穿(chuan)著現代服裝,空(kong)靈,穿(chuan)越時空(kong),電影(ying)(ying)攝影(ying)(ying),對比,顆粒

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

在(zai)Vidu模型(xing)已經非常擅長的AI動(dong)(dong)(dong)漫(man)(man)場景,Vidu Q1繼續保持行業(ye)領先并(bing)再度升(sheng)級動(dong)(dong)(dong)漫(man)(man)風(feng)格,支持日漫(man)(man)、3D動(dong)(dong)(dong)漫(man)(man)等(deng)多元化動(dong)(dong)(dong)漫(man)(man)風(feng)格,風(feng)格一致性較(jiao)好(hao),動(dong)(dong)(dong)態表現自(zi)然、穩定流暢,畫面生動(dong)(dong)(dong)。

提示(shi)詞:充滿活(huo)力(li)的(de)(de)動漫風格水(shui)(shui)下場(chang)景,一個睜大眼睛的(de)(de)女孩,有著(zhu)飄逸的(de)(de)水(shui)(shui)藍(lan)色雙馬尾(wei)和水(shui)(shui)手(shou)風格的(de)(de)校服,輕(qing)輕(qing)地懸浮(fu)在水(shui)(shui)中,伸手(shou)去夠在閃(shan)閃(shan)發光的(de)(de)氣泡(pao)和旋(xuan)轉的(de)(de)光束(shu)中嬉戲(xi)游動的(de)(de)金橙(cheng)色錦鯉魚,魔幻的(de)(de)氛圍,超細節,吉卜(bu)力(li)風格的(de)(de)幻想,16:9 的(de)(de)寬高比(bi)

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

提示詞(ci):一個(ge)身穿運動服的(de)(de)超現實(shi)動漫風(feng)(feng)格女(nv)孩,被特(te)寫鏡(jing)(jing)頭(tou)捕捉到,她滿(man)臉(lian)雀(que)斑(ban),汗(han)流浹背(bei),臉(lian)頰(jia)緋紅,睜(zheng)大(da)的(de)(de)眼(yan)睛反映出情感(gan)和(he)好奇,對著(zhu)鏡(jing)(jing)頭(tou)眨(zha)眼(yan)微(wei)笑,慢(man)慢(man)地把手(shou)伸向屏幕,廣角微(wei)距鏡(jing)(jing)頭(tou)拍攝,超現實(shi)的(de)(de)紋理與風(feng)(feng)格化的(de)(de)柔(rou)和(he)相結合(he),充滿(man)情感(gan)的(de)(de)時刻,16:9 的(de)(de)寬高比(bi)”

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

由于我們把Vidu Q1生成視(shi)(shi)頻(pin)轉換成了gif動(dong)圖格式,畫質(zhi)有所(suo)壓縮。原視(shi)(shi)頻(pin)很高清,可(ke)以看到皮膚(fu)上(shang)清晰(xi)逼真的紋理和(he)汗跡。

Vidu Q1同(tong)時支持文生視(shi)頻(pin)(pin)、圖(tu)生視(shi)頻(pin)(pin),下方是用圖(tu)生視(shi)頻(pin)(pin)功(gong)能(neng)生成(cheng)的日漫風格視(shi)頻(pin)(pin)示例(li)。

國產視頻大模型雙榜登頂!分數超Runway、Sora,一鏡到底運鏡絲滑,價格低至3毛/秒

二、AI音效功能發布:精準控制時間點,可多段音效疊加,率先支持48KHz高保真

除(chu)了上線Vidu Q1外(wai),生數(shu)科(ke)技還推(tui)出了全新AI音(yin)效(xiao)(AI Sound Effects)功能。該功能具有三(san)個主要特點:

(1)精準Timing:可精準控制每段音效的長短區間,精準設置每段音頻出現的時間點,如0-2s風聲、3-5s雨聲,是商業領域全球首家支持精(jing)細化時間(jian)控制的(de)文生音(yin)效系統。

(2)音效疊加:支持多段音效(xiao)疊加(jia),比如暴雨(yu)天(tian)的場景,涉及雨(yu)聲(sheng)、風聲(sheng)、打雷聲(sheng)等多種類型聲(sheng)音的混合,可以通過“音效(xiao)疊加(jia)”來實現層次分(fen)明(ming)且動態(tai)變(bian)化的音效(xiao),具備影視級(ji)混音表(biao)達力(li)。

例(li)如用它生成鍵盤聲咖啡機的復合音效。

提(ti)示詞:{“提(ti)示”: “@{敲打鍵盤 & <0.00,8.00>}@{打印機噪聲 & <2.00,3.00>}@{咖啡機 & <4.50,5.50>}”,”開始秒數(shu)”: 0,”開始秒數(shu)”: 8.0}

(3)高采樣率音頻,高保真音質:行(xing)業(ye)大部分為16kHz、32kHz,Vidu做(zuo)出了商業(ye)領(ling)域全球首家支持48KHz的文生音效系統,解決音效刺耳(er)、壓縮(suo)失真、聲(sheng)音不自然(ran)流暢等問題。

可(ke)以感(gan)受下用(yong)該功能生成的48kHz高保真蟋蟀(shuai)聲、“世界毀滅”氛圍感(gan)音效:

提示詞(ci):蟋蟀聲(sheng)

提(ti)示(shi)詞:形容世界毀滅的音(yin)樂

結語:AI視頻生成進步提速,正重塑視頻制作方式

生(sheng)成(cheng)(cheng)式(shi)AI正以前所未有(you)的(de)速度重塑視頻制作的(de)方式(shi)。AI視頻生(sheng)成(cheng)(cheng)工具的(de)迭代升級(ji),有(you)望使動(dong)漫、影視、廣告、視頻剪(jian)輯、UGC創作平臺(tai)等眾多行業受益。

近年(nian)來,AI視頻生成(cheng)(cheng)模(mo)型的進步日(ri)新月異,從(cong)只能生成(cheng)(cheng)幾(ji)秒鐘的簡單視頻畫面(mian),逐漸(jian)發展(zhan)到能夠輸出(chu)更加復(fu)雜、連貫、自然(ran)的高質量視頻內容,不斷為視頻內容創(chuang)作拓寬邊界(jie)和降低門(men)檻。

從Vidu Q1的發布(bu)可(ke)以看到,準確的語義理解、擬真的表(biao)現力、角(jiao)色穩(wen)定(ding)一致、強(qiang)時(shi)空連貫性等特性,是當前視頻生成模(mo)型提高輸(shu)出質量的重要優化(hua)方向。

與此同時,更好用的(de)AI視(shi)頻工具還要搭配(pei)更豐富、便利的(de)編輯功能(neng)。

生(sheng)數科技最新推(tui)出的(de)AI音(yin)效(xiao)功(gong)能(neng)可(ke)與視頻生(sheng)成(cheng)(cheng)功(gong)能(neng)形成(cheng)(cheng)互補,根據視頻或場景(jing),用一段文字即可(ke)自(zi)動生(sheng)成(cheng)(cheng)符合氛(fen)圍、精準匹配視頻畫面的(de)背(bei)景(jing)音(yin)樂或個性化音(yin)效(xiao),有助于減(jian)少(shao)搜(sou)索音(yin)效(xiao)庫的(de)時間,甚至減(jian)少(shao)對昂貴版權音(yin)樂的(de)依(yi)賴。