国产视频大模型双榜登顶！分数超Runway、Sora，一镜到底运镜丝滑，价格低至3毛/秒

智東西（公眾號：zhidxcom）
作者 | ZeR0
編輯 | 漠影

智東西(xi)4月22日報道(dao)，AI視(shi)(shi)頻生(sheng)成創企生(sheng)數科技最(zui)新上(shang)線的全(quan)新Vidu Q1視(shi)(shi)頻大模型，同時登上(shang)多(duo)個權威(wei)文生(sheng)視(shi)(shi)頻、圖(tu)生(sheng)視(shi)(shi)頻基準測(ce)試榜單的第一。

該模型可支持生成1080p分辨率5秒視頻，生成效果清晰穩定，已在網頁端（Vidu.cn）、手機端上線。

相較(jiao)2.0版(ban)本(ben)，Vidu Q1進一步提升(sheng)了語義理解、畫質(zhi)、動作(zuo)、美學、逼真和絲滑程度，首(shou)尾幀銜(xian)接更加流暢，上傳兩張(zhang)圖就能生成一鏡(jing)到底的自然運鏡(jing)。

性價比也相當高。一個1080p 5秒視頻價格最低1.34元，價格低至0.3元/秒，僅為同類產品的1/10。

Vidu Q1的動態表現出(chu)色，能(neng)駕(jia)馭特寫、特效(xiao)、微縮鏡頭，生成(cheng)即可商(shang)用(yong)，適用(yong)于廣告(gao)營銷、短劇、電商(shang)、互動娛(yu)樂等場景。比如(ru)用(yong)它生成(cheng)耳機、香水(shui)的廣告(gao)：

有海外網友反饋說，Vidu Q1對提示(shi)(shi)詞的(de)遵循表(biao)現提升(sheng)很(hen)多(duo)，能執行一(yi)些復雜的(de)提示(shi)(shi)詞，比Veo2的(de)表(biao)現更好。

這位網友曬出了用Vidu Q1做的毛氈風動畫。視頻中，小狗從(cong)虛化到清晰的聚(ju)焦轉換處理得非常自然。

Vidu Q1已拿(na)下海外權威視頻(pin)(pin)生成(cheng)(cheng)評測榜單VBench-1.0和VBench-2.0綜(zong)合榜單的雙冠(guan)，分數超越Runway、Sora、Luma AI等國內外知名視頻(pin)(pin)生成(cheng)(cheng)模(mo)型(xing)，并(bing)在(zai)VBench-1.0的視頻(pin)(pin)質(zhi)量、視頻(pin)(pin)語義一(yi)致性和VBench-2.0的常識推理(li)、物理(li)理(li)解這幾個綜(zong)合維度上達到SOTA水平(ping)（即當前最先進的模(mo)型(xing)）。

同期，Vidu Q1也在國內權威通用(yong)大模型綜合性(xing)測評基準SuperCLUE最新的圖生視頻榜單中，拿(na)下動漫風格(ge)、寫實風格(ge)雙(shuang)榜單的第一。

生數科(ke)技還推出了(le)全(quan)新AI音效功能(neng)，支持一句(ju)話生成專屬(shu)音效、精細(xi)控制每段音頻的出現(xian)時間點。

一、兩張圖實現電影級運鏡，視頻生成風格多元，多人物遮擋也不會崩

Vidu Q1首尾(wei)幀功能升級(ji)，基于兩張圖即可實現電影級(ji)運鏡(jing)。

比如(ru)上傳這兩(liang)張(zhang)圖(tu)，分別作(zuo)為首幀(zhen)和尾幀(zhen)：

輸入提示詞“女特工手持手槍，射出子彈，子彈穿破玻璃球瞬間爆炸，吉恩·科蘭的漫畫風格，緊張刺激的動畫場景”后(hou)，Vidu Q1生成的(de)視頻效果是這樣(yang)的(de)：

在生成電影場景方面(mian)，Vidu的(de)畫面(mian)表現力已(yi)經接(jie)近以假(jia)亂真的(de)水平(ping)，而且能夠(gou)對復雜語義理解到位。

例(li)如(ru)(ru)，讓Vidu Q1按如(ru)(ru)下提(ti)示詞生成視頻(pin)：

提示詞：深夜古堡的走廊，身穿(chuan)西裝的男子手(shou)持蠟燭轉身走在(zai)走廊中，兩旁的燈光忽明忽暗(an)，緊張刺激的氛圍，推進鏡頭拍攝，鏡頭定格在(zai)男子的臉。

提(ti)示詞：寂靜的車(che)廂(xiang)里(li)，老(lao)人抽著香煙(yan)，煙(yan)霧彌漫，車(che)廂(xiang)內的燈(deng)光忽明忽暗，鏡頭推(tui)進拍(pai)攝，推(tui)進到老(lao)人的臉部。

提示(shi)詞：鏡頭聚焦(jiao)于一位身穿皮夾克的(de)男子，他獨(du)自行走(zou)在(zai)白天的(de)城市街(jie)道上。陽光在(zai)人行道上投(tou)射出逼(bi)真(zhen)的(de)陰影，背景(jing)中是(shi)汽(qi)車和行人，而模糊的(de)畫面(mian)則(ze)以電影般的(de)照片寫實風格呈(cheng)現。

在主(zhu)角快速移動且存在遮擋的(de)情(qing)景下，Vidu Q1依然能夠生成(cheng)人物(wu)運動自然、穩定的(de)視頻。

提(ti)示(shi)詞：一(yi)張黑白照片，一(yi)位優雅的黑發女子穿(chuan)過人群，動作模糊，從街道拍攝，穿(chuan)著現代服裝，空(kong)靈，穿(chuan)越時空(kong)，電影(ying)(ying)攝影(ying)(ying)，對比，顆粒

在(zai)Vidu模型(xing)已經非常擅長的AI動(dong)(dong)(dong)漫(man)(man)場景，Vidu Q1繼續保持行業(ye)領先并(bing)再度升(sheng)級動(dong)(dong)(dong)漫(man)(man)風(feng)格，支持日漫(man)(man)、3D動(dong)(dong)(dong)漫(man)(man)等(deng)多元化動(dong)(dong)(dong)漫(man)(man)風(feng)格，風(feng)格一致性較(jiao)好(hao)，動(dong)(dong)(dong)態表現自(zi)然、穩定流暢，畫面生動(dong)(dong)(dong)。

提示(shi)詞：充滿活(huo)力(li)的(de)(de)動漫風格水(shui)(shui)下場(chang)景，一個睜大眼睛的(de)(de)女孩，有著(zhu)飄逸的(de)(de)水(shui)(shui)藍(lan)色雙馬尾(wei)和水(shui)(shui)手(shou)風格的(de)(de)校服，輕(qing)輕(qing)地懸浮(fu)在水(shui)(shui)中，伸手(shou)去夠在閃(shan)閃(shan)發光的(de)(de)氣泡(pao)和旋(xuan)轉的(de)(de)光束(shu)中嬉戲(xi)游動的(de)(de)金橙(cheng)色錦鯉魚，魔幻的(de)(de)氛圍，超細節，吉卜(bu)力(li)風格的(de)(de)幻想，16：9 的(de)(de)寬高比(bi)

提示詞(ci)：一個(ge)身穿運動服的(de)(de)超現實(shi)動漫風(feng)(feng)格女(nv)孩，被特(te)寫鏡(jing)(jing)頭(tou)捕捉到，她滿(man)臉(lian)雀(que)斑(ban)，汗(han)流浹背(bei)，臉(lian)頰(jia)緋紅，睜(zheng)大(da)的(de)(de)眼(yan)睛反映出情感(gan)和(he)好奇，對著(zhu)鏡(jing)(jing)頭(tou)眨(zha)眼(yan)微(wei)笑，慢(man)慢(man)地把手(shou)伸向屏幕，廣角微(wei)距鏡(jing)(jing)頭(tou)拍攝，超現實(shi)的(de)(de)紋理與風(feng)(feng)格化的(de)(de)柔(rou)和(he)相結合(he)，充滿(man)情感(gan)的(de)(de)時刻，16：9 的(de)(de)寬高比(bi)”

由于我們把Vidu Q1生成視(shi)(shi)頻(pin)轉換成了gif動(dong)圖格式，畫質(zhi)有所(suo)壓縮。原視(shi)(shi)頻(pin)很高清，可(ke)以看到皮膚(fu)上(shang)清晰(xi)逼真的紋理和(he)汗跡。

Vidu Q1同(tong)時支持文生視(shi)頻(pin)(pin)、圖(tu)生視(shi)頻(pin)(pin)，下方是用圖(tu)生視(shi)頻(pin)(pin)功(gong)能(neng)生成(cheng)的日漫風格視(shi)頻(pin)(pin)示例(li)。

二、AI音效功能發布：精準控制時間點，可多段音效疊加，率先支持48KHz高保真

除(chu)了上線Vidu Q1外(wai)，生數(shu)科(ke)技還推(tui)出了全新AI音(yin)效(xiao)（AI Sound Effects）功能。該功能具有三(san)個主要特點：

（1）精準Timing：可精準控制每段音效的長短區間，精準設置每段音頻出現的時間點，如0-2s風聲、3-5s雨聲，是商業領域全球首家支持精(jing)細化時間(jian)控制的(de)文生音(yin)效系統。

（2）音效疊加：支持多段音效(xiao)疊加(jia)，比如暴雨(yu)天(tian)的場景，涉及雨(yu)聲(sheng)、風聲(sheng)、打雷聲(sheng)等多種類型聲(sheng)音的混合，可以通過“音效(xiao)疊加(jia)”來實現層次分(fen)明(ming)且動態(tai)變(bian)化的音效(xiao)，具備影視級(ji)混音表(biao)達力(li)。

例(li)如用它生成鍵盤聲咖啡機的復合音效。

提(ti)示詞：{“提(ti)示”: “@{敲打鍵盤 & <0.00,8.00>}@{打印機噪聲 & <2.00,3.00>}@{咖啡機 & <4.50,5.50>}”,”開始秒數(shu)”: 0,”開始秒數(shu)”: 8.0}

（3）高采樣率音頻，高保真音質：行(xing)業(ye)大部分為16kHz、32kHz，Vidu做(zuo)出了商業(ye)領(ling)域全球首家支持48KHz的文生音效系統，解決音效刺耳(er)、壓縮(suo)失真、聲(sheng)音不自然(ran)流暢等問題。

可(ke)以感(gan)受下用(yong)該功能生成的48kHz高保真蟋蟀(shuai)聲、“世界毀滅”氛圍感(gan)音效：

提示詞(ci)：蟋蟀聲(sheng)

提(ti)示(shi)詞：形容世界毀滅的音(yin)樂

結語：AI視頻生成進步提速，正重塑視頻制作方式

生(sheng)成(cheng)(cheng)式(shi)AI正以前所未有(you)的(de)速度重塑視頻制作的(de)方式(shi)。AI視頻生(sheng)成(cheng)(cheng)工具的(de)迭代升級(ji)，有(you)望使動(dong)漫、影視、廣告、視頻剪(jian)輯、UGC創作平臺(tai)等眾多行業受益。

近年(nian)來，AI視頻生成(cheng)(cheng)模(mo)型的進步日(ri)新月異，從(cong)只能生成(cheng)(cheng)幾(ji)秒鐘的簡單視頻畫面(mian)，逐漸(jian)發展(zhan)到能夠輸出(chu)更加復(fu)雜、連貫、自然(ran)的高質量視頻內容，不斷為視頻內容創(chuang)作拓寬邊界(jie)和降低門(men)檻。

從Vidu Q1的發布(bu)可(ke)以看到，準確的語義理解、擬真的表(biao)現力、角(jiao)色穩(wen)定(ding)一致、強(qiang)時(shi)空連貫性等特性，是當前視頻生成模(mo)型提高輸(shu)出質量的重要優化(hua)方向。

與此同時，更好用的(de)AI視(shi)頻工具還要搭配(pei)更豐富、便利的(de)編輯功能(neng)。

生(sheng)數科技最新推(tui)出的(de)AI音(yin)效(xiao)功(gong)能(neng)可(ke)與視頻生(sheng)成(cheng)(cheng)功(gong)能(neng)形成(cheng)(cheng)互補，根據視頻或場景(jing)，用一段文字即可(ke)自(zi)動生(sheng)成(cheng)(cheng)符合氛(fen)圍、精準匹配視頻畫面的(de)背(bei)景(jing)音(yin)樂或個性化音(yin)效(xiao)，有助于減(jian)少(shao)搜(sou)索音(yin)效(xiao)庫的(de)時間，甚至減(jian)少(shao)對昂貴版權音(yin)樂的(de)依(yi)賴。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、兩張圖實現電影級運鏡，視頻生成風格多元，多人物遮擋也不會崩

二、AI音效功能發布：精準控制時間點，可多段音效疊加，率先支持48KHz高保真

結語：AI視頻生成進步提速，正重塑視頻制作方式

相關推薦