智東西(公眾號:zhidxcom)
作者 | 云鵬
編輯 | 漠影

今天,AI視頻模型火爆全球,呈現出百家爭鳴的態勢。雖然Sora姍姍來遲,卻還是在上線當天就被擠爆了服務器。

國(guo)外(wai)有(you)Runway、Luma AI這樣的(de)老牌玩家(jia),國(guo)內則(ze)有(you)各路AI創企和互聯(lian)網科技巨(ju)頭接(jie)連亮出(chu)自家(jia)的(de)“中國(guo)造(zao)Sora”,各種AI生成視頻越來越多地出(chu)現(xian)在(zai)大眾視野中。

愛(ai)詩科技(ji)、生數(shu)科技(ji)、Minimax等AI創企不斷(duan)掏出新(xin)策(ce)略、新(xin)功(gong)能(neng)、新(xin)玩法輪番(fan)轟炸,而(er)科技(ji)大(da)廠(chang)字節跳(tiao)動、快手也入(ru)場攪(jiao)局。

▲由愛(ai)詩科技旗下PixVerse v3.5生成

與此同時,AI視頻生成技術也在快速迭代發展,競爭來到新的階段。AI視頻模型的競爭開始從能用到好用,視頻生(sheng)成(cheng)的速(su)度、質量成(cheng)為核心競(jing)爭焦點;另一邊,視頻生(sheng)成(cheng)也不局限于文(wen)字(zi),隨手(shou)發一張圖就(jiu)能(neng)生(sheng)成(cheng)精美視頻已經(jing)成(cheng)為現實。

在這批AI視頻生成開拓者們中間,國內愛詩科技旗下PixVerse已成為跑的最快的一家,并在全球市場立下了良好口碑。PixVerse App海外市場一經上線,在多個國家殺入下載榜前列甚至位列榜首。

從上個月剛剛火爆全網、朋友圈頻頻刷屏的“毒液特效”視頻,到12月“猛男肌肉特效”視頻,這些“經典”都出自PixVerse之手,二者在生成總量上超過幾百萬次,在海外Tiktok平臺曝光量已經過億,其在全球范圍的熱度甚至(zhi)一度超越了Runway和Sora。

最快5秒光速出片,全球首個接近實時生成的AI視頻模型來了

▲谷歌搜索熱度趨勢圖,來(lai)源(yuan):Google Trends

在C端取得如此驕人戰績后,PixVerse繼續加快腳步,開“卷”專業AI創作能力,最(zui)近PixVerse的v3.5模型版本已(yi)經正式發布(bu)。

不少海外AI專(zhuan)業(ye)創(chuang)作者和(he)藝術家都在體驗測試(shi)版的過程(cheng)中給(gei)出了極高的評價,稱(cheng)3.5版本(ben)具有非常(chang)高的靈活性、富有創(chuang)意,并且動畫效果著實很贊。

最快5秒光速出片,全球首個接近實時生成的AI視頻模型來了

▲AI藝術家Pierrick Chevallier

正式(shi)上(shang)線(xian)后,立刻有(you)不少用戶(hu)亮出了自己的得(de)意新(xin)作,效果(guo)還(huan)是比(bi)較驚艷(yan)的:

最快5秒光速出片,全球首個接近實時生成的AI視頻模型來了

▲來自X平臺(tai)用(yong)戶Alfred Cadoux

最快5秒光速出片,全球首個接近實時生成的AI視頻模型來了

▲來(lai)自X平臺(tai)AI創作者AZIZ

智東西也提前體驗了PixVerse v3.5的內測版本,其生成速度領先數倍于競品,畫面細節滿滿、想象力豐富,動漫效果更是一騎絕塵,可以說十分驚艷。從日常娛樂到專業創作,AI視頻生成正愈發深度地走進我們的生活。

一、5秒光速出圖,全球首個接近實時生成的AI視頻模型來了

為了感受PixVerse生成視頻速(su)度之快,我們首先挑選了一個(ge)日常(chang)(chang)生活(huo)中(zhong)常(chang)(chang)常(chang)(chang)會遇到的(de)輕負載高(gao)頻次的(de)場景——讓表情(qing)包動起來,直接讓一些(xie)靜態梗圖(tu)變(bian)成動圖(tu)!

根據我們實際體驗,在極速(Turbo)模式下,利用一張常見表情包生成視頻的時間最短只有5秒左右,平均在8秒左右。

最快5秒光速出片,全球首個接近實時生成的AI視頻模型來了

從(cong)生成效果來看,基本(ben)的描述都可(ke)以比(bi)較準(zhun)確(que)(que)地實現,角(jiao)色的肢體動作比(bi)較自然,遮(zhe)擋(dang)關系都非常正確(que)(que),尤其適合做表情(qing)包。

雖然在個別案例中,一些視(shi)頻生(sheng)成(cheng)模型常(chang)見的(de)細節穿模問題(ti)還有(you)待(dai)優化,但能在10秒之內(nei)生(sheng)成(cheng)如此質(zhi)量的(de)視(shi)頻,在體驗上已經是一種跨(kua)越(yue)式提升了。

我們也(ye)對比(bi)了國(guo)外的AI視頻生成老大哥(ge)Runway,不(bu)得不(bu)說,Runway在速度這塊的確(que)沒輸(shu)多少(shao),也(ye)比(bi)較快,但生成視頻質(zhi)量卻與PixVerse存在不(bu)小差距(ju)。生成效果甚至很難達到(dao)“可(ke)用”狀態。

▲基于相(xiang)同圖片和提示詞,Runway生成結(jie)果

這種犧牲質量換速度的策略顯然存在很大風險,稍不留神就會“翻車”。

相比Runway,國內的(de)可(ke)靈(ling)、海螺,生成同(tong)樣(yang)主(zhu)題視頻的(de)質量會好一些,與PixVerse相對接近,但是在(zai)速度上卻慢了不少,平(ping)均生成時間(jian)都在(zai)2-3分(fen)鐘之間(jian),個別速度較快(kuai)的(de)案例(li)可(ke)以在(zai)1分(fen)鐘左右。

值得一提的是,PixVerse生成視頻的速度并不是用質量換來的,整體(ti)對比(bi)下來,PixVerse的(de)生成質(zhi)量、對描述(shu)的(de)還原程度,在大(da)部分測試中都是最高(gao)的(de)。

海外(wai)AI藝(yi)術(shu)家Volodymyr Cherner也亮出了自己的最新作品,他評論(lun)稱,PixVerse可以在1分(fen)鐘內生(sheng)成1080P的高清視頻(pin),而不像其他產品一樣需要(yao)8-10分(fen)鐘,可以說是既快又好的代(dai)表了。

最快5秒光速出片,全球首個接近實時生成的AI視頻模型來了

▲Volodymyr Cherner作品

最快5秒光速出片,全球首個接近實時生成的AI視頻模型來了

▲Volodymyr Cherner作品

所以,高效且高質量的視頻生(sheng)成(cheng)能(neng)夠帶來什么(me)?

最(zui)顯而易見(jian)的就是效(xiao)率的提(ti)升,進而可以轉化成實際生產中的經濟(ji)效(xiao)益提(ti)升。

但即使是1分鐘,也與PixVerse存在數倍的速度差距,10秒與2分鐘之間的差別,帶來的就是十幾倍的生產效率提升。

同樣時間內,PixVerse可以給創(chuang)(chuang)作者提供更(geng)多的創(chuang)(chuang)作機(ji)會(hui),發覺更(geng)多靈感和創(chuang)(chuang)意(yi),大幅增(zeng)加優質素材產出(chu)的概率、提高效(xiao)率。

OpenAI的(de)(de)Sora在測試階段,就曾因視(shi)頻(pin)生(sheng)(sheng)成速度太慢的(de)(de)問題飽受詬病,初期Sora甚至需要10多分鐘才能生(sheng)(sheng)成一段1分鐘視(shi)頻(pin)。Luma AI的(de)(de)Dream Machine發(fa)布后,很多用(yong)戶(hu)甚至需要排隊等待數小(xiao)時才能得到生(sheng)(sheng)成的(de)(de)視(shi)頻(pin),這(zhe)無疑大大消耗了用(yong)戶(hu)的(de)(de)耐心(xin),讓體驗打折扣。

相比之下,PixVerse可以幾秒、十幾秒生成視頻,這種體驗讓AI視頻生成真正變得更普及,我們可以隨時隨地利用AI生成視頻并與他人交流、分享、使用。

二、解密底層模型升級:運動控制、細節表現出眾,動漫創作效果行業第一

正如前文所說,“快”只是PixVerse的一個核心優勢,其在生成質量方面的表現也可圈可點,尤其是在運動控制、細節呈現以及動漫/動畫效果的表達上十分亮眼。

首先是運動控制的穩定性。比如(ru)在這(zhe)個山路騎(qi)行(xing)的視頻中,人物(wu)騎(qi)行(xing)的動作十分自然,車(che)輛行(xing)駛(shi)的軌(gui)跡也控制的比較好(hao),遠(yuan)處的背景與騎(qi)行(xing)者(zhe)的關系也保持的比較穩定,鏡頭跟隨效果自然。

在滑板視頻中,滑板的(de)運動軌跡展(zhan)現是極(ji)為(wei)困難的(de),同時模型(xing)對(dui)人物肢體動作的(de)控制和(he)展(zhan)現也都表現的(de)比(bi)較好,沒有出現明(ming)顯的(de)不協調或違和(he)感(gan)。

接下來,我們來看(kan)(kan)看(kan)(kan)PixVerse模型對細節(jie)的表現力,以及(ji)非現實(shi)創作能力。

在這(zhe)組圣誕老人(ren)在紐(niu)約都市(shi)夜晚送(song)圣誕禮物的(de)視頻中(zhong),我們選(xuan)擇了(le)3D動畫模式,模型表(biao)現(xian)出了(le)出色(se)的(de)非現(xian)實(shi)畫面(mian)創作能(neng)力,對于(yu)圣誕老人(ren)會(hui)以(yi)何種(zhong)形(xing)式出現(xian)在大(da)都市(shi)中(zhong),模型給出了(le)很(hen)好的(de)答案。

同時(shi),圣誕老人(ren)的(de)形象可愛(ai)逼真,馴鹿的(de)運動(dong)姿(zi)態很自然,符合常理(li)。在雪橇滑行過(guo)程中,我們甚至可以(yi)看到(dao)很多細節,比(bi)如雪橇的(de)顛(dian)簸、雪花輕(qing)輕(qing)濺起、陰影自然跟(gen)隨。

在另一(yi)個北(bei)極(ji)熊(xiong)在極(ji)光(guang)下做冰雕的視頻中,3D動(dong)畫版的北(bei)極(ji)熊(xiong)憨態可(ke)掬,十分(fen)可(ke)愛,其毛發柔順細密仿(fang)佛觸手(shou)可(ke)及,同時北(bei)極(ji)熊(xiong)手(shou)握冰雕工具的姿態也(ye)十分(fen)準確,進行雕刻的動(dong)作(zuo)也(ye)十分(fen)自然真實(shi),另外冰雕中的光(guang)線映射(she)也(ye)比較擬(ni)真。

模型可以很好地想象出本不可能存在的場景,并將一些基本的動作和細節的刻畫都做到位。

在另外兩組現實(shi)人物(wu)面部特(te)寫視(shi)頻中,模(mo)型一方面可以(yi)非常高質量(liang)的(de)呈(cheng)(cheng)現人物(wu)面部細(xi)節,比(bi)如膚質、毛孔,同(tong)時模(mo)型可以(yi)準(zhun)確呈(cheng)(cheng)現我們描述的(de)人物(wu)神態,比(bi)如驚恐(kong)或是平靜。

火光在人物面部的(de)(de)映射,視頻(pin)背景的(de)(de)自然虛化,這些細節也都做的(de)(de)比較到位(wei)。

在動漫、動畫創作方面,我們還讓PixVerse生成了一組海賊王主題的視頻,視頻中路飛和娜美在船頭激情碰拳,模型可以準確還原動漫人物的標志性特點,角色的配色都沒有問題,同時動作自然沒有違和感。

在一(yi)組動(dong)漫(man)風格的(de)賽車追逐(zhu)戰視頻中(zhong),漫(man)畫中(zhong)常(chang)見的(de)速度感(gan)(gan)、力量感(gan)(gan)線(xian)條表達被很好地呈現了出來,車輛的(de)運(yun)動(dong)、鏡頭的(de)運(yun)鏡都處(chu)理的(de)十分到位。

可以看到,在動漫、動畫創作方面,PixVerse的表現是十分驚艷的。據了解,目前PixVerse的動漫動畫視頻創作效果SOTA行業第一。

最后,PixVerse的視頻生(sheng)成還支(zhi)持(chi)首尾幀功能,用3D數字藝術(shu)家Travis Davids的話來(lai)說,兩幅構圖(tu)相近的圖(tu)像放在一(yi)起非常有趣,就像變(bian)魔術(shu)一(yi)樣。

最快5秒光速出片,全球首個接近實時生成的AI視頻模型來了

▲Travis Davids作品,下方(fang)圖片為(wei)首(shou)尾幀

整體來看,PixVerse 3.5版本的升級帶來了非常直觀的用戶體驗提升,其兼顧了生成速度和畫質,在細節表現上十分出眾,動畫動漫效果成為其突出優勢之一。結合極具性價比的價格,不論是對大眾消費者還是專業創作者,PixVerse無疑都是當下國內AI視頻生成領域的更優選擇。

結語:AI視頻大模型競爭升級,從能用走向普及好用

如(ru)今,AI大模型技術的(de)發展(zhan)已(yi)經從比拼參數(shu)走向比拼商業(ye)化落地,如(ru)何真正(zheng)給消費者和(he)企(qi)業(ye)帶(dai)來好的(de)體(ti)驗(yan),真正(zheng)賦能生產力、提升生產效率,成為(wei)競爭焦點。AI視頻生成賽道也不例外。

相比姍(shan)姍(shan)來遲(chi)吊足胃口的Sora,國(guo)內外(wai)一眾AI創(chuang)企(qi)和科技(ji)巨(ju)頭都已亮出各種產品(pin),像PixVerse這樣的年輕力量已經走(zou)向(xiang)世界舞(wu)臺并斬獲佳(jia)績。愛詩科技(ji)憑借底模的升(sheng)級,在速度顛覆性(xing)提升(sheng)的基礎上(shang)兼顧質量,將AI視頻模型生成從能用(yong)帶向(xiang)好用(yong)。

今天,AI視頻生成工具這把火正越(yue)燒越(yue)旺,消費者認知度也越(yue)來越(yue)強,隨著(zhu)“內卷”的加劇,企(qi)業想要真正殺出(chu)重圍,還是要靠(kao)技術硬實力說話(hua)。體驗好不好,消費者自會用腳投票。