
智東西(公眾號:zhidxcom)
作者?|?香草
編輯?|?李水青
全量上線,免費可用!
智東西7月26日報道,今天一早,大模型獨角獸智譜AI正式發布視頻生成工具清影,可支持文生、圖生6秒時長的視頻,即日起在PC端、手機App端以及小程序端面向所有C端用戶免費開放。
先來看(kan)看(kan)效果,以下是幾個官方放出的文生和圖(tu)生視頻案例,覆(fu)蓋人像、動物、3D卡通等(deng)場景:
從Demo來看,清(qing)影的(de)生成效果雖然相(xiang)比Sora等(deng)還有一定進步空間,但就整(zheng)體而言流暢(chang)度、運(yun)動幅度等(deng)都(dou)很不(bu)錯,無論是人物表情、動作,還是光影變化、鏡頭移(yi)動,都(dou)沒有明(ming)顯的(de)卡頓(dun)和突兀感(gan),對運(yun)動幅度的(de)把(ba)控也恰到(dao)好處,不(bu)會看起來像PPT也不(bu)會過于夸張。
此外,雖然生成是完全免費的,但生成視頻需要排隊,智譜AI提供了兩種加速排隊的(de)訂閱方(fang)式,包括5元加(jia)(jia)速1天、199元加(jia)(jia)速1年。
清影API今天也同步上線,企業和開發者都可以通過調用API的方式,體驗并使用清影的文生、圖生視頻能力,據稱這也是國內上線的首個視頻生成API。
據智譜AI CEO張鵬解讀,清影基于自研的底座視頻生成模型CogVideoX打造,能將文本(ben)、時間(jian)、空間(jian)三個維度融合起來。該模(mo)型參考Sora算(suan)法設(she)計,采用了(le)(le)DiT架構,相(xiang)比(bi)前代CogVideo模(mo)型推理速度提升(sheng)了(le)(le)6倍。
智譜AI成立于2019年6月,起(qi)源于清華大學計算(suan)機系知識(shi)工(gong)程實(shi)驗室,專注于開發(fa)新一(yi)代認知智能大模型(xing)。一(yi)直(zhi)以來(lai),智譜AI以對標OpenAI全(quan)模型(xing)產(chan)品(pin)線為線索(suo),陸續(xu)研(yan)發(fa)了包括文本、代碼、圖像(xiang)、Agent等方(fang)面的(de)自(zi)研(yan)模型(xing)和產(chan)品(pin)矩陣(zhen)。此次發(fa)布基(ji)于CogVideoX的(de)清影,使其大模型(xing)矩陣(zhen)又擴(kuo)充類一(yi)個模態。
值得一提的(de)是(shi),這也是(shi)國內做語言(yan)大模型起家的(de)大模型獨角獸,首次推出視(shi)頻(pin)生成產(chan)品——之前這個賽(sai)道更多(duo)的(de)是(shi)字(zi)節、快手等(deng)短視(shi)頻(pin)大廠,以及愛詩科技、生數科技等(deng)專注于視(shi)頻(pin)生成模型的(de)創企。
清影具體有哪些特點?其底層模型在哪些方面做了創新?具體效果如何?智東西第一時間上手實測了一番,有以下幾點發現:
1、簡短的提示詞效果更好,復(fu)雜(za)指(zhi)令下會(hui)丟(diu)失細節。
2、人手仍是重災區,容(rong)易出現(xian)畫面閃爍的現(xian)象(xiang)。
3、生成很快,但加上排隊等待時間仍達到1-2分鐘。
4、相比圖生視頻,文生視頻的穩定性更高。
當然,有限次(ci)的體驗(yan)無法做到全面,也歡迎感(gan)(gan)興趣的讀(du)者朋友,在評論(lun)區分享體驗(yan)感(gan)(gan)受和(he)新(xin)發現~
一、半分鐘生成6秒視頻,復雜指令、內容連貫
清影主要有4個特(te)點:生成(cheng)速度快、復雜指令遵(zun)從能力強(qiang)、內容(rong)連貫性高以(yi)及(ji)畫面調度幅度大。
首先在生成速度上,清影AI據(ju)稱(cheng)可以(yi)在30秒(miao)內生成一段6秒(miao)、幀率16fps、分辨率1440*960的視頻。
▲實時演示(shi)視(shi)頻(pin)生成(動圖有(you)加速)
其次,在復雜指令遵從能力上(shang),智(zhi)譜(pu)AI自研了(le)視(shi)(shi)頻(pin)理解模型,用于(yu)為視(shi)(shi)頻(pin)數(shu)據生成高(gao)度吻合的文(wen)本(ben)描述,進而構(gou)建了(le)海(hai)量(liang)高(gao)質量(liang)視(shi)(shi)頻(pin)文(wen)本(ben)對,提升(sheng)了(le)指令遵循度。
▲復雜指令演示
清影的第三個特點是內容連貫性,能夠比較好地(di)還原(yuan)物理世界當中的一些運動(dong)的過(guo)程。
例如基于這張大家熟悉的杜甫畫作,清影讓杜甫不僅(jin)動了起來,而(er)且非(fei)常自然順滑地端起了一(yi)杯咖啡。
▲內容連貫性
最后在畫面調度方面,清影采(cai)用文(wen)本、時間、空間融合的Diffusion Transformer架構(gou),可生成遵循特(te)定運動(dong)規則的動(dong)態視頻。
智譜AI豪邁地放出了幾十個Demo,其中不乏有一些效果驚艷,比如這個:木頭上長出兩朵奇特的透明塑料花。
“透明塑料花”不是(shi)真實存在(zai)的,清影(ying)的想象力和審美在(zai)這個案例中得(de)以展現。
再比如這個:比得兔開小汽車,游走在馬路上,臉上的表情充滿開心喜悅,全景畫面。
清影(ying)繪制(zhi)的(de)(de)兔子表情(qing)很(hen)豐富(fu),沒(mei)有出現五官扭(niu)曲的(de)(de)情(qing)況,前后景別還加了景深處理(li)。
人像案例清影也拿捏住了,比如這個提示詞:油畫風格,美麗的少女側顏,光透過樹形成斑駁的影子,柔光落在她臉上。
整個畫面光影(ying)對比鮮明,不(bu)過漏失了(le)“油(you)畫”、“斑駁的(de)影(ying)子”等細節。
二、實測上手有驚艷也有翻車,付費加速有些雞肋
官方演示雖好,但清(qing)影(ying)(ying)到底(di)好不好用,還(huan)是得自己試(shi)一(yi)下才能知(zhi)道。打(da)開清(qing)影(ying)(ying)網頁端(duan),可以看到有文生、圖生視頻兩種功(gong)能。
▲清影網頁端
在文生視頻中,我可以選擇視頻(pin)風(feng)格,包括(kuo)卡通3D、黑白(bai)老照(zhao)片(pian)、油畫(hua)等;也可以選擇情感氛圍,包括(kuo)溫馨和(he)諧、生動活潑、緊張刺激、凄涼寂寞(mo)等;運(yun)鏡方式包括(kuo)水(shui)平、垂直、推近、拉(la)遠四種。
在圖生視頻中,我可以為圖片(pian)添加文字描述,如(ru)果不知(zhi)道(dao)寫什么也可以空著,或是讓系(xi)統隨(sui)機生成一(yi)個提示詞。
▲兩種模式
首先我嘗試了一組動物場景的提示詞,第一個為:一只藍貓在貓爬架上,正在吃主人遞過來的芝士漢堡,情(qing)感氛圍(wei)選擇(ze)了溫馨和諧。
可以(yi)看到(dao),清(qing)影準(zhun)確理解(jie)了提示(shi)(shi)詞,整體(ti)效果還是很不錯的(de)。對(dui)于提示(shi)(shi)詞中細節,包括貓的(de)品(pin)種(zhong)、漢(han)堡的(de)種(zhong)類(lei)以(yi)及“遞過來”的(de)動作等,都表達得比(bi)較精準(zhun),人(ren)手也沒有翻車。
第二個提示詞為:一只橘貓把鼠標推下桌子,情感氛圍(wei)為生(sheng)動活潑。
這次(ci)清影表現得一(yi)般,鼠標上莫名(ming)其(qi)妙(miao)拴了(le)一(yi)只小老鼠就算了(le),“推下桌(zhuo)子”的動作也是完全沒有體(ti)現。
前兩個提示詞都屬于寫實場景,第三個提示詞則有些“魔幻現實”:一只白貓在車里駕駛,穿過繁忙的市區街道,背景是高樓和行人,情感氛圍為緊張刺激。
清影對于這個提示詞的理解和(he)呈(cheng)現(xian)都還(huan)比(bi)較準(zhun)確,背景中動(dong)態(tai)場景的運動(dong)幅度、一致性也比(bi)較高(gao),但是穩(wen)定(ding)性還(huan)有所欠缺,畫(hua)面會出現(xian)抖動(dong)的情況。
第二組提示詞我嘗試了人物場景。首先來試試經典的吃面:一個男人坐在桌邊吃面條,情(qing)感(gan)氛圍為凄涼(liang)寂寞。
在這個經典難題上,清(qing)影的(de)表(biao)現還算可以,乍一看沒什么錯誤。但(dan)細看之下,男人吃面(mian)的(de)餐具用的(de)是勺(shao)子,面(mian)條的(de)形(xing)態也有些僵(jiang)硬。
第二個提示詞是:一個女孩坐在米色沙發上,專心地用鉤針勾著一頂淺藍色帽子,情感(gan)氛(fen)圍為溫(wen)馨(xin)和(he)諧。
這條提示詞中(zhong)我加入了色彩的細節,清影都(dou)準確地(di)表現了出來。女孩(hai)的鉤織動作也比(bi)較真(zhen)實,就是人(ren)手非常“鬼畜”。
第三個提示詞為:漂亮的水色瞳孔特寫,寫實風格,超清,情感氛(fen)圍為凄涼(liang)寂寞。
清影生成的視頻(pin)基(ji)本(ben)上滿足(zu)了(le)我的預期,不過在特(te)寫鏡頭下,人物(wu)的皮膚和毛發(fa)都(dou)顯得(de)有些(xie)“油膩”。
最后我嘗試了讓清影自己生成提示詞,它直接整了這么長一段:雨天的咖啡館,以窗戶為媒介拍攝一個英式咖啡館內部,要清晰的拍攝咖啡館內部,捕捉咖啡館內的溫馨氛圍,然后變焦,對焦在雨滴拍打的窗戶上。細節上,注意捕捉顧客們的交談和笑容,以及雨水在窗戶上形成的光影效果,營造出舒適而寧靜的氛圍。
結(jie)果很遺憾,清影自己(ji)給自己(ji)挖了(le)個坑,生成的不能(neng)說是(shi)視頻,稱之為(wei)動(dong)圖都有(you)些為(wei)難。畫面僅僅是(shi)平(ping)移放大(da)了(le)一圈,也沒能(neng)體現(xian)提示詞中(zhong)的大(da)部分(fen)內(nei)容。
體驗完文生視頻后,我又嘗試了圖生視頻。
首先在上傳圖片時,清影會提醒我對圖片進行裁切,且只能裁成進行固定比例的橫圖,這就造成了一定的局限性。上傳圖片之后,我輸入提示詞:花瓣在風中搖動。
生成效果(guo)還(huan)是(shi)比較準確(que)的,不過這個提示詞本身的難度也不算(suan)大。
接著(zhu)我上傳(chuan)了(le)一張(zhang)靜物圖,這次沒有輸入提示詞,看看清影(ying)會(hui)如何自由(you)發揮。
這張圖上有很多(duo)獨立的物(wu)體,清影并(bing)沒有讓它(ta)們(men)整體運(yun)動(dong)(dong)而是為(wei)每個(ge)“小團子”添加(jia)了不同動(dong)(dong)態(tai),整體畫面比(bi)較生動(dong)(dong)活潑。
第三張圖我上傳了一張戴著墨鏡的人像,提示詞為:男孩把墨鏡摘下來。
這個(ge)提示詞的(de)(de)難度很大,而且(qie)涉(she)及到(dao)“無中生有(you)”的(de)(de)部分(fen)。清影成功(gong)表(biao)現了(le)“摘墨鏡(jing)”這一動作,不(bu)過摘了(le)是(shi)摘了(le),但沒完全摘,墨鏡(jing)還(huan)在(zai)人臉上掛著,視頻后(hou)半(ban)段還(huan)出現了(le)人體不(bu)自然的(de)(de)扭(niu)曲(qu)。
如果不要求它憑空生成人臉又會如何?我有上傳了一張舉著攝像機的人像照片,提示詞改為:男孩轉身面向鏡頭。
結果這(zhe)次(ci)(ci)清影反(fan)而整了個(ge)人(ren)臉出來(lai),就(jiu)是沒(mei)有(you)眼(yan)白有(you)些(xie)嚇人(ren)……不過忽(hu)略臉的話,這(zhe)次(ci)(ci)生成的效果轉身幅度(du)更大,人(ren)物的頭發也(ye)隨風飄(piao)動,就(jiu)是他手中的器材變了個(ge)模樣,人(ren)手也(ye)有(you)些(xie)不自然。
一(yi)番體驗下來,清影生成視頻的效果有的驚艷到我,比如第一(yi)個小貓吃(chi)漢堡的例子(zi),文(wen)字(zi)理解(jie)十分(fen)準確;也有的翻車(che)嚴(yan)重(zhong),比如咖啡廳、橘貓的例子(zi)中,失誤都比較大。
整體來看,清(qing)影在生成(cheng)速度上確實比(bi)較(jiao)快,雖然(ran)較(jiao)宣(xuan)傳的30秒還有些偏(pian)差(cha),但差(cha)不(bu)多1分(fen)鐘左右就能(neng)生成(cheng)視(shi)頻;在運(yun)動(dong)幅度、語義理解等方面(mian),會比(bi)較(jiao)看(kan)運(yun)氣,不(bu)過這也是所(suo)有視(shi)頻生成(cheng)工(gong)具(ju)的通病(bing)。與市面(mian)上其(qi)他公開可用(yong)的工(gong)具(ju)相比(bi),清(qing)影在生成(cheng)時(shi)長、清(qing)晰度方面(mian)還有一(yi)定(ding)的進步空間,不(bu)支(zhi)持(chi)畫面(mian)比(bi)例的選擇也是一(yi)大遺(yi)憾。
值得一(yi)提(ti)(ti)的(de)是,清影目前(qian)的(de)視頻生(sheng)成(cheng)(cheng)是完全免費的(de),不需(xu)要(yao)會員訂(ding)閱也沒有數量限制。不過在排隊生(sheng)成(cheng)(cheng)的(de)過程中,清影提(ti)(ti)醒我可以加速(su)。點擊加速(su)的(de)按(an)鈕,可以看(kan)到它提(ti)(ti)供(gong)了(le)兩(liang)種訂(ding)閱方式:5塊錢加速(su)1天,或是199元加速(su)1年(nian)。
▲加速排隊
該說不說,這(zhe)個價(jia)格(ge)還(huan)是(shi)很實惠的,但為啥我加(jia)(jia)完速(su)排隊時間一(yi)點也沒(mei)減少呢……唯一(yi)的變(bian)化就是(shi),從“排隊中”變(bian)成了“加(jia)(jia)速(su)排隊中”。可能費用太便宜了,大(da)家都加(jia)(jia)速(su)就相當于沒(mei)加(jia)(jia)速(su)吧(doge)。
三、自研端到端視頻模型,首個API同步上線
清影基(ji)于智譜AI自(zi)研的底層模型CogVideoX打造(zao),具有(you)內容連貫、可控性高等特點(dian)。
在內容連貫性方面,智譜AI自(zi)研了一個高(gao)效的三維變分自(zi)編(bian)碼器結(jie)構,稱之為(wei)3D VAE。它能夠將原視頻空間壓縮至2%的大(da)小,大(da)大(da)減少視頻擴散生成模型的訓練(lian)成本和(he)難度(du),再配合3D RoPE(旋轉位置編(bian)碼)模塊,有利于在時間維度(du)上捕捉幀(zhen)間關系,建立食(shi)品中的長(chang)程依賴。
在可控性方(fang)面,智譜AI自(zi)研了一個端(duan)(duan)到(dao)端(duan)(duan)的視頻(pin)理解(jie)(jie)模型(xing),用于為海量的視頻(pin)數據(ju)生成詳細(xi)的、貼合內容的描述文本,從而(er)增強模型(xing)的文本理解(jie)(jie)和指令(ling)(ling)遵循的能(neng)力,使生成視頻(pin)更符合用戶(hu)的輸入,理解(jie)(jie)超(chao)長(chang)的復雜指令(ling)(ling)。
在模型結構上,CogVideoX采用了(le)將(jiang)文(wen)本(ben)、時間、空間三個(ge)維度全部融合(he)起來的(de)Transformer架構(gou),摒棄(qi)了(le)傳統的(de)交(jiao)叉注意力(Cross-Attention)模塊,將(jiang)文(wen)本(ben)和視頻兩個(ge)不(bu)同模態的(de)空間進(jin)行對齊,能夠更好地進(jin)行模態交(jiao)互。
▲CogVideoX特點
張鵬稱(cheng),在(zai)CogVideoX的(de)(de)研發(fa)過程中,智譜AI有一次驗證了(le)Scaling Law在(zai)視頻(pin)生成方面的(de)(de)有效性(xing)(xing)和可靠性(xing)(xing),未來團隊(dui)會在(zai)繼續擴大數據(ju)規(gui)模和模型規(gui)模的(de)(de)同時,尋(xun)找(zhao)更具(ju)突破式(shi)創(chuang)新的(de)(de)模型架構。
智譜(pu)AI又一(yi)次(ci)實現了對OpenAI全模型產品(pin)線的對標。
▲智譜(pu)AI對標OpenAI全模型產品線
在算力方(fang)面(mian),清影(ying)是在北京亦莊AI公共(gong)算力平(ping)臺上訓(xun)練而來的。數據層面(mian),智譜AI與(yu)Bilibili、華策影(ying)視(shi)等(deng)進行了合作。
張鵬談道,雖然視頻生成模(mo)型才剛剛起步,但已經(jing)受到了很(hen)多產業(ye)和客戶側的需求,涉(she)及電商產品宣傳、影視特效等(deng)領域。
今天(tian)起,清影AI也(ye)同步(bu)在智(zhi)譜AI大模型開(kai)放平臺上線了API,企業(ye)和開(kai)發(fa)者(zhe)都(dou)可以通過(guo)調用(yong)(yong)API的方式(shi)體驗并使(shi)用(yong)(yong)CogVideoX的文生(sheng)、圖生(sheng)視頻能力,據稱(cheng)這也(ye)是國內上線的首個視頻生(sheng)成API。
隨著清(qing)影能力的加入,智譜AI旗下的AI助手清(qing)言App在功(gong)能的全面上再(zai)下一城,覆蓋對(dui)話(hua)、生圖(tu)、代碼(ma)、Agent和視頻(pin)。
智譜AI還準(zhun)備了一個(ge)One more thing——視(shi)頻(pin)生(sheng)視(shi)頻(pin)能力。不過(guo)準(zhun)確(que)來說,這相當于是一個(ge)手(shou)動視(shi)頻(pin)生(sheng)視(shi)頻(pin)的能力:基于智譜AI近(jin)日(ri)開源的視(shi)頻(pin)理(li)解(jie)模型CogVLM2-Video,用戶可以上傳視(shi)頻(pin)并提取出詳細的文字描述,再將文字輸入(ru)清影,實現“視(shi)頻(pin)生(sheng)視(shi)頻(pin)”的效果(guo)。
▲視頻生視頻
結語:又一強力玩家入局AI視頻生成
Sora發(fa)(fa)布(bu)后,AI視頻生成迎來“第二春”,無論(lun)是(shi)技術、產(chan)品的迭(die)代,還是(shi)資本(ben)市(shi)場的關(guan)注(zhu),都達(da)到了新的高度。光(guang)是(shi)本(ben)周,就有快(kuai)手宣布(bu)全球(qiu)上線(xian)、愛詩科(ke)技發(fa)(fa)布(bu)第二代模型(xing),以及今天智譜(pu)AI入局等重(zhong)磅進展。()
不(bu)同于此(ci)前(qian)的(de)(de)(de)文本、圖像(xiang)模型賽道(dao),國(guo)內(nei)(nei)長期處于追逐(zhu)OpenAI等海(hai)外企(qi)業進展(zhan)的(de)(de)(de)狀態。在視頻生(sheng)成領域,國(guo)內(nei)(nei)的(de)(de)(de)大廠(chang)、創企(qi)在短(duan)短(duan)幾個月內(nei)(nei)實現彎道(dao)超車(che),不(bu)僅打磨出了高質(zhi)量的(de)(de)(de)底層模型,而且個個公開可用甚至(zhi)免費,給至(zhi)今仍是期貨(huo)的(de)(de)(de)Sora上(shang)了一課。