智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 心緣

智東西4月15日報道,就在剛剛,可靈AI面向全球正式發布可靈2.0視頻生成模型及可圖2.0圖像生成模型,繼續大幅領先業內前沿模型。可靈2.0在文生視頻領域較OpenAI Sora實現367%的勝負比,在圖生視頻領域較谷歌Veo2實現了182%的勝負比。

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

與可靈1.6相比,可靈2.0模型在動態質量、語義響應、畫面美學等維度有明顯進步。在下方案例中,可靈2.0準確呈現了(le)日光從清晨(chen)到正午再到傍晚的變化,還使用了(le)延時攝影的風格(ge)。

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

▲右側為可靈2.0

可圖2.0模型在指令遵循、電影質感及藝術風格表現等方面顯著提升,色彩和光影更為高級,情緒表達更具感染力,并新增了60余(yu)種風格化效果

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

在本次2.0模型迭代中,可靈AI還正式發布AI視頻生成的全新交(jiao)互(hu)理念Multi-modal Visual Language(MVL),讓(rang)用戶能夠利(li)用圖像(xiang)參(can)考、視頻片段(duan)等(deng)(deng)多(duo)(duo)模態信息,將(jiang)腦海(hai)中的復雜創意直接高效地傳達給AI,或是對視頻、圖像(xiang)等(deng)(deng)多(duo)(duo)模內容進行編輯。

用戶可以將視頻、圖(tu)片等作(zuo)為元(yuan)素上傳,并直接將其(qi)嵌入至提(ti)示詞(ci)中。這(zhe)些元(yuan)素能在畫面(mian)內以合(he)乎邏輯的方式組合(he),進(jin)一(yi)步提(ti)升畫面(mian)的可控性。

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

可(ke)靈2.0系列(lie)模型(xing)發布即(ji)上線,用戶現在已經(jing)可(ke)以在可(ke)靈AI官網和(he)App內免(mian)費體驗其生成效果。

體(ti)驗鏈接:

//klingai.com/cn/

一、告別慢動作畫面,可靈2.0語義響應、動態質量與美學全面升級

快手高級副總裁、社區科學線負責人蓋坤介紹,自去年6月發布以來,可靈AI已累計完成超20次迭代。截至目前,可靈AI全球用戶規模突破2200萬,過去的10個月里,其月活用戶量增長25倍,累計生(sheng)成(cheng)超過(guo)1.68億(yi)個視頻及(ji)3.44億(yi)張圖(tu)片。

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

然而,現有(you)的視頻生成(cheng)模(mo)型仍存在(zai)語義遵(zun)循能力差、動態(tai)質量不佳等(deng)問題,妨礙了創作者(zhe)表達、控制生成(cheng)結果的能力。可靈AI全系模(mo)型進行的本次升級(ji),正是為了解決(jue)這些問題。

據快手副總裁、可靈AI負責人張迪介紹,可靈2.0的升級主要有三方面:語義響應、動態質量與畫面美學。

升級后的可靈2.0可以更準確地反映人物表情、動作的變化,動(dong)作的豐富(fu)度、真實性有明(ming)顯(xian)提升。在下(xia)方(fang)案(an)例中,可靈2.0為準(zhun)確描繪了提示詞中“手錘桌子起身”的效果,而可靈1.6并沒(mei)有完全還原。

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

可靈2.0也告別了視頻生成模型的通病——運動速度不合理。在下方馬飛速奔馳的畫面中,可靈(ling)2.0的生成結果(guo)不再是慢動(dong)作,鏡頭表(biao)現(xian)更加真實(shi)。可靈團隊還對(dui)其生成畫面的復(fu)雜(za)動(dong)作、動(dong)作幅度進行優化。

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

生(sheng)成大片感的畫面(mian)對可靈(ling)2.0來說也不是問題。下(xia)方這一畫面(mian)中,無論是人物(wu)奔(ben)跑的動作,還是后方爆炸的效果(guo),都十(shi)分逼真,角色演(yan)繹(yi)生(sheng)動。

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

可靈2.0對時(shi)間的理解(jie)能力提(ti)升,能幫(bang)助創(chuang)作者生成更連貫、更具有故(gu)事性(xing)、延續性(xing)的畫面。

圖像生(sheng)成模型可(ke)圖2.0的(de)升級同(tong)樣是在指令遵循方面。下方這(zhe)一案(an)例的(de)提示(shi)詞中具有“伺服(fu)電機”、“機械女神”、“壁(bi)畫(hua)”、“拉斐(fei)爾《雅典(dian)學院》的(de)古典(dian)平衡感”等諸多要素(su),可(ke)圖2.0的(de)生(sheng)成結果很好地還原了(le)相關(guan)要素(su),

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

可(ke)圖2.0能更好地展(zhan)現提示詞(ci)中對于色(se)彩、光影的(de)表述(shu),對人物情緒(xu)的(de)呈現更具感染力(li)。下方4張圖片均為可(ke)圖2.0的(de)生成結果,若未經提示,或許許多人都會認(ren)為這(zhe)是某(mou)部電影的(de)截圖。

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

二、打造人與AI交互全新語言,畫面元素定制化更容易了

張迪在發布會現場分(fen)享了可靈2.0和(he)可圖2.0能力升級背后(hou)的技(ji)術(shu)創(chuang)新(xin)。

可(ke)靈團(tuan)隊(dui)為可(ke)靈2.0采(cai)用了(le)全新設(she)計(ji)的DiT架(jia)(jia)(jia)構,這(zhe)提升(sheng)了(le)其視覺(jue)、文本模態(tai)的信息融合能力(li)。全新設(she)計(ji)的VAE架(jia)(jia)(jia)構則使復雜動態(tai)場景下(xia)畫面(mian)的過(guo)度(du)更順(shun)暢,質感(gan)更自(zi)然。同(tong)時,可(ke)靈團(tuan)隊(dui)還首次系(xi)統性(xing)研究了(le)視頻(pin)生成DiT架(jia)(jia)(jia)構的Scaling Law特性(xing)。

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

在(zai)模型訓練(lian)、推理策(ce)略方面,可靈(ling)2.0在(zai)后訓練(lian)階段利(li)用了(le)(le)強化學習技術,這提升了(le)(le)其(qi)對復雜運(yun)(yun)動場景、主體交互的生成能力(li),也強化對運(yun)(yun)鏡(jing)語言(yan)、構圖術語等(deng)專(zhuan)業表達的理解(jie)與(yu)響應(ying)能力(li)。

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

張迪透露,目前可靈平臺上高達(da)85%的視(shi)頻生成(cheng)任(ren)務為圖生視(shi)頻任(ren)務。由此看來,更(geng)強的生(sheng)圖(tu)能力也(ye)成(cheng)為創作者所需工(gong)具。

此次可圖2.0的(de)技術創新包括全(quan)新升級的(de)文(wen)本(ben)表征(zheng)處理鏈路(lu)、全(quan)面(mian)升級的(de)數據體(ti)系和多樣性以及全(quan)新的(de)提示詞工程和去噪策略。

升(sheng)級后的可(ke)圖2.0會深度思考用戶的提(ti)示詞(ci),其(qi)逐步自適應的Diffusion去噪策略,可(ke)以優化出圖細節,提(ti)升(sheng)圖像質量。

面向視覺創作者,可靈還推出了視頻、圖像多模態編輯能力,這些能力基于可靈提出的視覺生成交互理念Multi-modal Visual Language(MVL)

蓋(gai)坤(kun)介紹,可靈(ling)團(tuan)隊發現,文字不足(zu)以向模型(xing)準(zhun)確描述復雜動(dong)作(zuo)、復雜表情等內容,可靈(ling)希望定義一(yi)種人與AI交互的全新語(yu)言,讓模型(xing)能更好地理解人的想象(xiang)力。

利用MVL技(ji)術,創作者可(ke)以利用視頻(pin)、圖像、文字等(deng)多模態(tai)信息,定(ding)義畫面內人物的(de)長相、著(zhu)裝、表(biao)情以及畫面背景(jing)等(deng)。

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

在這一過程中,文本扮演了語義骨架的作用,多(duo)模態(tai)描述子(MMW)能嵌(qian)入這一(yi)骨(gu)架(jia),擴(kuo)展描述的完(wan)備性、準確性。未(wei)來,可(ke)靈還計(ji)劃支持(chi)文本+MMW動作描述文件(jian),畫面角色(se)的運動軌(gui)跡也(ye)能完(wan)全可(ke)控。

力壓OpenAI谷歌,快手掏出最強視頻大模型,可靈2.0一句話搞定特效

結語:基礎大模型+創作工具全棧升級,快手要打造全球第一AI視頻應用

本次(ci)可靈AI 2.0的(de)(de)(de)升級(ji),不僅包括(kuo)基礎大模型的(de)(de)(de)能(neng)力提(ti)升,還有面向(xiang)創作者日常(chang)生產(chan)流(liu)程(cheng)的(de)(de)(de)全(quan)棧工(gong)具(ju)優化,蓋(gai)坤(kun)稱(cheng),可靈AI的(de)(de)(de)愿(yuan)景是“讓每個(ge)人都能(neng)用AI講出好(hao)故事(shi)”。

日(ri)前,在(zai)快(kuai)手(shou)2025財年電(dian)話會議(yi)上,快(kuai)手(shou)集團高(gao)管也分享(xiang)了類(lei)似的(de)(de)(de)觀點,快(kuai)手(shou)認為AI對其發展(zhan)至關重要,將給(gei)予堅定(ding)、長期的(de)(de)(de)投入,可(ke)靈會在(zai)技術升級的(de)(de)(de)同時,進行全球市場和(he)品牌運營活動。快(kuai)手(shou)的(de)(de)(de)目(mu)標是(shi),將可(ke)靈打造為營收規模世界第一的(de)(de)(de)AI視頻應用。