力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

智東西（公眾號：zhidxcom）
作者 | 陳駿達
編輯 | 心緣

智東西4月15日報道，就在剛剛，可靈AI面向全球正式發布可靈2.0視頻生成模型及可圖2.0圖像生成模型，繼續大幅領先業內前沿模型。可靈2.0在文生視頻領域較OpenAI Sora實現367%的勝負比，在圖生視頻領域較谷歌Veo2實現了182%的勝負比。

力壓OpenAI谷歌，快手掏出最強視頻大模型，可靈2.0一句話搞定特效

與可靈1.6相比，可靈2.0模型在動態質量、語義響應、畫面美學等維度有明顯進步。在下方案例中，可靈2.0準確呈現了(le)日光從清晨(chen)到正午再到傍晚的變化，還使用了(le)延時攝影的風格(ge)。

力壓OpenAI谷歌，快手掏出最強視頻大模型，可靈2.0一句話搞定特效

▲右側為可靈2.0

可圖2.0模型在指令遵循、電影質感及藝術風格表現等方面顯著提升，色彩和光影更為高級，情緒表達更具感染力，并新增了60余(yu)種風格化效果。

力壓OpenAI谷歌，快手掏出最強視頻大模型，可靈2.0一句話搞定特效

在本次2.0模型迭代中，可靈AI還正式發布AI視頻生成的全新交(jiao)互(hu)理念Multi-modal Visual Language（MVL），讓(rang)用戶能夠利(li)用圖像(xiang)參(can)考、視頻片段(duan)等(deng)(deng)多(duo)(duo)模態信息，將(jiang)腦海(hai)中的復雜創意直接高效地傳達給AI，或是對視頻、圖像(xiang)等(deng)(deng)多(duo)(duo)模內容進行編輯。

用戶可以將視頻、圖(tu)片等作(zuo)為元(yuan)素上傳，并直接將其(qi)嵌入至提(ti)示詞(ci)中。這(zhe)些元(yuan)素能在畫面(mian)內以合(he)乎邏輯的方式組合(he)，進(jin)一(yi)步提(ti)升畫面(mian)的可控性。

力壓OpenAI谷歌，快手掏出最強視頻大模型，可靈2.0一句話搞定特效

可(ke)靈2.0系列(lie)模型(xing)發布即(ji)上線，用戶現在已經(jing)可(ke)以在可(ke)靈AI官網和(he)App內免(mian)費體驗其生成效果。

體(ti)驗鏈接：

//klingai.com/cn/

一、告別慢動作畫面，可靈2.0語義響應、動態質量與美學全面升級

快手高級副總裁、社區科學線負責人蓋坤介紹，自去年6月發布以來，可靈AI已累計完成超20次迭代。截至目前，可靈AI全球用戶規模突破2200萬，過去的10個月里，其月活用戶量增長25倍，累計生(sheng)成(cheng)超過(guo)1.68億(yi)個視頻及(ji)3.44億(yi)張圖(tu)片。

力壓OpenAI谷歌，快手掏出最強視頻大模型，可靈2.0一句話搞定特效

然而，現有(you)的視頻生成(cheng)模(mo)型仍存在(zai)語義遵(zun)循能力差、動態(tai)質量不佳等(deng)問題，妨礙了創作者(zhe)表達、控制生成(cheng)結果的能力。可靈AI全系模(mo)型進行的本次升級(ji)，正是為了解決(jue)這些問題。

據快手副總裁、可靈AI負責人張迪介紹，可靈2.0的升級主要有三方面：語義響應、動態質量與畫面美學。

升級后的可靈2.0可以更準確地反映人物表情、動作的變化，動(dong)作的豐富(fu)度、真實性有明(ming)顯(xian)提升。在下(xia)方(fang)案(an)例中，可靈2.0為準(zhun)確描繪了提示詞中“手錘桌子起身”的效果，而可靈1.6并沒(mei)有完全還原。

力壓OpenAI谷歌，快手掏出最強視頻大模型，可靈2.0一句話搞定特效

可靈2.0也告別了視頻生成模型的通病——運動速度不合理。在下方馬飛速奔馳的畫面中，可靈(ling)2.0的生成結果(guo)不再是慢動(dong)作，鏡頭表(biao)現(xian)更加真實(shi)。可靈團隊還對(dui)其生成畫面的復(fu)雜(za)動(dong)作、動(dong)作幅度進行優化。

力壓OpenAI谷歌，快手掏出最強視頻大模型，可靈2.0一句話搞定特效

生(sheng)成大片感的畫面(mian)對可靈(ling)2.0來說也不是問題。下(xia)方這一畫面(mian)中，無論是人物(wu)奔(ben)跑的動作，還是后方爆炸的效果(guo)，都十(shi)分逼真，角色演(yan)繹(yi)生(sheng)動。

力壓OpenAI谷歌，快手掏出最強視頻大模型，可靈2.0一句話搞定特效

可靈2.0對時(shi)間的理解(jie)能力提(ti)升，能幫(bang)助創(chuang)作者生成更連貫、更具有故(gu)事性(xing)、延續性(xing)的畫面。

圖像生(sheng)成模型可(ke)圖2.0的(de)升級同(tong)樣是在指令遵循方面。下方這(zhe)一案(an)例的(de)提示(shi)詞中具有“伺服(fu)電機”、“機械女神”、“壁(bi)畫(hua)”、“拉斐(fei)爾《雅典(dian)學院》的(de)古典(dian)平衡感”等諸多要素(su)，可(ke)圖2.0的(de)生(sheng)成結果很好地還原了(le)相關(guan)要素(su)，

力壓OpenAI谷歌，快手掏出最強視頻大模型，可靈2.0一句話搞定特效

可(ke)圖2.0能更好地展(zhan)現提示詞(ci)中對于色(se)彩、光影的(de)表述(shu)，對人物情緒(xu)的(de)呈現更具感染力(li)。下方4張圖片均為可(ke)圖2.0的(de)生成結果，若未經提示，或許許多人都會認(ren)為這(zhe)是某(mou)部電影的(de)截圖。

力壓OpenAI谷歌，快手掏出最強視頻大模型，可靈2.0一句話搞定特效

二、打造人與AI交互全新語言，畫面元素定制化更容易了

張迪在發布會現場分(fen)享了可靈2.0和(he)可圖2.0能力升級背后(hou)的技(ji)術(shu)創(chuang)新(xin)。

可(ke)靈團(tuan)隊(dui)為可(ke)靈2.0采(cai)用了(le)全新設(she)計(ji)的DiT架(jia)(jia)(jia)構，這(zhe)提升(sheng)了(le)其視覺(jue)、文本模態(tai)的信息融合能力(li)。全新設(she)計(ji)的VAE架(jia)(jia)(jia)構則使復雜動態(tai)場景下(xia)畫面(mian)的過(guo)度(du)更順(shun)暢，質感(gan)更自(zi)然。同(tong)時，可(ke)靈團(tuan)隊(dui)還首次系(xi)統性(xing)研究了(le)視頻(pin)生成DiT架(jia)(jia)(jia)構的Scaling Law特性(xing)。

力壓OpenAI谷歌，快手掏出最強視頻大模型，可靈2.0一句話搞定特效

在(zai)模型訓練(lian)、推理策(ce)略方面，可靈(ling)2.0在(zai)后訓練(lian)階段利(li)用了(le)(le)強化學習技術，這提升了(le)(le)其(qi)對復雜運(yun)(yun)動場景、主體交互的生成能力(li)，也強化對運(yun)(yun)鏡(jing)語言(yan)、構圖術語等(deng)專(zhuan)業表達的理解(jie)與(yu)響應(ying)能力(li)。

力壓OpenAI谷歌，快手掏出最強視頻大模型，可靈2.0一句話搞定特效

張迪透露，目前可靈平臺上高達(da)85%的視(shi)頻生成(cheng)任(ren)務為圖生視(shi)頻任(ren)務。由此看來，更(geng)強的生(sheng)圖(tu)能力也(ye)成(cheng)為創作者所需工(gong)具。

此次可圖2.0的(de)技術創新包括全(quan)新升級的(de)文(wen)本(ben)表征(zheng)處理鏈路(lu)、全(quan)面(mian)升級的(de)數據體(ti)系和多樣性以及全(quan)新的(de)提示詞工程和去噪策略。

升(sheng)級后的可(ke)圖2.0會深度思考用戶的提(ti)示詞(ci)，其(qi)逐步自適應的Diffusion去噪策略，可(ke)以優化出圖細節，提(ti)升(sheng)圖像質量。

面向視覺創作者，可靈還推出了視頻、圖像多模態編輯能力，這些能力基于可靈提出的視覺生成交互理念Multi-modal Visual Language（MVL）。

蓋(gai)坤(kun)介紹，可靈(ling)團(tuan)隊發現，文字不足(zu)以向模型(xing)準(zhun)確描述復雜動(dong)作(zuo)、復雜表情等內容，可靈(ling)希望定義一(yi)種人與AI交互的全新語(yu)言，讓模型(xing)能更好地理解人的想象(xiang)力。

利用MVL技(ji)術，創作者可(ke)以利用視頻(pin)、圖像、文字等(deng)多模態(tai)信息，定(ding)義畫面內人物的(de)長相、著(zhu)裝、表(biao)情以及畫面背景(jing)等(deng)。

力壓OpenAI谷歌，快手掏出最強視頻大模型，可靈2.0一句話搞定特效

在這一過程中，文本扮演了語義骨架的作用，多(duo)模態(tai)描述子（MMW）能嵌(qian)入這一(yi)骨(gu)架(jia)，擴(kuo)展描述的完(wan)備性、準確性。未(wei)來，可(ke)靈還計(ji)劃支持(chi)文本+MMW動作描述文件(jian)，畫面角色(se)的運動軌(gui)跡也(ye)能完(wan)全可(ke)控。

力壓OpenAI谷歌，快手掏出最強視頻大模型，可靈2.0一句話搞定特效

結語：基礎大模型+創作工具全棧升級，快手要打造全球第一AI視頻應用

本次(ci)可靈AI 2.0的(de)(de)(de)升級(ji)，不僅包括(kuo)基礎大模型的(de)(de)(de)能(neng)力提(ti)升，還有面向(xiang)創作者日常(chang)生產(chan)流(liu)程(cheng)的(de)(de)(de)全(quan)棧工(gong)具(ju)優化，蓋(gai)坤(kun)稱(cheng)，可靈AI的(de)(de)(de)愿(yuan)景是“讓每個(ge)人都能(neng)用AI講出好(hao)故事(shi)”。

日(ri)前，在(zai)快(kuai)手(shou)2025財年電(dian)話會議(yi)上，快(kuai)手(shou)集團高(gao)管也分享(xiang)了類(lei)似的(de)(de)(de)觀點，快(kuai)手(shou)認為AI對其發展(zhan)至關重要，將給(gei)予堅定(ding)、長期的(de)(de)(de)投入，可(ke)靈會在(zai)技術升級的(de)(de)(de)同時，進行全球市場和(he)品牌運營活動。快(kuai)手(shou)的(de)(de)(de)目(mu)標是(shi)，將可(ke)靈打造為營收規模世界第一的(de)(de)(de)AI視頻應用。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、告別慢動作畫面，可靈2.0語義響應、動態質量與美學全面升級

二、打造人與AI交互全新語言，畫面元素定制化更容易了

結語：基礎大模型+創作工具全棧升級，快手要打造全球第一AI視頻應用

相關推薦