智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 漠影

起猛(meng)了(le),AI現在都能(neng)生成(cheng)武打戲了(le),還是(shi)人(ren)虎搏斗的那種!

近日(ri),一條名為《風(feng)入松》的AI短片(pian),在年度AI盛(sheng)會WAIC期間亮(liang)相,吸引了不少眼(yan)球。這部影片(pian)以(yi)現代廢土風(feng),重新演繹了經典的“武(wu)松打虎(hu)”故(gu)事。

國產視頻生成再突破!從影視級短片到遠洋親情連線,AI讓天涯變咫尺

▲AI短片《風(feng)入松》

《風入松》由中國電影導演中心與中國電信人工智能研究院(TeleAI)聯手打造,使用的正是TeleAI的VAST視頻生成大模型。

TeleAI由中國(guo)電信集團CTO、首席科學家李(li)學龍教授(shou)牽頭(tou)組建,于去年7月的(de)(de)(de)WAIC大(da)會上正式揭(jie)牌。在(zai)李(li)學龍教授(shou)的(de)(de)(de)帶(dai)領下(xia),TeleAI團隊打(da)造了包括(kuo)VAST在(zai)內的(de)(de)(de)星(xing)辰大(da)模型體系(xi),是國(guo)內首個全(quan)模態、全(quan)尺(chi)寸(cun)、全(quan)國(guo)產(chan)的(de)(de)(de)“三全(quan)”大(da)模型,并(bing)推(tui)動(dong)相關技術的(de)(de)(de)創新和應用。

從設定的角度來看,《風入松》這部短片本身便極具(ju)想(xiang)象力(li),但最(zui)令人(ren)驚嘆的,當屬AI技術(shu)如(ru)何將天馬行空的想(xiang)象化為逼真(zhen)畫(hua)面。

作為技術支撐,TeleAI的VAST視頻生成大模型去年12月發布時,便在權威視頻生成評測榜單VBench中奪得榜首,并持續迭代升級。

從(cong)基(ji)礎畫(hua)面(mian)生成,到(dao)復(fu)雜(za)動(dong)作,再到(dao)鏡頭(tou)控制與角色一致性優化,其(qi)能力邊界不斷擴(kuo)展,已具備在(zai)專(zhuan)業創作場景中“頂上陣”的潛力。

一、視頻生成告別開盲盒游戲,能演會拍才是好AI

要(yao)真(zhen)正理解《風入松(song)》這部(bu)短片實現的(de)突破,我們首先得看看,影視(shi)制(zhi)作究竟需(xu)要(yao)什(shen)么樣(yang)的(de)AI工(gong)具(ju)。

分(fen)辨率高、動作流暢、細節寫(xie)實,這些只(zhi)是技術層面(mian)的基礎(chu)能力,遠(yuan)遠(yuan)不夠支(zhi)撐一部真正意義上的影視作品。

要在真實的影視制作流程中發揮作用,AI更關鍵的是要理解導演的(de)創作意圖,跟上(shang)敘事節奏、掌握鏡頭(tou)語(yu)言、調(diao)動情緒氛圍,真正融入視聽語言的表達體系(xi)。

換言之,AI不僅要會(hui)畫畫,更要像電影人一(yi)樣會(hui)拍、會(hui)演,能夠協同完(wan)成(cheng)角色塑造、場景調度與敘(xu)事(shi)推進(jin),成(cheng)為一(yi)名具備視(shi)聽表達能力的“創作(zuo)伙伴”。

《風(feng)入松》中,TeleAI 的VAST視頻(pin)生成(cheng)大(da)模型已展現(xian)出強烈的畫面(mian)表現(xian)力(li)和敘事(shi)控制力(li)。

影(ying)片伊始,當(dang)現代“武松”騎著摩托車(che)在(zai)沙漠(mo)飛馳,AI將每一(yi)處細節都刻畫(hua)得淋漓盡致:引擎(qing)轟(hong)鳴(ming)聲與風沙的(de)呼嘯形成震撼(han)音浪,摩托車(che)飛躍障礙(ai)時在(zai)空中劃出完美的(de)弧線(xian),車(che)輪駛過沙地時激起細膩的(de)沙浪,光(guang)影(ying)真實(shi)自然。

在(zai)激烈(lie)的(de)猛虎(hu)(hu)搏(bo)斗場景中,AI模擬的(de)每一根虎(hu)(hu)毛都隨動作擺動,肌肉(rou)線條在(zai)撲咬時展現(xian)出驚人的(de)動態細節;主角與老虎(hu)(hu)搏(bo)斗時拳拳到肉(rou),動作有力(li)、毫無穿幫。這些曾需要頂級(ji)特效團隊(dui)數月(yue)打磨的(de)畫面,如今通過AI實現(xian)了電影級(ji)的(de)真實感。

國產視頻生成再突破!從影視級短片到遠洋親情連線,AI讓天涯變咫尺

TeleAI視頻生成大(da)模(mo)型已經(jing)(jing)憑借其影(ying)片質量(liang),俘獲(huo)了(le)(le)一批(pi)專業(ye)人(ren)士。參(can)與《風入松》制作的(de)(de)團(tuan)隊在(zai)影(ying)視行(xing)業(ye)有豐富(fu)的(de)(de)從業(ye)經(jing)(jing)驗,據了(le)(le)解,他們在(zai)使用TeleAI視頻生成大(da)模(mo)型后,給予了(le)(le)高度(du)認可(ke),這更凸顯了(le)(le)TeleAI在(zai)視頻生成領域(yu)實現(xian)的(de)(de)重大(da)突(tu)破。

二、如何打造電影級視頻生成模型?揭秘背后三項核心技術

那么(me),打造這(zhe)樣一(yi)款(kuan)視頻生(sheng)成大模型,背后究(jiu)竟需要哪些關鍵支撐(cheng)?從《風(feng)入松》的(de)(de)畫(hua)面中,我們可以清晰地看(kan)到其中的(de)(de)三(san)項核心技術(shu)。

首先是動作(zuo)遷移(yi)技術。在《風入松》這部短片中,TeleAI的(de)(de)VAST視頻生成大(da)模型展現(xian)出強大(da)的(de)(de)畫面表現(xian)力(li)和(he)敘事控(kong)制力(li)。張(zhang)力(li)十足的(de)(de)打斗戲(xi)中,沒有出現(xian)“穿模”、扭曲等常見問題。

動(dong)(dong)作(zuo)(zuo)遷移技(ji)術(shu)允許(xu)制作(zuo)(zuo)者(zhe)上傳一(yi)張首幀圖和一(yi)段參考動(dong)(dong)作(zuo)(zuo),AI便能讓首幀圖中(zhong)人(ren)物(wu)的動(dong)(dong)作(zuo)(zuo)表演與參考視頻完(wan)全一(yi)致(zhi)。這一(yi)技(ji)術(shu)成(cheng)功攻克了(le)AI生成(cheng)視頻中(zhong)動(dong)(dong)作(zuo)(zuo)節奏難以控制、人(ren)物(wu)表情表演生硬(ying)等難題,讓AI生成(cheng)的視頻人(ren)物(wu)動(dong)(dong)作(zuo)(zuo)更自然、表情更生動(dong)(dong)。

業界(jie)的主(zhu)流動作遷(qian)移(yi)方(fang)案都基于骨骼(ge)(ge)綁定,不過,TeleAI決定更(geng)上一層(ceng)樓,將其從2D骨骼(ge)(ge)點升級為3D骨骼(ge)(ge)點綁定,使(shi)得動作更(geng)具空間感、層(ceng)次感,甚(shen)至可以(yi)自然地控制動物(wu)或卡(ka)通人物(wu)。

另一大(da)核心技術為可控三(san)維運(yun)鏡,賦(fu)予了AI對“鏡頭(tou)語言(yan)”的準(zhun)確理解(jie)和(he)運(yun)用能力。例如,在下方(fang)畫面短短的幾秒內(nei),《風入(ru)松》呈現(xian)了多(duo)角度、快速切換(huan)的復雜運(yun)鏡,遠景(jing)、仰拍、特(te)寫(xie)等流暢銜接。這些(xie)原本需要專業攝影指導和(he)團(tuan)隊配合的鏡頭(tou)切換(huan),在這里被(bei)AI準(zhun)確實現(xian)。

國產視頻生成再突破!從影視級短片到遠洋親情連線,AI讓天涯變咫尺

這并不(bu)是靠(kao)堆砌提示(shi)詞“蒙”出來的(de)(de)。通過(guo)可控三維(wei)運(yun)鏡技術(shu),TeleAI把三維(wei)重建與視(shi)頻生成深度(du)融(rong)合(he),賦(fu)予模型空間結構的(de)(de)感知能(neng)力,再通過(guo)攝像機內參、外參等物理(li)參數精細控制運(yun)鏡效果(guo)。AI不(bu)只是懂內容,它逐漸開始(shi)懂得怎么拍,讓AI真正具備(bei)導演般的(de)(de)視(shi)角。

會演、會拍僅(jin)僅(jin)是開始,很多業內(nei)人士評價,AI視(shi)頻目(mu)前最大的問題之一是“一致性差”,同一人物在不同鏡(jing)頭中的形象、著(zhu)裝、氣質常常前后不一,極(ji)易穿(chuan)幫。

但《風入松》中的主角卻始終保持了穩定的外貌風格,這得益于背后的人物一致(zhi)性技術。TeleAI 的VAST視(shi)頻生(sheng)成大模型采(cai)用(yong)分步生(sheng)成的方(fang)式,先生(sheng)成分鏡、深度信息(xi)等中間數據,再在此基礎上精細生(sheng)成畫面。

國產視頻生成再突破!從影視級短片到遠洋親情連線,AI讓天涯變咫尺

這種生成流程極大提高了人物、畫面的(de)一致性(xing)與(yu)敘(xu)事可控(kong)性(xing),流程和電影工(gong)業(ye)中(zhong)用(yong)故(gu)事板搭建畫面框架,再(zai)利用(yong)計算機圖形技術渲染的邏輯(ji)幾乎一致,讓AI沒(mei)有隨意發揮的空間(jian)。

上述底層(ceng)能力的(de)(de)(de)(de)升級(ji),是AI視頻真正(zheng)邁入影(ying)視工(gong)業(ye)體系的(de)(de)(de)(de)敲(qiao)門磚。更(geng)重要的(de)(de)(de)(de)是,TeleAI在與專(zhuan)(zhuan)業(ye)導(dao)演的(de)(de)(de)(de)合作(zuo)中,獲得了(le)大量來(lai)(lai)自(zi)一線實踐的(de)(de)(de)(de)反饋需求(qiu):比如演員的(de)(de)(de)(de)表情、情緒、人物節奏等更(geng)加細膩的(de)(de)(de)(de)表演控制。這些(xie)開發者原(yuan)本沒(mei)有(you)預料(liao)到的(de)(de)(de)(de)專(zhuan)(zhuan)業(ye)需求(qiu),正(zheng)逐(zhu)漸轉化為技(ji)術(shu)研發的(de)(de)(de)(de)新方向。憑借這些(xie)先進技(ji)術(shu),TeleAI為影(ying)視制作(zuo)行業(ye)帶來(lai)(lai)了(le)前所未(wei)有(you)的(de)(de)(de)(de)便利(li)和(he)優勢。

三、視頻生成+通信解鎖新場景,“腦補”畫面實現遠洋視頻通話

在(zai)推動視(shi)頻生(sheng)成(cheng)技術賦能(neng)影(ying)視(shi)工(gong)業(ye)的同(tong)時,TeleAI也(ye)在(zai)積極探索這項(xiang)技術更廣闊的應用場景。畢竟,視(shi)頻生(sheng)成(cheng)的本質并不(bu)僅限于電影(ying)創作,而是一種對視(shi)覺(jue)信息(xi)的重(zhong)構方式。

從(cong)AI的(de)(de)通用(yong)視(shi)角來看,“智能(neng)的(de)(de)本(ben)質是壓縮”已成為業內共識(shi)。無論是語言模(mo)型(xing)、圖像(xiang)模(mo)型(xing)還是視(shi)頻模(mo)型(xing),其核心(xin)任(ren)務都是從(cong)海(hai)量(liang)原始數(shu)據中(zhong)提取模(mo)式與(yu)規律,并以高效(xiao)、緊湊的(de)(de)方式編碼進(jin)模(mo)型(xing)參(can)數(shu)中(zhong),模(mo)型(xing)學會用(yong)有限(xian)的(de)(de)參(can)數(shu)表示(shi)無限(xian)的(de)(de)可能(neng)。

但真正的(de)智(zhi)能不僅(jin)在(zai)于壓縮,更在(zai)于“還原(yuan)(yuan)”。也就是說(shuo),一(yi)個具備高水(shui)平智(zhi)能的(de)系統,必(bi)須能夠在(zai)接(jie)收有(you)限(xian)信息的(de)情況(kuang)下,準確重建原(yuan)(yuan)始內容(rong),甚至完成(cheng)合理補全與(yu)未來預測(ce)。

中國電信人工智能研究院(TeleAI)將VAST視頻生成大模型與其正在布局和研究的一項重要技術“智傳網(AI Flow)”深度結合,提出了一種新型通(tong)信(xin)技術——生(sheng)成式智(zhi)能傳輸,也就是用“計算”換(huan)“帶寬(kuan)”。

智傳網(AI Flow)是人工智能(智)、通信(傳)、網絡(網)三項關鍵技術的融合,通過網絡分層架構,基于連接與交互,能夠實現智能的傳遞和涌現。

在李學龍(long)教(jiao)授的(de)帶領(ling)下,TeleAI打(da)造了(le)包(bao)(bao)括(kuo)智(zhi)傳網(AI Flow)技術體(ti)系(包(bao)(bao)括(kuo)生成式(shi)智(zhi)能(neng)通(tong)信(xin)技術等)在內的(de) “一(yi)治+三智(zhi)”戰略科研布局,其他方向(xiang)還包(bao)(bao)括(kuo)AI治理(li)、智(zhi)能(neng)光電(包(bao)(bao)括(kuo)具身(shen)智(zhi)能(neng))、智(zhi)能(neng)體(ti)。

智傳網(wang)(AI Flow)的突破,有望解(jie)決通信(xin)業務中一個長期存在(zai)的難題——如何(he)在(zai)極其有限的帶寬條件下,高效傳輸高質量的視(shi)頻(pin)和多媒體內容。

這是困擾通信行業多年的技術瓶頸——傳統的視頻通信技術依賴高帶寬和高穩定性的網絡環境,一旦網絡不給力,立刻就卡成PPT、音畫不同步。

像你我這樣的普通用戶,也(ye)經常會(hui)(hui)在生活(huo)中遇到類似問題(ti)。例如,在演唱會(hui)(hui)、會(hui)(hui)展等人員極為密集的場所(suo),網絡擁堵常常導致視(shi)頻(pin)通話無法(fa)連(lian)接、直播卡(ka)頓,甚(shen)至連(lian)基本的視(shi)頻(pin)上傳和下載都變(bian)得困難(nan)。

更不用說在高(gao)鐵、地(di)下(xia)、飛機或(huo)遠洋(yang)、偏遠山區等極端條件下(xia),視頻通信(xin)幾乎(hu)成為奢望(wang)。這(zhe)些問題背(bei)后,正是現有通信(xin)技術在帶(dai)寬、穩定性(xing)和(he)數(shu)據傳輸效率上的瓶(ping)頸。

在本屆WAIC大會上,TeleAI展(zhan)示了(le)基于(yu)智傳(chuan)網(AI Flow)的(de)生(sheng)成式智能傳(chuan)輸技(ji)術的(de)典型案例——遠(yuan)洋通信,破解了這一瓶頸。

國產視頻生成再突破!從影視級短片到遠洋親情連線,AI讓天涯變咫尺

船(chuan)舶與(yu)陸地的(de)通(tong)(tong)信(xin),長期以來(lai)是全球航(hang)海技術發展中(zhong)的(de)巨大挑(tiao)戰。由于船(chuan)上(shang)的(de)衛星(xing)網很慢,信(xin)號很差,船(chuan)員只(zhi)能(neng)通(tong)(tong)過(guo)微信(xin)打(da)字給家里報平安,無法進行(xing)視(shi)頻(pin)(pin)電話或刷短視(shi)頻(pin)(pin)、上(shang)視(shi)頻(pin)(pin)網站。

通(tong)過(guo)生(sheng)成式(shi)智能傳輸技(ji)術,讓(rang)遠(yuan)洋(yang)視頻(pin)通(tong)話不再是奢望,它(ta)將變(bian)得簡(jian)單(dan)而(er)高效。這項技(ji)術的應(ying)用,不僅(jin)連(lian)通(tong)了(le)海(hai)洋(yang)與陸(lu)地(di),也讓(rang)船員們的業余時(shi)光告別了(le)單(dan)調,擁(yong)有如同岸上般(ban)豐富的色彩。

傳統視頻壓縮傳輸方式是把整段視頻原樣搬運,而生成式智能傳輸技術則采用了更聰明的辦法:通過TeleAI的(de)多模態大模型,提取音視頻最關(guan)鍵的(de)特征信息(xi),壓縮編碼后(hou),將這些信息(xi)發(fa)送給接(jie)收端。

而在接收端,TeleAI部署在本地的多模態生成大模型能根據上述信息,自主“腦補”出完整畫面,就像(xiang)用草圖還原一副(fu)畫(hua)作一樣。

這種壓縮傳輸方式相較傳統方案(如H.264+5G LDPC)展現出明顯優勢。在衛星場景下帶寬資源稀缺時,這個方案將帶寬需求壓縮了整整1-2個數量級,視頻數據體積最多可降至原始的1%,在背景變化較(jiao)小的場景中甚至可達千分之一。

在船載服務器上的多模態生成大模型本地完成音視頻的智能還原后,畫質、音質可以保持“主觀無損”的水平。這就(jiu)讓遠洋(yang)海(hai)員們(men)即便在極低帶寬條(tiao)件下(xia),依然能夠實現清晰、流暢(chang)的視頻通話體驗。

從部署角度來看,這項技術對硬件要求也非常友好——船只僅需搭載一臺配有4張(zhang)消費級顯(xian)卡(ka)的本地服務器,便可為船員提供穩定的Wi-Fi視頻通話服(fu)務。這種輕量化部署,為未來的規(gui)模化落(luo)地提供了現(xian)實(shi)基礎。

生(sheng)成式智(zhi)能傳(chuan)輸不(bu)僅適用于遠(yuan)洋通(tong)信,還是一整套可適配不(bu)同(tong)通(tong)信環(huan)境(jing)的(de)解(jie)決方(fang)案。系統可根據(ju)不(bu)同(tong)場景下的(de)帶(dai)寬、算力等資源條件,智(zhi)能選(xuan)擇不(bu)同(tong)大小的(de)視頻解(jie)碼模型(xing)。

例(li)如,在多數通話場(chang)景中,僅(jin)使用(yong)480P分(fen)辨(bian)率(lv)和小(xiao)模型即可(ke)實(shi)現流暢且清晰的通信體驗,從而實(shi)現算力(li)與帶寬的最優(you)協(xie)同。

可以說,這項技術展現的并非某一項技術的單點突破,而是一種系統性的融合式創新。如果沒有(you)VAST視頻生成技(ji)術的(de)日(ri)益成熟,視頻信號(hao)根本壓(ya)縮(suo)不(bu)到(dao)這個(ge)程度;如果沒有(you)智傳網(wang)(AI Flow)基礎構(gou)建,再精美的(de)畫面(mian)也送不(bu)到(dao)用(yong)戶眼前。

未來,通(tong)信(xin)不(bu)(bu)(bu)再是(shi)單純的信(xin)號搬運,而(er)是(shi)理(li)解與(yu)重建的過(guo)程,編(bian)碼的不(bu)(bu)(bu)再是(shi)比特,而(er)是(shi)意(yi)義(yi)本身。生(sheng)成(cheng)式智能(neng)傳(chuan)輸(shu)技術在(zai)遠洋通(tong)信(xin)的應用場景中已獲得驗證,在(zai)不(bu)(bu)(bu)久的未來,這(zhe)項技術將進一步推廣,實現(xian)在(zai)飛機的機艙(cang)內撥打(da)高清視頻會議(yi),不(bu)(bu)(bu)因信(xin)號影響(xiang)工作(zuo);野外露營時,也能(neng)收看精彩(cai)的球賽,不(bu)(bu)(bu)為生(sheng)活留下遺憾。

這正(zheng)是一場AI與通信的(de)“雙向奔(ben)赴”,也為構建高質量、低成本的(de)未(wei)來多媒(mei)體通信基礎(chu)設施,提供了堅實的(de)技術(shu)底座(zuo)與實踐范本。