
智東西(公眾號:zhidxcom)
作者 | GenAICon 2024
2024中國生成式(shi)AI大會于(yu)4月(yue)18-19日在(zai)北京舉行,在(zai)大會首日的主會場開(kai)幕式(shi)上,阿里巴(ba)巴(ba)通義實驗(yan)室XR團(tuan)隊負(fu)責(ze)人薄列峰博士以《人物(wu)視頻生成新范(fan)式(shi)》為題發表演講。
隨著Sora等文生視頻模型掀起熱潮,很多人都在探討文生視頻模型能不能算作世界模型。對此,薄列峰認為,文生視頻模型與世界模型的機制存在差異,視頻是一個觀察者角色,并不能真正改變世界,文字與物理世界描述之間也具有不對應關系。
人物視頻生成模型是阿里通義實驗室XR團隊的一個研究重點。薄列峰通過人物動作、人物換裝、人物替身、人物唱演4個框架來解讀人物視頻生成新范式。基于這些框架的應用,正逐步落地通義千問APP。
人物動作視頻生成框架Animate Anyone可基于單張圖和動作序列,輸出穩定、可控的人物動作視頻;人物換裝視頻生成框架Outfit Anyone是基于服飾圖和人物形象;人物視頻角色替換框架Motionshop采用Video2Motion,基于視頻人物動作驅動3D數字人;人物唱演視頻生成框架Emote Portrait Alive能夠(gou)基于單張圖和音頻,輸出準確、生動的人(ren)物唱演(yan)視頻。
以下為薄列峰的演講實錄:
我(wo)的(de)(de)分享前(qian)半部分講行(xing)業趨勢以(yi)及我(wo)在(zai)多模(mo)態、文(wen)生文(wen)等方向的(de)(de)思(si)考(kao);后半部分分享我(wo)們在(zai)文(wen)生視頻生成方向的(de)(de)工作(zuo)。可以(yi)非常自信(xin)地說(shuo),我(wo)們在(zai)整個(ge)業界具備領先性,整個(ge)工作(zuo)也(ye)有很強(qiang)的(de)(de)特(te)色。
一、文生視頻模型基于統計關系,不是世界模型
首(shou)先(xian),文生(sheng)視(shi)頻高速(su)發(fa)展,大家(jia)講(jiang)發(fa)展基石的時(shi)候都會(hui)講(jiang)到(dao)數據、機(ji)器、人才。什(shen)么是多模態?什(shen)么是視(shi)頻?文生(sheng)視(shi)頻這個領(ling)域基礎又是什(shen)么?目(mu)前思(si)考得(de)還比較少。
先回(hui)顧一下進(jin)程,大(da)家可以(yi)看到Midjourney在文(wen)生(sheng)圖方向的(de)(de)突(tu)(tu)破(po)(po);OpenAI借(jie)助(zhu)非常強的(de)(de)理解大(da)模型、能夠對圖像實現精標的(de)(de)能力,在文(wen)生(sheng)圖上做(zuo)出自(zi)己有特色的(de)(de)工作和(he)(he)突(tu)(tu)破(po)(po);創業公司(si)像Pika、Runway也在做(zuo)自(zi)己的(de)(de)工作,分別從不同(tong)的(de)(de)路徑和(he)(he)方向來演(yan)進(jin);包括(kuo)谷歌、大(da)的(de)(de)創業公司(si),過去一年有很多文(wen)生(sheng)視(shi)頻方向的(de)(de)研(yan)究工作。
這(zhe)些工(gong)作從研(yan)究的(de)角度有一(yi)定數量的(de)數據集,做(zuo)一(yi)些方向的(de)突破可能沒有那么難(nan)。OpenAI相當于把這(zhe)個(ge)事(shi)情做(zuo)到了極致,在現在的(de)時(shi)間節(jie)點(dian),整個(ge)Sora展(zhan)示出非常好的(de)效果。
文生視頻是不是世界模型?它和世界模型的機制還是有所差異的。
首先視頻是一個觀察者的角色,我們有一些攝像機在記錄這個世界,但它不是真的去改變這個世界。如(ru)果說我需(xu)要(yao)做一(yi)(yi)些世(shi)界(jie)模型,類似我需(xu)要(yao)一(yi)(yi)些具(ju)(ju)身(shen)智(zhi)(zhi)能(neng),當然這也是大家提出的(de)(de)(de)(de)一(yi)(yi)些新名詞,具(ju)(ju)身(shen)智(zhi)(zhi)能(neng)是在仿照(zhao)我們(men)生物智(zhi)(zhi)能(neng)。生物智(zhi)(zhi)能(neng)不光有思(si)考,同樣(yang)也有實體(ti)(ti),如(ru)果看實體(ti)(ti)的(de)(de)(de)(de)部分,具(ju)(ju)身(shen)智(zhi)(zhi)能(neng)現階(jie)段還是遠遠落(luo)后的(de)(de)(de)(de),因為人體(ti)(ti)具(ju)(ju)備非常(chang)強的(de)(de)(de)(de)靈活(huo)性和低(di)碳(tan)的(de)(de)(de)(de)消耗(hao),不是今(jin)天物理機器所具(ju)(ju)備的(de)(de)(de)(de),這是一(yi)(yi)個差(cha)異點。
另一點,如果看文生視頻,視頻的存在并不依賴于文字是否存在。文字出現以(yi)前,地球上的(de)生物(wu)就可以(yi)看到這(zhe)個(ge)物(wu)理(li)世(shi)界(jie)。文字是(shi)我(wo)們引入(ru)去描(miao)述(shu)(shu)人自身的(de)思想,隨著人類(lei)(lei)進化了很多代,是(shi)我(wo)們引入(ru)的(de)一個(ge)工(gong)具(ju),實(shi)際可能(neng)跟今天的(de)編程語言也是(shi)類(lei)(lei)似(si)的(de)。我(wo)們引入(ru)一個(ge)工(gong)具(ju)來(lai)描(miao)述(shu)(shu)這(zhe)個(ge)物(wu)理(li)世(shi)界(jie),它(ta)(ta)具(ju)有相當的(de)描(miao)述(shu)(shu)能(neng)力,但是(shi)它(ta)(ta)和物(wu)理(li)世(shi)界(jie)之間(jian)也不對應,也就是(shi)說它(ta)(ta)有簡(jian)化、有抽(chou)象(xiang)、有歸納(na)等。
整個文生視頻做的工作是什么?有一個視頻空間,還有一個文字空間。我們在文字空間給每個視頻打上標或者找到一個對應。整個關系是一個統計的依賴關系,通過這樣的關系和暴力的關聯,再加上大數據,展現出了一定的文生視頻能力,但是不代表這是我們物理世界真實運作的規律。
如果看文生文、文生視頻,它們并不影響我們的物理世界,如果要影響物理世界,它還是需要達到生物智能所具備的特點。
在這里也分享我對AGI的理解。通過文字我們是否能實現AGI?首先文字的能力于生物智能而言,不是完整的。非完整的AI智能是否達到人類智能所具備的能力?現在看還是有相當的距離。如果今天讓(rang)大模型去(qu)造一輛汽(qi)車(che),造一臺電(dian)視可以嗎?以我的(de)觀點來看,還是比較遙(yao)遠的(de)。
二、做特色的人物視頻生成,能換裝唱演、角色富有表現力
通義實驗(yan)室在視(shi)頻生(sheng)成方向有一些探(tan)索,我(wo)們也有完整的視(shi)頻生(sheng)成矩陣性的產品和研究(jiu)。
回到今天分享主題的核心——人物視頻生成,當(dang)大(da)家討論(lun)這個(ge)問題(ti)的時(shi)候,第一個(ge)問題(ti)是,為(wei)什么不做一個(ge)通(tong)用的視(shi)頻(pin)生成(cheng)就完了,為(wei)什么還要做人物視(shi)頻(pin)生成(cheng)?
視頻生成和人物視頻生成有共性,需要高質量的畫質,包括整個運動要符合物理規律。如果看人的組成,包括人臉、人手、人的頭發、人的服飾都具有相當的唯一性,同時展示出了非常精細的顆粒度。人物的特點、聲音,這些還是人的感知部分,我們都還沒有講到人的實體部分,包(bao)括(kuo)人(ren)是由物(wu)(wu)(wu)質組成(cheng)的等(deng),不同(tong)的部分是不同(tong)的物(wu)(wu)(wu)質,這(zhe)些模擬(ni)可能(neng)是另一個層面,包(bao)括(kuo)我們是否能(neng)制造出(chu)一種材料(liao)跟生物(wu)(wu)(wu)智(zhi)能(neng)是類似的等(deng)等(deng),這(zhe)部分不是我們覆蓋的主(zhu)題(ti)。
整體來看,它(人物視頻生成)是相當有特色的,會導致在生成中有很多特性,包括控制是多樣的,比如可以用聲音來做控制,可以用人體的一些表達來做控制,可以用文本來做控制。控制具備豐富性,同時它生成的人的整體表現力需要非常豐富,如果生成的人表現力非常呆板,很難滿足今天應用的需求。另外,生成的顆粒度、數字資產(chan)和人物運動的(de)(de)分離等,都(dou)是(shi)極具特色的(de)(de)部分。
我們的工作包括人物動作、人物換裝、人物替身、人物唱演等。接(jie)下來分享(xiang)每個模塊各(ge)自的工(gong)作。
三、人物動作視頻生成框架Animate Anyone:讓兵馬俑跳《科目三》
第一部分,我們在2023年11月發布人物動作視頻生成框架Animate Anyone,在人物視頻生成方向的發布早于Sora幾個月,當我們把這個結果發布出來之后,引發了非常強烈的關注,主要是達到的視覺效果超越了之前的結果,可以說是一個數量級的超越。
整個(ge)方案的框架有幾個(ge)特色:
第一,有一張參考圖,整個生成過程會對參考圖做高度的保真。大家如果在(zai)生成的時候看視(shi)頻的細(xi)節,可(ke)能(neng)會發現,隨著時間(jian)的推(tui)移,整個(ge)像(xiang)素的物理(li)合理(li)性可(ke)能(neng)不太對。我們有(you)機制,在(zai)融入的過程中,不光有(you)CLIP的特征,還有(you)視(shi)覺特征的融入,可(ke)以把更精(jing)確的信息(xi)編碼進來(lai),這(zhe)是一個(ge)特點。
第二個特點,我們用骨骼訓練控制人物的動作。大家如果看整(zheng)個(ge)(ge)人(ren)體(ti)(ti)(ti)(ti)的(de)模(mo)擬(ni),特別是(shi)(shi)整(zheng)個(ge)(ge)人(ren)體(ti)(ti)(ti)(ti)的(de)關節,每個(ge)(ge)關節點有它的(de)自由(you)度,整(zheng)體(ti)(ti)(ti)(ti)上骨骼與(yu)人(ren)體(ti)(ti)(ti)(ti)也是(shi)(shi)非常匹配的(de)表達。
第三,引入時序模塊,保證時序上的一致性。我們和Sora的(de)(de)效果對比,視頻(pin)效果比Sora的(de)(de)方法(fa)有一(yi)個非常明顯的(de)(de)提升。
我們也把技(ji)術(shu)產品(pin)化,部署到通義APP,歡迎大家下(xia)載(zai)體(ti)驗。
我們的(de)舞蹈生成(cheng)獲得(de)了(le)相當多的(de)關(guan)注,整個視頻內容播(bo)放達到了(le)非常高的(de)數(shu)字。畫(hua)面中(zhong)的(de)舞蹈,包括(kuo)真人(ren)、卡通(tong)形象(都(dou)可以)來(lai)跳《科(ke)目三》。
當看產(chan)品演(yan)進的(de)時候,我(wo)(wo)們(men)發(fa)現一個非常有意思的(de)事情(qing),真人來跳(tiao)舞這(zhe)件事是我(wo)(wo)們(men)自己可(ke)以(yi)去(qu)實現的(de)能(neng)力(li),雖(sui)然(ran)對(dui)于每個人而(er)言難度各有不(bu)同,舞蹈跳(tiao)得比較好(hao)(hao)的(de)能(neng)跳(tiao)出比較好(hao)(hao)的(de)《科目三》,舞蹈跳(tiao)得不(bu)好(hao)(hao)也能(neng)跳(tiao)出《科目三》的(de)樣子。但是對(dui)于一些(xie)其它類人的(de)形象,比如兵馬(ma)俑,我(wo)(wo)們(men)不(bu)太可(ke)能(neng)去(qu)讓它跳(tiao)《科目三》。
如果過去要讓一個兵馬俑跳《科目三》,我們要走的流程是什么?(以前)我們要做一個三維模型,人為設計它的動作,整個成本流程非常高。我們現在只要輸入一張照片,兵馬俑就可以跳《科目三》。畫一幅畫,給自己喜歡的寵物拍一張照片,輸入喜歡的各種二次元形象,它都可以來跳創作者喜歡的舞蹈。
Animate Anyone賦(fu)予創作者相當(dang)大的(de)靈(ling)活度,特別在之前很難創作出這(zhe)樣動作視頻的(de)領域,給(gei)大家提供了一(yi)個工(gong)具。
新的功能也在開發中,包括任意上傳一段視頻可以來提取骨骼序列,然后把骨骼序列傳遞的動作信息轉移到這張照片上面,生成一段舞蹈。這會(hui)再次釋(shi)放大家動作視頻創(chuang)作方面的(de)潛力,甚至一些有難度的(de)類人形象(xiang),我(wo)們(men)能夠(gou)通過手繪骨骼(ge)(ge)點(dian),讓它也跳起來舞蹈。我(wo)們(men)把手繪的(de)骨骼(ge)(ge)點(dian)和(he)自身定義的(de)骨骼(ge)(ge)點(dian)做一個匹(pi)配,來完成這樣(yang)一個工作。
Animate Anyone發布的時候,四個視頻在(社交平臺)Twitter上總播放量破億,還有(you)大(da)量的自(zi)發(fa)報(bao)道(dao)。
四、人物換裝視頻生成框架Outfit Anyone:一鍵為模特換裝
第二部分,人物換裝視頻生成框架Outfit Anyone。在一個文明(ming)社會,每個人都有穿著服(fu)飾(shi)(shi)的(de)需求,對美觀度有極高的(de)需求。我們打造了一個框架,可以給定一個服(fu)飾(shi)(shi),然后讓這個服(fu)飾(shi)(shi)穿到自己或者模特的(de)身(shen)(shen)上,具備(bei)細(xi)節(jie)可控、身(shen)(shen)材可調、全身(shen)(shen)穿搭甚至(zhi)多層服(fu)飾(shi)(shi)的(de)疊穿等特征,面臨非常細(xi)節(jie)問題的(de)處(chu)理。
當我們真正要滿足大家需求的時候,服飾的一致性非常(chang)重要,疊穿(chuan)怎么(me)和(he)拍得高(gao)質量照片達到一樣(yang)的(de)畫質、精度,相當(dang)有(you)挑戰。
在一個(ge)模特(te)換裝應用中,將(jiang)鼠標(biao)點擊、上移(yi)、下移(yi),點擊試(shi)穿(chuan),就會讓模特(te)試(shi)穿(chuan)衣(yi)服(fu)。我給(gei)定(ding)一些特(te)別(bie)的材質,比如香蕉(圖像)等,我們也能把它當衣(yi)服(fu)一樣穿(chuan)到(dao)身上來。整個(ge)模型在嘗(chang)試(shi)把各種(zhong)各樣的布(bu)(bu)料或者類似布(bu)(bu)料的東西上身,為創意提供了一個(ge)路徑(jing)。
當然我(wo)們也(ye)可以把Outfit Anyone和Animate Anyone結(jie)合,去生成(cheng)一段走秀視頻等(deng)。相關作品獲得了相當的(de)關注,在Hugging Face上榜,關注度非常(chang)高(gao)。
五、人物視頻角色替換框架Motionshop:生成3D模型動作視頻
人物視頻角色替換框架Motionshop,給定一個視頻,提取它的骨骼,同時把骨骼和三維模型做綁定,生成三維模型的動作視頻,然后還原在原視頻中。這樣的視頻和Animate Anyone的區別是,3D資產(包括3D IP)也是相當大的領域,特別在游戲和影視,現在的Motionshop方案支持多視角的方案。
Motionshop支持多人替換,這樣的(de)視(shi)(shi)頻替換成(cheng)二(er)次元(yuan)的(de)角色,后面(mian)的(de)視(shi)(shi)頻背(bei)景相當(dang)真(zhen)實,前面(mian)的(de)人物是虛(xu)擬(ni)人物,包括實際干活兒(er)的(de)視(shi)(shi)頻。這里(li)也(ye)產(chan)生了一(yi)些對機器人能力的(de)思考。
在整個方案中,要讓整個視頻看起來非常真實,除了大模型的能力,我們還運用了渲染的能(neng)力,包(bao)括光線追蹤(zong),會(hui)從原(yuan)視(shi)頻估計光照等,這(zhe)樣讓整個視(shi)頻看起來(lai)非常一致,沒有違和感。
把機器人帶到對話場景中,也是非常有意思的一個(ge)(ge)應(ying)用(yong)。整個(ge)(ge)置換會在(zai)場景中有非常好的體現,超越(yue)了目(mu)前一些類似的方(fang)法所能做到的能力。
六、人物唱演視頻生成框架Emote Portrait Alive:讓照片開口唱歌
年后我們沿著對人物視頻生成獨立的思考,不斷地向前探索,最新的工作是人物唱演視頻生成框架Emote Portrait Alive。給定一張照片,可以讓這個人來唱歌、講話(這項功能已于近期上線通義APP)。當然了,四五年前大家都在研發這樣的能力,對于人物視頻生成而言,表現力是極度(du)重要的,如(ru)果今(jin)天(tian)達到一(yi)個類(lei)人的表現力,在我(wo)來看是很(hen)難實現的。
我們要達到專業級,這才是真正大家使用的內容生成。很多生成的視頻畫質是OK的,但是大家有沒有思考這樣的問題,比如說文生圖、生成的視頻,你是這個視頻的消費者嗎?你會看嗎?當然模型可能會生成這個世界上不存在的物種,這是很有意思的,但你會長期去消費這樣的內容嗎?
我覺得(de)在(zai)做AIGC內容生成(cheng)之前(qian),不管是基礎(chu)研究還是應用思考,大家都在(zai)高速迭代(dai),每個(ge)人都有自(zi)己的(de)思考和對這(zhe)個(ge)問題(ti)的(de)答案。
在我們(men)生(sheng)成的(de)(de)過程中,基于這(zhe)樣一(yi)個包括(kuo)動作、唱歌(嘴型(xing))、聲音(yin)表演的(de)(de)生(sheng)成,我們(men)可以(yi)去打造一(yi)個非(fei)常有吸引力(li)的(de)(de)甚(shen)至可以(yi)去做(zuo)演藝(yi)的(de)(de)形象,甚(shen)至可以(yi)做(zuo)一(yi)個虛(xu)擬的(de)(de)明星。
以上是薄列峰演講內容的完整整理。