阿里通义实验室薄列峰：从兵马俑跳“科目三”到照片唱歌，四大框架让AI生成的人物活起来丨GenAICon 2024

智東西（公眾號：zhidxcom）
作者 | GenAICon 2024

2024中國生成式(shi)AI大會于(yu)4月(yue)18-19日在(zai)北京舉行，在(zai)大會首日的主會場開(kai)幕式(shi)上，阿里巴(ba)巴(ba)通義實驗(yan)室XR團(tuan)隊負(fu)責(ze)人薄列峰博士以《人物(wu)視頻生成新范(fan)式(shi)》為題發表演講。

隨著Sora等文生視頻模型掀起熱潮，很多人都在探討文生視頻模型能不能算作世界模型。對此，薄列峰認為，文生視頻模型與世界模型的機制存在差異，視頻是一個觀察者角色，并不能真正改變世界，文字與物理世界描述之間也具有不對應關系。

人物視頻生成模型是阿里通義實驗室XR團隊的一個研究重點。薄列峰通過人物動作、人物換裝、人物替身、人物唱演4個框架來解讀人物視頻生成新范式。基于這些框架的應用，正逐步落地通義千問APP。

人物動作視頻生成框架Animate Anyone可基于單張圖和動作序列，輸出穩定、可控的人物動作視頻；人物換裝視頻生成框架Outfit Anyone是基于服飾圖和人物形象；人物視頻角色替換框架Motionshop采用Video2Motion，基于視頻人物動作驅動3D數字人；人物唱演視頻生成框架Emote Portrait Alive能夠(gou)基于單張圖和音頻，輸出準確、生動的人(ren)物唱演(yan)視頻。

以下為薄列峰的演講實錄：

我(wo)的(de)(de)分享前(qian)半部分講行(xing)業趨勢以(yi)及我(wo)在(zai)多模(mo)態、文(wen)生文(wen)等方向的(de)(de)思(si)考(kao)；后半部分分享我(wo)們在(zai)文(wen)生視頻生成方向的(de)(de)工作(zuo)。可以(yi)非常自信(xin)地說(shuo)，我(wo)們在(zai)整個(ge)業界具備領先性，整個(ge)工作(zuo)也(ye)有很強(qiang)的(de)(de)特(te)色。

一、文生視頻模型基于統計關系，不是世界模型

首(shou)先(xian)，文生(sheng)視(shi)頻高速(su)發(fa)展，大家(jia)講(jiang)發(fa)展基石的時(shi)候都會(hui)講(jiang)到(dao)數據、機(ji)器、人才。什(shen)么是多模態？什(shen)么是視(shi)頻？文生(sheng)視(shi)頻這個領(ling)域基礎又是什(shen)么？目(mu)前思(si)考得(de)還比較少。

先回(hui)顧一下進(jin)程，大(da)家可以(yi)看到Midjourney在文(wen)生(sheng)圖方向的(de)(de)突(tu)(tu)破(po)(po)；OpenAI借(jie)助(zhu)非常強的(de)(de)理解大(da)模型、能夠對圖像實現精標的(de)(de)能力，在文(wen)生(sheng)圖上做(zuo)出自(zi)己有特色的(de)(de)工作和(he)(he)突(tu)(tu)破(po)(po)；創業公司(si)像Pika、Runway也在做(zuo)自(zi)己的(de)(de)工作，分別從不同(tong)的(de)(de)路徑和(he)(he)方向來演(yan)進(jin)；包括(kuo)谷歌、大(da)的(de)(de)創業公司(si)，過去一年有很多文(wen)生(sheng)視(shi)頻方向的(de)(de)研(yan)究工作。

這(zhe)些工(gong)作從研(yan)究的(de)角度有一(yi)定數量的(de)數據集，做(zuo)一(yi)些方向的(de)突破可能沒有那么難(nan)。OpenAI相當于把這(zhe)個(ge)事(shi)情做(zuo)到了極致，在現在的(de)時(shi)間節(jie)點(dian)，整個(ge)Sora展(zhan)示出非常好的(de)效果。

文生視頻是不是世界模型？它和世界模型的機制還是有所差異的。

首先視頻是一個觀察者的角色，我們有一些攝像機在記錄這個世界，但它不是真的去改變這個世界。如(ru)果說我需(xu)要(yao)做一(yi)(yi)些世(shi)界(jie)模型，類似我需(xu)要(yao)一(yi)(yi)些具(ju)(ju)身(shen)智(zhi)(zhi)能(neng)，當然這也是大家提出的(de)(de)(de)(de)一(yi)(yi)些新名詞，具(ju)(ju)身(shen)智(zhi)(zhi)能(neng)是在仿照(zhao)我們(men)生物智(zhi)(zhi)能(neng)。生物智(zhi)(zhi)能(neng)不光有思(si)考，同樣(yang)也有實體(ti)(ti)，如(ru)果看實體(ti)(ti)的(de)(de)(de)(de)部分，具(ju)(ju)身(shen)智(zhi)(zhi)能(neng)現階(jie)段還是遠遠落(luo)后的(de)(de)(de)(de)，因為人體(ti)(ti)具(ju)(ju)備非常(chang)強的(de)(de)(de)(de)靈活(huo)性和低(di)碳(tan)的(de)(de)(de)(de)消耗(hao)，不是今(jin)天物理機器所具(ju)(ju)備的(de)(de)(de)(de)，這是一(yi)(yi)個差(cha)異點。

另一點，如果看文生視頻，視頻的存在并不依賴于文字是否存在。文字出現以(yi)前，地球上的(de)生物(wu)就可以(yi)看到這(zhe)個(ge)物(wu)理(li)世(shi)界(jie)。文字是(shi)我(wo)們引入(ru)去描(miao)述(shu)(shu)人自身的(de)思想，隨著人類(lei)(lei)進化了很多代，是(shi)我(wo)們引入(ru)的(de)一個(ge)工(gong)具(ju)，實(shi)際可能(neng)跟今天的(de)編程語言也是(shi)類(lei)(lei)似(si)的(de)。我(wo)們引入(ru)一個(ge)工(gong)具(ju)來(lai)描(miao)述(shu)(shu)這(zhe)個(ge)物(wu)理(li)世(shi)界(jie)，它(ta)(ta)具(ju)有相當的(de)描(miao)述(shu)(shu)能(neng)力，但是(shi)它(ta)(ta)和物(wu)理(li)世(shi)界(jie)之間(jian)也不對應，也就是(shi)說它(ta)(ta)有簡(jian)化、有抽(chou)象(xiang)、有歸納(na)等。

整個文生視頻做的工作是什么？有一個視頻空間，還有一個文字空間。我們在文字空間給每個視頻打上標或者找到一個對應。整個關系是一個統計的依賴關系，通過這樣的關系和暴力的關聯，再加上大數據，展現出了一定的文生視頻能力，但是不代表這是我們物理世界真實運作的規律。

如果看文生文、文生視頻，它們并不影響我們的物理世界，如果要影響物理世界，它還是需要達到生物智能所具備的特點。

在這里也分享我對AGI的理解。通過文字我們是否能實現AGI？首先文字的能力于生物智能而言，不是完整的。非完整的AI智能是否達到人類智能所具備的能力？現在看還是有相當的距離。如果今天讓(rang)大模型去(qu)造一輛汽(qi)車(che)，造一臺電(dian)視可以嗎？以我的(de)觀點來看，還是比較遙(yao)遠的(de)。

二、做特色的人物視頻生成，能換裝唱演、角色富有表現力

通義實驗(yan)室在視(shi)頻生(sheng)成方向有一些探(tan)索，我(wo)們也有完整的視(shi)頻生(sheng)成矩陣性的產品和研究(jiu)。

回到今天分享主題的核心——人物視頻生成，當(dang)大(da)家討論(lun)這個(ge)問題(ti)的時(shi)候，第一個(ge)問題(ti)是，為(wei)什么不做一個(ge)通(tong)用的視(shi)頻(pin)生成(cheng)就完了，為(wei)什么還要做人物視(shi)頻(pin)生成(cheng)？

視頻生成和人物視頻生成有共性，需要高質量的畫質，包括整個運動要符合物理規律。如果看人的組成，包括人臉、人手、人的頭發、人的服飾都具有相當的唯一性，同時展示出了非常精細的顆粒度。人物的特點、聲音，這些還是人的感知部分，我們都還沒有講到人的實體部分，包(bao)括(kuo)人(ren)是由物(wu)(wu)(wu)質組成(cheng)的等(deng)，不同(tong)的部分是不同(tong)的物(wu)(wu)(wu)質，這(zhe)些模擬(ni)可能(neng)是另一個層面，包(bao)括(kuo)我們是否能(neng)制造出(chu)一種材料(liao)跟生物(wu)(wu)(wu)智(zhi)能(neng)是類似的等(deng)等(deng)，這(zhe)部分不是我們覆蓋的主(zhu)題(ti)。

整體來看，它（人物視頻生成）是相當有特色的，會導致在生成中有很多特性，包括控制是多樣的，比如可以用聲音來做控制，可以用人體的一些表達來做控制，可以用文本來做控制。控制具備豐富性，同時它生成的人的整體表現力需要非常豐富，如果生成的人表現力非常呆板，很難滿足今天應用的需求。另外，生成的顆粒度、數字資產(chan)和人物運動的(de)(de)分離等，都(dou)是(shi)極具特色的(de)(de)部分。

我們的工作包括人物動作、人物換裝、人物替身、人物唱演等。接(jie)下來分享(xiang)每個模塊各(ge)自的工(gong)作。

三、人物動作視頻生成框架Animate Anyone：讓兵馬俑跳《科目三》

第一部分，我們在2023年11月發布人物動作視頻生成框架Animate Anyone，在人物視頻生成方向的發布早于Sora幾個月，當我們把這個結果發布出來之后，引發了非常強烈的關注，主要是達到的視覺效果超越了之前的結果，可以說是一個數量級的超越。

阿里通義實驗室薄列峰：從兵馬俑跳“科目三”到照片唱歌，四大框架讓AI生成的人物活起來丨GenAICon 2024

整個(ge)方案的框架有幾個(ge)特色：

第一，有一張參考圖，整個生成過程會對參考圖做高度的保真。大家如果在(zai)生成的時候看視(shi)頻的細(xi)節，可(ke)能(neng)會發現，隨著時間(jian)的推(tui)移，整個(ge)像(xiang)素的物理(li)合理(li)性可(ke)能(neng)不太對。我們有(you)機制，在(zai)融入的過程中，不光有(you)CLIP的特征，還有(you)視(shi)覺特征的融入，可(ke)以把更精(jing)確的信息(xi)編碼進來(lai)，這(zhe)是一個(ge)特點。

第二個特點，我們用骨骼訓練控制人物的動作。大家如果看整(zheng)個(ge)(ge)人(ren)體(ti)(ti)(ti)(ti)的(de)模(mo)擬(ni)，特別是(shi)(shi)整(zheng)個(ge)(ge)人(ren)體(ti)(ti)(ti)(ti)的(de)關節，每個(ge)(ge)關節點有它的(de)自由(you)度，整(zheng)體(ti)(ti)(ti)(ti)上骨骼與(yu)人(ren)體(ti)(ti)(ti)(ti)也是(shi)(shi)非常匹配的(de)表達。

第三，引入時序模塊，保證時序上的一致性。我們和Sora的(de)(de)效果對比，視頻(pin)效果比Sora的(de)(de)方法(fa)有一(yi)個非常明顯的(de)(de)提升。

我們也把技(ji)術(shu)產品(pin)化，部署到通義APP，歡迎大家下(xia)載(zai)體(ti)驗。

我們的(de)舞蹈生成(cheng)獲得(de)了(le)相當多的(de)關(guan)注，整個視頻內容播(bo)放達到了(le)非常高的(de)數(shu)字。畫(hua)面中(zhong)的(de)舞蹈，包括(kuo)真人(ren)、卡通(tong)形象（都(dou)可以）來(lai)跳《科(ke)目三》。

當看產(chan)品演(yan)進的(de)時候，我(wo)(wo)們(men)發(fa)現一個非常有意思的(de)事情(qing)，真人來跳(tiao)舞這(zhe)件事是我(wo)(wo)們(men)自己可(ke)以(yi)去(qu)實現的(de)能(neng)力(li)，雖(sui)然(ran)對(dui)于每個人而(er)言難度各有不(bu)同，舞蹈跳(tiao)得比較好(hao)(hao)的(de)能(neng)跳(tiao)出比較好(hao)(hao)的(de)《科目三》，舞蹈跳(tiao)得不(bu)好(hao)(hao)也能(neng)跳(tiao)出《科目三》的(de)樣子。但是對(dui)于一些(xie)其它類人的(de)形象，比如兵馬(ma)俑，我(wo)(wo)們(men)不(bu)太可(ke)能(neng)去(qu)讓它跳(tiao)《科目三》。

如果過去要讓一個兵馬俑跳《科目三》，我們要走的流程是什么？（以前）我們要做一個三維模型，人為設計它的動作，整個成本流程非常高。我們現在只要輸入一張照片，兵馬俑就可以跳《科目三》。畫一幅畫，給自己喜歡的寵物拍一張照片，輸入喜歡的各種二次元形象，它都可以來跳創作者喜歡的舞蹈。

Animate Anyone賦(fu)予創作者相當(dang)大的(de)靈(ling)活度，特別在之前很難創作出這(zhe)樣動作視頻的(de)領域，給(gei)大家提供了一(yi)個工(gong)具。

新的功能也在開發中，包括任意上傳一段視頻可以來提取骨骼序列，然后把骨骼序列傳遞的動作信息轉移到這張照片上面，生成一段舞蹈。這會(hui)再次釋(shi)放大家動作視頻創(chuang)作方面的(de)潛力，甚至一些有難度的(de)類人形象(xiang)，我(wo)們(men)能夠(gou)通過手繪骨骼(ge)(ge)點(dian)，讓它也跳起來舞蹈。我(wo)們(men)把手繪的(de)骨骼(ge)(ge)點(dian)和(he)自身定義的(de)骨骼(ge)(ge)點(dian)做一個匹(pi)配，來完成這樣(yang)一個工作。

Animate Anyone發布的時候，四個視頻在（社交平臺）Twitter上總播放量破億，還有(you)大(da)量的自(zi)發(fa)報(bao)道(dao)。

四、人物換裝視頻生成框架Outfit Anyone：一鍵為模特換裝

第二部分，人物換裝視頻生成框架Outfit Anyone。在一個文明(ming)社會，每個人都有穿著服(fu)飾(shi)(shi)的(de)需求，對美觀度有極高的(de)需求。我們打造了一個框架，可以給定一個服(fu)飾(shi)(shi)，然后讓這個服(fu)飾(shi)(shi)穿到自己或者模特的(de)身(shen)(shen)上，具備(bei)細(xi)節(jie)可控、身(shen)(shen)材可調、全身(shen)(shen)穿搭甚至(zhi)多層服(fu)飾(shi)(shi)的(de)疊穿等特征，面臨非常細(xi)節(jie)問題的(de)處(chu)理。

阿里通義實驗室薄列峰：從兵馬俑跳“科目三”到照片唱歌，四大框架讓AI生成的人物活起來丨GenAICon 2024

當我們真正要滿足大家需求的時候，服飾的一致性非常(chang)重要，疊穿(chuan)怎么(me)和(he)拍得高(gao)質量照片達到一樣(yang)的(de)畫質、精度，相當(dang)有(you)挑戰。

在一個(ge)模特(te)換裝應用中，將(jiang)鼠標(biao)點擊、上移(yi)、下移(yi)，點擊試(shi)穿(chuan)，就會讓模特(te)試(shi)穿(chuan)衣(yi)服(fu)。我給(gei)定(ding)一些特(te)別(bie)的材質，比如香蕉（圖像）等，我們也能把它當衣(yi)服(fu)一樣穿(chuan)到(dao)身上來。整個(ge)模型在嘗(chang)試(shi)把各種(zhong)各樣的布(bu)(bu)料或者類似布(bu)(bu)料的東西上身，為創意提供了一個(ge)路徑(jing)。

當然我(wo)們也(ye)可以把Outfit Anyone和Animate Anyone結(jie)合，去生成(cheng)一段走秀視頻等(deng)。相關作品獲得了相當的(de)關注，在Hugging Face上榜，關注度非常(chang)高(gao)。

五、人物視頻角色替換框架Motionshop：生成3D模型動作視頻

人物視頻角色替換框架Motionshop，給定一個視頻，提取它的骨骼，同時把骨骼和三維模型做綁定，生成三維模型的動作視頻，然后還原在原視頻中。這樣的視頻和Animate Anyone的區別是，3D資產（包括3D IP）也是相當大的領域，特別在游戲和影視，現在的Motionshop方案支持多視角的方案。

阿里通義實驗室薄列峰：從兵馬俑跳“科目三”到照片唱歌，四大框架讓AI生成的人物活起來丨GenAICon 2024

Motionshop支持多人替換，這樣的(de)視(shi)(shi)頻替換成(cheng)二(er)次元(yuan)的(de)角色，后面(mian)的(de)視(shi)(shi)頻背(bei)景相當(dang)真(zhen)實，前面(mian)的(de)人物是虛(xu)擬(ni)人物，包括實際干活兒(er)的(de)視(shi)(shi)頻。這里(li)也(ye)產(chan)生了一(yi)些對機器人能力的(de)思考。

在整個方案中，要讓整個視頻看起來非常真實，除了大模型的能力，我們還運用了渲染的能(neng)力，包(bao)括光線追蹤(zong)，會(hui)從原(yuan)視(shi)頻估計光照等，這(zhe)樣讓整個視(shi)頻看起來(lai)非常一致，沒有違和感。

把機器人帶到對話場景中，也是非常有意思的一個(ge)(ge)應(ying)用(yong)。整個(ge)(ge)置換會在(zai)場景中有非常好的體現，超越(yue)了目(mu)前一些類似的方(fang)法所能做到的能力。

六、人物唱演視頻生成框架Emote Portrait Alive：讓照片開口唱歌

年后我們沿著對人物視頻生成獨立的思考，不斷地向前探索，最新的工作是人物唱演視頻生成框架Emote Portrait Alive。給定一張照片，可以讓這個人來唱歌、講話（這項功能已于近期上線通義APP）。當然了，四五年前大家都在研發這樣的能力，對于人物視頻生成而言，表現力是極度(du)重要的，如(ru)果今(jin)天(tian)達到一(yi)個類(lei)人的表現力，在我(wo)來看是很(hen)難實現的。

阿里通義實驗室薄列峰：從兵馬俑跳“科目三”到照片唱歌，四大框架讓AI生成的人物活起來丨GenAICon 2024

我們要達到專業級，這才是真正大家使用的內容生成。很多生成的視頻畫質是OK的，但是大家有沒有思考這樣的問題，比如說文生圖、生成的視頻，你是這個視頻的消費者嗎？你會看嗎？當然模型可能會生成這個世界上不存在的物種，這是很有意思的，但你會長期去消費這樣的內容嗎？

我覺得(de)在(zai)做AIGC內容生成(cheng)之前(qian)，不管是基礎(chu)研究還是應用思考，大家都在(zai)高速迭代(dai)，每個(ge)人都有自(zi)己的(de)思考和對這(zhe)個(ge)問題(ti)的(de)答案。

在我們(men)生(sheng)成的(de)(de)過程中，基于這(zhe)樣一(yi)個包括(kuo)動作、唱歌（嘴型(xing)）、聲音(yin)表演的(de)(de)生(sheng)成，我們(men)可以(yi)去打造一(yi)個非(fei)常有吸引力(li)的(de)(de)甚(shen)至可以(yi)去做(zuo)演藝(yi)的(de)(de)形象，甚(shen)至可以(yi)做(zuo)一(yi)個虛(xu)擬的(de)(de)明星。

以上是薄列峰演講內容的完整整理。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、文生視頻模型基于統計關系，不是世界模型

二、做特色的人物視頻生成，能換裝唱演、角色富有表現力

三、人物動作視頻生成框架Animate Anyone：讓兵馬俑跳《科目三》

四、人物換裝視頻生成框架Outfit Anyone：一鍵為模特換裝

五、人物視頻角色替換框架Motionshop：生成3D模型動作視頻

六、人物唱演視頻生成框架Emote Portrait Alive：讓照片開口唱歌

相關推薦