智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 漠影

視頻(pin)生成競賽(sai)愈發激烈,但細(xi)膩(ni)、準確地傳達人物面部表情細(xi)節仍(reng)然(ran)是其(qi)中的一大難點(dian)。

一般的影(ying)視作品(pin)或者日(ri)常交流中,人們說話(hua)時(shi)伴隨(sui)著的面(mian)部表情(qing)變化也是(shi)準(zhun)確(que)傳遞信息的關鍵。在(zai)視頻生成中,想(xiang)要讓人物的整體表現(xian)更加流暢自然,就需要將人物的動作、皮膚紋理、肌肉運動等細節呈現(xian)更為細膩(ni)。

這對于AI而(er)言難度(du)不小。近期(qi)在肖像生成方(fang)面(mian)的(de)一項(xiang)研究突破,就(jiu)針對于上述難題(ti)給出(chu)了解法。

這(zhe)就是字(zi)節(jie)跳動智能創(chuang)作團隊近期提出的X- Portrait 2單圖視頻驅動技術,僅需要一張靜態圖片和(he)一段驅動視頻,用戶就可(ke)以(yi)得到(dao)高質量(liang)、電(dian)影級的視頻片段。

如果(guo)我(wo)同時上(shang)傳了《白銀帝國(guo)》中演員金士杰的視(shi)頻片段(duan),和(he)一(yi)張AI生(sheng)成(cheng)的紫發(fa)外國(guo)女(nv)生(sheng)的靜圖,就可以讓女(nv)生(sheng)直接(jie)復刻電影片段(duan)的動作。

可以(yi)看到,下圖中靜態圖和驅動視頻中的(de)人(ren)物(wu)形象區別很大,并且即使(shi)人(ren)物(wu)表情變化包含(han)大笑、張(zhang)大嘴等,X-Portrait 2最后生(sheng)成的(de)效果也(ye)完全(quan)沒有被影(ying)響(xiang),只(zhi)是集中于面部表情、頭部動作(zuo)的(de)變化。

生動豐富的(de)表情(qing)是塑(su)造角色性格的(de)關鍵(jian),可以看出,當(dang)下(xia)的(de)肖像生成技術正在向著(zhu)更精細地模擬(ni)人類微(wei)觀表情(qing)進階。

一、經典鏡頭秒速復刻,大笑、扭頭面部均不變形

細致入微的表情,往往是演員傳達(da)情緒(xu)的關(guan)鍵,現在這(zhe)項工作也能被AI接管了。

在體(ti)驗這(zhe)項技(ji)術之初,我設定的初始(shi)難度是調用(yong)較少感官的表情,如只需要眨眼、大(da)笑等(deng),這(zhe)考驗的就是X- Portrait 2在生成過程中(zhong)(zhong),如何讓靜(jing)圖中(zhong)(zhong)的人(ren)物準(zhun)確調用(yong)正確的感官,并(bing)將情緒準(zhun)確傳(chuan)達出來。

相信(xin)很(hen)多人都(dou)對(dui)《大(da)話西游》中紫霞仙子眨眼的鏡(jing)頭記(ji)憶(yi)猶新,這也被認為是(shi)很(hen)難(nan)超越的眨眼神圖,如果把這個(ge)表情搬(ban)到著名表情包“金館長”臉上(shang)呢(ni)?

可以看到(dao),最后生成的視頻中(zhong),金館長的眼睛被放(fang)大,從抿嘴到(dao)眨眼一氣(qi)呵成,面(mian)部完(wan)全(quan)沒有(you)變形,直接復刻(ke)了(le)這一經典畫面(mian)。

那如果將(jiang)金館(guan)長(chang)的(de)經典大笑表(biao)情(qing)包放(fang)到其他人(ren)(ren)臉上呢?我利用豆包生成了(le)(le)一張(zhang)科幻屬性(xing)明(ming)顯的(de)人(ren)(ren)物圖像,然后上傳了(le)(le)金館(guan)長(chang)從大笑到說(shuo)話的(de)視頻片段(duan)。

靜態圖中的人物不僅模(mo)仿了金館(guan)長的大笑神態,就(jiu)連大笑時面(mian)部(bu)的皺紋(wen)、頭部(bu)的輕微上下擺動動作(zuo)都傳遞的十分(fen)到(dao)位。

考驗完單(dan)一表情,再來看下進(jin)階難度。

這一(yi)關的原視(shi)頻人物說話(hua)(hua)過程中會伴(ban)隨情緒(xu)的轉換,例(li)如下個視(shi)頻中張譯表演時的花絮片段,從(cong)剛開始說話(hua)(hua)到扭頭大笑。

然后我上傳了一張美國著名男演員本·阿弗萊克(Ben Afflec)的劇照,生成視(shi)頻中,大本和張譯(yi)大笑時咧開(kai)的嘴角弧度都完(wan)全(quan)相同(tong)。并且從側臉(lian)轉向正臉(lian)時的動(dong)作也十分(fen)流暢。

二、阿凡達、滅霸夢幻聯動,人人都能做出迪士尼公主表情

X-Portrait 2除(chu)了(le)能(neng)讓一張圖片按你想要的風格(ge)動起來,還(huan)能(neng)把相同表(biao)情(qing)直接搬到各種風格(ge)的人(ren)物(wu)形象上(shang)。

基于此,我直接讓(rang)經典科(ke)幻電影《阿凡(fan)達》中的(de)阿凡(fan)達,與漫威系列中的(de)滅霸來了一場夢幻聯(lian)動。

我(wo)上傳(chuan)了(le)一(yi)段電影(ying)中女主角涅提(ti)妮(ni)與他人產生劇烈爭(zheng)執的(de)(de)視頻(pin),還有一(yi)張(zhang)滅霸(ba)的(de)(de)靜態圖片。視頻(pin)中的(de)(de)涅提(ti)妮(ni)邊倒退邊顯露出悲傷的(de)(de)神(shen)色。

滅霸(ba)也展現出了同樣(yang)的深(shen)情(qing),并且額(e)頭(tou)上的皺紋還會伴隨著情(qing)緒變化逐漸加深(shen)。

動畫電影中迪士尼(ni)(ni)公(gong)主的神態動作已經自成體(ti)系,讓人一看到就身處“迪士尼(ni)(ni)宇宙”。與此(ci)同時,一些互聯網上的博(bo)主紛紛開(kai)啟了(le)模仿迪士尼(ni)(ni)公(gong)主的挑戰,她們(men)的表情(qing)神態惟(wei)(wei)妙惟(wei)(wei)肖,現在(zai)X-Portrait 2可以讓任何人都能快速get這個技能。

這里我選擇(ze)上(shang)(shang)傳了一張(zhang)(zhang)AI生(sheng)成的(de)動漫人物形象(xiang),以(yi)及短視頻平臺中博主(zhu)上(shang)(shang)傳的(de)模仿視頻。可(ke)以(yi)看到,原視頻的(de)博主(zhu)眼神、嘴(zui)部以(yi)及整(zheng)個表情都(dou)很夸張(zhang)(zhang),這個難(nan)度X-Portrait 2的(de)生(sheng)成效果并沒有翻車(che)。

我還(huan)上傳(chuan)了(le)其他博主的模(mo)仿(fang)視頻,生成的效果直(zhi)接讓本來(lai)只是一張靜態(tai)圖片的公主,直(zhi)接身(shen)處童話(hua)世(shi)界了(le),好奇、開心的表情(qing)十分可愛逼真。

現(xian)在(zai)有(you)很(hen)多(duo)動(dong)畫(hua)電(dian)(dian)影(ying)還會(hui)被改編成真(zhen)人(ren)電(dian)(dian)影(ying),但這類(lei)電(dian)(dian)影(ying)在(zai)選擇(ze)演員、劇情(qing)改編、演員表演等方面都會(hui)讓(rang)原先的動(dong)漫讀者忐忑不(bu)安,因(yin)為很(hen)多(duo)劇情(qing)真(zhen)人(ren)演員很(hen)難表演出來,部分表情(qing)、動(dong)作甚至劇情(qing)會(hui)被改編。

現在基(ji)于X-Portrait 2可以直(zhi)接將動(dong)漫人(ren)物(wu)的(de)表情“復(fu)制”下(xia)來(lai),“粘貼”到其他人(ren)物(wu)上。我(wo)上傳(chuan)了一段《美女(nv)與(yu)野獸》中“野獸”的(de)一段視頻,視頻中“野獸”的(de)五官(guan)與(yu)人(ren)類類似,還(huan)伴隨著大吼的(de)動(dong)作。

這段表(biao)演被準確復制到了我用AI生成的(de)圖片上(shang),X-Portrait 2在(zai)表(biao)情識別方面沒(mei)有受到干擾,眼(yan)睛、嘴(zui)巴的(de)動作(zuo)變化絲滑流暢,復刻了“野獸”的(de)憤怒情緒。

可(ke)以(yi)看出,X-Portrait 2在(zai)(zai)表情生成(cheng)方面(mian)的效(xiao)果逼(bi)真程(cheng)度可(ke)以(yi)體現在(zai)(zai),眼部、嘴部的動(dong)(dong)作(zuo)(zuo)以(yi)及表情切換、動(dong)(dong)作(zuo)(zuo)協(xie)同性等諸多方面(mian),能讓靜(jing)態形象的表情生成(cheng)與其(qi)他(ta)動(dong)(dong)作(zuo)(zuo)配合協(xie)同。

三、表情編碼器模型+生成擴散模型,實現表情“復刻”效果躍遷

上述這些(xie)肖像(xiang)生成的驚艷效果均出自X-Portrait 2。

今年(nian)3月,字節跳動的第一(yi)代(dai)肖像(xiang)動畫(hua)(hua)模型(xing)X-Portrait,可以用(yong)于生成富有(you)表現(xian)力和(he)時間連貫(guan)的肖像(xiang)動畫(hua)(hua)。X-Portrait 2就(jiu)是這一(yi)肖像(xiang)動畫(hua)(hua)模型(xing)的迭代(dai)版本,能夠如實(shi)表現(xian)快(kuai)速(su)的頭部動作、細微(wei)的表情(qing)變化(hua)以及(ji)強(qiang)烈的個(ge)人情(qing)感(gan)。

為了(le)讓最后(hou)生成(cheng)視頻(pin)的表情(qing)更加流暢、逼真(zhen),X-Portrait 2結合了(le)表情(qing)編(bian)碼(ma)器模型和生成(cheng)擴散模型,能(neng)夠捕捉到驅動視頻(pin)中演員的細微(wei)表情(qing),甚至于撅嘴、吐舌頭等需要調(diao)動多(duo)個面部器官(guan)的表情(qing)也(ye)能(neng)準確傳達。

這一表情(qing)(qing)編(bian)碼器(qi)模型是基(ji)于大型數(shu)據(ju)集(ji)進行(xing)訓練,隱式(shi)編(bian)碼輸入中的每個微(wei)小表情(qing)(qing),就可以(yi)做到表情(qing)(qing)傳達的準確性。

面對驅動(dong)(dong)視頻,這一編碼(ma)器還可以實(shi)現人物外(wai)觀(guan)和(he)表(biao)情動(dong)(dong)作的(de)強分離(li),能(neng)夠讓其更專(zhuan)注于視頻中與表(biao)情相關的(de)信息,從而(er)實(shi)現表(biao)情動(dong)(dong)作的(de)準確遷移。

通過(guo)為模型設計過(guo)濾層(ceng),編碼(ma)器能有效過(guo)濾運動(dong)表征中(zhong)的ID相關信(xin)號(hao),使得即使ID圖(tu)片與驅動(dong)視頻中(zhong)的形(xing)象和(he)風(feng)格(ge)差異較(jiao)大,模型仍可實現(xian)跨ID、跨風(feng)格(ge)的動(dong)作遷移,涵(han)蓋寫實人像和(he)卡通圖(tu)像。

目前(qian),除(chu)了(le)X-Portrait 2,視(shi)頻(pin)生成創(chuang)企Runyway上(shang)個月也推出了(le)類似的功能Act-One,這一(yi)功能可以讓(rang)用戶自己(ji)錄一(yi)段視(shi)頻(pin),然(ran)后將其轉(zhuan)移到(dao)AI生成的角色上(shang)。

相(xiang)比(bi)之(zhi)下,X-Portrait 2可(ke)(ke)以(yi)更(geng)準(zhun)確地傳遞人(ren)物頭(tou)部(bu)的(de)(de)動作、微(wei)笑的(de)(de)表(biao)(biao)情變(bian)化和個人(ren)情感表(biao)(biao)達(da);Act-One最終生成的(de)(de)視頻也可(ke)(ke)以(yi)傳達(da)表(biao)(biao)情,但在人(ren)物情緒(xu)和快速(su)的(de)(de)頭(tou)部(bu)動作方面可(ke)(ke)能(neng)無法準(zhun)確“復(fu)刻”。

下(xia)圖的對比視(shi)頻(pin)中(zhong)可以看出,原視(shi)頻(pin)中(zhong)人物很悲(bei)傷,且說話中(zhong)頭(tou)部有輕微(wei)轉動(dong),但(dan)基于X-Portrait和Act-One生成的視(shi)頻(pin)都(dou)沒有將(jiang)其體現(xian)出來(lai),X-Portrait視(shi)頻(pin)中(zhong)人物頭(tou)部擺動(dong)幅度復(fu)現(xian)了,但(dan)兩個視(shi)頻(pin)中(zhong)的人物表情(qing)有輕微(wei)笑意,與原視(shi)頻(pin)的情(qing)緒完全不同。

面(mian)部細節還原、頭(tou)部動作(zuo)與姿(zi)態的(de)協調等,都(dou)是做到精準表情生成的(de)關(guan)鍵(jian),這也是目前X-Portrait 2的(de)優勢所(suo)在。

結語:讓視頻生成突破表情細節難題

在視頻生(sheng)成(cheng)(cheng)的(de)眾(zhong)多環節中,表(biao)情(qing)生(sheng)成(cheng)(cheng)是一(yi)個極具挑戰性的(de)部分,因為與人物整體的(de)動作(zuo)生(sheng)成(cheng)(cheng)相比,細致入微的(de)表(biao)情(qing)生(sheng)成(cheng)(cheng)要困難得多,一(yi)個細微的(de)面部肌肉(rou)變化(hua)都可(ke)能傳(chuan)達出截(jie)然(ran)不同的(de)情(qing)緒。

盡管這項技術目前還處于學術研究階段,但字節跳動在這一(yi)方面的積極探索(suo)具有(you)深遠的意(yi)義,通過(guo)不斷地(di)優化(hua)算法和(he)模型結構,X-Portrait 2已經展(zhan)(zhan)現(xian)出(chu)捕捉和(he)再現(xian)人(ren)物表情(qing)微妙變化(hua)的能力。這種進步將進一(yi)步拓(tuo)展(zhan)(zhan)視頻生成的應用邊界。