
如何讓虛擬人物(wu)更(geng)加真實地傳達情感,一(yi)直是AI數(shu)字人領域的(de)研(yan)究重點。傳統的(de)說話(hua)頭部動畫技(ji)術雖然能夠(gou)模擬人物(wu)的(de)嘴型和(he)基本表情,但在精細(xi)控制和(he)情感表達上(shang)仍有局(ju)限。
為此,上海交通大學聯合網易伏羲提出用于對話人臉生成的高效解耦框架EDTalk,現已開源。相關的論文成果收錄于ECCV 2024并獲得Oral。其中,上海(hai)交通大學計(ji)算(suan)機系在(zai)讀(du)博士(shi)譚(tan)帥為論文一作。
EDTalk能夠實現對多種面(mian)(mian)部(bu)(bu)動(dong)作(zuo)(zuo)的(de)(de)分(fen)(fen)離(li)控(kong)制(zhi),并(bing)適應不同(tong)(tong)的(de)(de)輸(shu)入模式(shi),提(ti)高對話(hua)人臉生(sheng)成的(de)(de)應用性(xing)和娛樂性(xing)。它能確保面(mian)(mian)部(bu)(bu)特征的(de)(de)解耦(ou)空間(jian)獨立(li)操(cao)作(zuo)(zuo),互不干擾(rao);并(bing)保持(chi)與不同(tong)(tong)模態輸(shu)入共享。EDTalk可(ke)以根據視頻或音(yin)頻輸(shu)入,對嘴形、頭部(bu)(bu)姿(zi)勢和情感表達進行單(dan)獨操(cao)作(zuo)(zuo)。具體來說,該框架采(cai)用三個輕量級模塊將面(mian)(mian)部(bu)(bu)動(dong)態分(fen)(fen)解為(wei)三個不同(tong)(tong)的(de)(de)潛在(zai)空間(jian),分(fen)(fen)別代表嘴型、姿(zi)勢和表情。每(mei)個空間(jian)都(dou)有一(yi)組可(ke)學(xue)習的(de)(de)基,這些基的(de)(de)線性(xing)組合定(ding)義了(le)特定(ding)的(de)(de)動(dong)作(zuo)(zuo)。
為(wei)了確保獨立(li)性并加快(kuai)訓練速,該(gai)團隊強制(zhi)執(zhi)行了基數之(zhi)間的(de)(de)(de)正交性,并設計了一種高(gao)效的(de)(de)(de)訓練策略,在(zai)不依賴外部知識(shi)的(de)(de)(de)情況下給(gei)每個空(kong)間賦予(yu)其特(te)定的(de)(de)(de)運動方向。隨(sui)后將學習到的(de)(de)(de)基存儲在(zai)相應的(de)(de)(de)庫中(zhong),從而(er)實現與音(yin)頻輸入共享視覺先驗。此(ci)外,考慮(lv)到每個空(kong)間的(de)(de)(de)特(te)性,該(gai)團隊提出了音(yin)頻到動作模(mo)塊,用(yong)于音(yin)頻驅(qu)動的(de)(de)(de)對話(hua)人臉合(he)成。
12月30日晚7點(dian),智猩(xing)猩(xing)邀請到論(lun)文一(yi)作、上(shang)海交通大學計(ji)算機系在讀(du)博士譚帥參與「智猩(xing)猩(xing)AI新(xin)青年講座」第262講,主講《高效解耦的可控對話人臉(lian)生(sheng)成》。
講者
譚帥,上海交通大(da)學計算機系(xi)在讀(du)博士(shi)
主要研(yan)究方(fang)向(xiang)是數(shu)字人驅動/Talking head generation/face animation,共發(fa)(fa)表(biao)論文11篇(pian),其(qi)中以第一(yi)作者身(shen)份發(fa)(fa)表(biao)CVPR/ICCV/ECCV/AAAI/MICCAI等會議(yi)共6篇(pian)。
第 262 講
主 題
《高效解耦(ou)的可控對(dui)話(hua)人臉生成》
提 綱
1、對話人臉生成技術當前存在的不足
2、高效解耦用于可控對話人臉生成的框架EDTalk
3、分解嘴型-姿勢和表情的解耦策略
4、用于生成音頻驅動對話人臉的音頻動作模塊
5、其他相關工作(zuo)介紹
直 播 信 息
直(zhi)播時間(jian):12月30日19:00
成果
論文成果1
標題:
《EDTalk: Efficient Disentanglement for Emotional Talking Head Synthesis》
鏈接:
//arxiv.org/abs/2403.06363
項目地址:
//tanshuai0219.github.io/EDTalk/
收錄情況:ECCV 2024 Oral
論文成果2
標題:
《EMMN: Emotional Motion Memory Network for Audio-driven Emotional Talking Face Generation》
鏈接:
//ieeexplore.ieee.org/document/10378627
收錄情(qing)況(kuang):ICCV 2023 (CCF-A)
論文成果3
標題:
《Say anything with any style》
鏈接:
//arxiv.org/abs/2403.06363
收錄(lu)情況(kuang):AAAI 2024 (CCF-A)
論文成果4
標題:
《Style2talker: High-resolution talking head generation with emotion style and art style》
鏈接:
//arxiv.org/abs/2403.06365
收錄情(qing)況:AAAI 2024 (CCF-A)
論文成果5
標題:
《FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization》
鏈接:
//arxiv.org/abs/2403.06363
收錄情況(kuang):AAAI 2024 (CCF-A)
入群申請
有講座直播觀看需求的朋友,可以添加小助手“米婭”進行報名。已添加過“米婭”的老朋友,可以給“米婭”私信,發送“ANY262”進行報(bao)名。對于通過(guo)報(bao)名的朋(peng)友,之后將邀請入群進行觀(guan)看和(he)交流。