虛(xu)(xu)擬(ni)數字人(ren)(ren),是(shi)存在于數字世界的(de)(de)“人(ren)(ren)”,通(tong)過動(dong)作捕(bu)捉、三維(wei)建模、語音合(he)成(cheng)等(deng)技(ji)術高度還原真實人(ren)(ren)類,再借助AR/MR/VR等(deng)終(zhong)端(duan)呈(cheng)現(xian)出來的(de)(de)立體“人(ren)(ren)”。在人(ren)(ren)工智(zhi)能、虛(xu)(xu)擬(ni)現(xian)實等(deng)新技(ji)術浪潮的(de)(de)帶動(dong)下,虛(xu)(xu)擬(ni)數字人(ren)(ren)制作過程(cheng)得到(dao)有效簡(jian)化、各(ge)方面性(xing)能獲(huo)得飛(fei)躍式提(ti)升(sheng),開始(shi)從外觀的(de)(de)數字化逐(zhu)漸深入到(dao)行為的(de)(de)交互化、思(si)想的(de)(de)智(zhi)能化。以(yi)虛(xu)(xu)擬(ni)主播、虛(xu)(xu)擬(ni)員(yuan)工等(deng)為代表(biao)的(de)(de)數字人(ren)(ren)成(cheng)功進(jin)入大眾視野,并以(yi)多元(yuan)的(de)(de)姿態在影視、游戲(xi)、傳媒、文旅(lv)、金融等(deng)眾多領域大放異彩。

12月3日,首(shou)屆數(shu)字(zi)(zi)(zi)(zi)人(ren)(ren)(ren)開發(fa)者大會(hui)(hui)在北京召開。首(shou)屆數(shu)字(zi)(zi)(zi)(zi)人(ren)(ren)(ren)行業盛(sheng)會(hui)(hui)由(you)國家互聯(lian)網信(xin)息(xi)(xi)辦(ban)公室(shi)信(xin)息(xi)(xi)化發(fa)展(zhan)局和(he)中關(guan)村科技園區管(guan)理委員會(hui)(hui)作(zuo)為指導單位(wei),中國信(xin)息(xi)(xi)通(tong)信(xin)院、浦(pu)發(fa)銀行以及中關(guan)村數(shu)智(zhi)(zhi)人(ren)(ren)(ren)工(gong)智(zhi)(zhi)能產業聯(lian)盟(meng)(meng)主辦(ban),凌云光技術協辦(ban)。會(hui)(hui)上,中國人(ren)(ren)(ren)工(gong)智(zhi)(zhi)能產業發(fa)展(zhan)聯(lian)盟(meng)(meng)(簡稱(cheng)“AIIA 聯(lian)盟(meng)(meng)”)和(he)中關(guan)村數(shu)智(zhi)(zhi)人(ren)(ren)(ren)工(gong)智(zhi)(zhi)能產業聯(lian)盟(meng)(meng)(簡稱(cheng)“ZAI 聯(lian)盟(meng)(meng)”)數(shu)字(zi)(zi)(zi)(zi)人(ren)(ren)(ren)工(gong)作(zuo)委員會(hui)(hui)首(shou)次(ci)發(fa)布了(le)《2020 年(nian)虛(xu)(xu)擬(ni)(ni)數(shu)字(zi)(zi)(zi)(zi)人(ren)(ren)(ren)發(fa)展(zhan)白(bai)皮(pi)書(shu)(shu)》,白(bai)皮(pi)書(shu)(shu)回顧(gu)了(le)虛(xu)(xu)擬(ni)(ni)數(shu)字(zi)(zi)(zi)(zi)人(ren)(ren)(ren)發(fa)展(zhan)歷程,重點分析了(le)虛(xu)(xu)擬(ni)(ni)數(shu)字(zi)(zi)(zi)(zi)人(ren)(ren)(ren)關(guan)鍵技術和(he)產業發(fa)展(zhan)現狀,對虛(xu)(xu)擬(ni)(ni)數(shu)字(zi)(zi)(zi)(zi)人(ren)(ren)(ren)的(de)未來發(fa)展(zhan)趨勢進行了(le)展(zhan)望,剖析了(le)數(shu)字(zi)(zi)(zi)(zi)人(ren)(ren)(ren)發(fa)展(zhan)中的(de)制約因(yin)素(su)。

本期(qi)內參來(lai)源:中(zhong)國人工(gong)智能產業發(fa)展聯盟(meng)? 中(zhong)關村數智人工(gong)智能產業聯盟(meng)

原標題:

《2020 年虛擬數字人發展(zhan)白皮書》

作者:顏媚 等

一、什么是虛擬數字人

1、虛擬數字人研究范疇

“虛(xu)擬數字(zi)人”一詞最早(zao)源于 1989 年美國(guo)國(guo)立(li)醫學圖書館發起的“可視人計(ji)劃”(Visible Human Project, YHP)。2001年, 國(guo)內以(yi)“中國(guo)數字(zi)化虛(xu)擬人體的科(ke)技(ji)問題(ti)”為(wei)主題(ti)的香山科(ke)學會議(yi)第 174 次(ci)學術討(tao)論會提出了“數字(zi)化虛(xu)擬人體”的概念。

這些“虛擬數字(zi)人(ren)”主要(yao)是(shi)指人(ren)體(ti)結(jie)構的(de)(de)可視(shi)化,以三維形式顯(xian)示人(ren)體(ti)解剖(pou)結(jie)構的(de)(de)大小、形狀、位置及器官間的(de)(de)相互空間關系,即利用(yong)人(ren)體(ti)信息,實(shi)現(xian)人(ren)體(ti)解剖(pou)結(jie)構的(de)(de)數字(zi)化。主要(yao)應(ying)用(yong)于醫療領(ling)域(yu)的(de)(de)人(ren)體(ti)解剖(pou)教(jiao)學(xue)、臨床診療等。

與(yu)上述醫療領域(yu)的數字化(hua)人(ren)(ren)體不同,本篇中(zhong)所分析(xi)的虛(xu)擬(ni)(ni)數字人(ren)(ren)(以下(xia)(xia)簡稱“數字人(ren)(ren)”)是指(zhi)具(ju)有(you)數字化(hua)外形的虛(xu)擬(ni)(ni)人(ren)(ren)物。與(yu)具(ju)備實體的機器(qi)人(ren)(ren)不同,虛(xu)擬(ni)(ni)數字人(ren)(ren)依賴顯示設備存在。虛(xu)擬(ni)(ni)數字人(ren)(ren)宜(yi)具(ju)備以下(xia)(xia)三方面特征:

一是(shi)擁有人(ren)(ren)的(de)外觀,具(ju)有特(te)定的(de)相貌、性別和(he)性格等人(ren)(ren)物特(te)征;

二是擁有人(ren)的(de)行為,具(ju)有用語言、面(mian)部表情和(he)肢體動作表達(da)的(de)能力;

三是擁有人(ren)的思(si)想(xiang),具有識別外界環境、并能與人(ren)交流(liu)互動的能力。

2、虛擬數字人發展歷程

虛(xu)擬(ni)數字人的(de)(de)發展(zhan)與其制(zhi)(zhi)作技術的(de)(de)進步(bu)密不(bu)可分,從最早(zao)的(de)(de)手工(gong)(gong)繪制(zhi)(zhi)到現在的(de)(de) CG(Computer Graphics,電(dian)腦繪圖(tu))、人工(gong)(gong)智能合(he)成(cheng),虛(xu)擬(ni)數字人大致經歷了萌(meng)芽(ya)、探(tan)索、初級和(he)成(cheng)長四(si)個(ge)階段(duan),詳見下圖(tu)。

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲虛擬(ni)數字人發(fa)展歷程

20 世紀 80 年代,人們開始嘗試將虛擬人物引入到現實世界中,虛擬數字人步入萌芽階段。該時(shi)期虛(xu)擬數字人的(de)(de)制(zhi)作(zuo)技(ji)術以手(shou)工(gong)繪(hui)制(zhi)為(wei)主(zhu),應用(yong)極為(wei)有限。1982 年(nian),日本(ben)動畫《超時(shi)空要塞》播(bo)出后,制(zhi)作(zuo)方(fang)將(jiang)女主(zhu)角林明(ming)美(mei)包裝成(cheng)(cheng)演唱動畫插(cha)曲的(de)(de)歌手(shou),并(bing)制(zhi)作(zuo)了音樂(le)專輯(ji),該專輯(ji)成(cheng)(cheng)功打入當時(shi)日本(ben)知名的(de)(de)音樂(le)排行榜 Oricon,林明(ming)美(mei)也(ye)成(cheng)(cheng)為(wei)了世界上第一位虛(xu)擬歌姬。

1984 年,英(ying)(ying)國人(ren)(ren) George Stone 創作出(chu)一個名為(wei)Max Headroom 的(de)虛擬人(ren)(ren)物,MAX 擁(yong)有人(ren)(ren)類的(de)樣貌和表情動作,身穿(chuan)西裝,佩戴(dai)墨鏡,曾(ceng)參演(yan)了一部電影(ying),拍攝了數支廣告,一度成為(wei)英(ying)(ying)國家(jia)喻戶(hu)曉(xiao)的(de)虛擬演(yan)員。由于技術的(de)限(xian)制,其虛擬形象是由真人(ren)(ren)演(yan)員通過特效化妝(zhuang)和手繪實(shi)現。

21 世紀初,傳統手繪逐漸被 CG、動作捕捉等技術取代,虛擬數字人步入探索階段。該階段的(de)虛擬數(shu)字(zi)人(ren)開始達(da)到實(shi)用水平,但(dan)造(zao)價不菲(fei),主要出現在影視娛樂行業,如數(shu)字(zi)替身、虛擬偶像等。電(dian)影制作(zuo)中的(de)數(shu)字(zi)替身一般利用動作(zuo)捕捉(zhuo)(zhuo)技術,真人(ren)演員(yuan)穿著動作(zuo)捕捉(zhuo)(zhuo)服裝,臉上點上表(biao)情捕捉(zhuo)(zhuo)點,通過(guo)攝像機、動作(zuo)捕捉(zhuo)(zhuo)設(she)備將(jiang)真人(ren)演員(yuan)的(de)動作(zuo)、表(biao)情采集處理,經計算機處理后賦予給虛擬角(jiao)色。

2001 年(nian),《指環(huan)王(wang)》中的(de)角色咕嚕就是由 CG 技術(shu)(shu)和動作捕捉技術(shu)(shu)產(chan)生(sheng),這些技術(shu)(shu)后(hou)續還在(zai)《加勒比海盜》、《猩球(qiu)崛起》等電影制(zhi)作中使用。2007 年(nian),日本制(zhi)作了第一個被廣泛認(ren)可(ke)的(de)虛擬數字(zi)人“初(chu)音未來”,初(chu)音未來是二次元風格的(de)少女偶像,早期的(de)人物(wu)形象 主(zhu) 要 利 用 CG 技 術(shu)(shu)合(he)成 , 人物(wu)聲音采用雅馬哈的(de)VOCALOID系列語音合(he)成,呈現形式還相對粗(cu)糙(cao)。

近五年,得益于深度學習算法的突破,數字人的制作過程得到有效簡化,虛擬數字人開始步入正軌,進入初級階段。該時期人工智(zhi)能(neng)成(cheng)為虛擬數(shu)字人不可(ke)分割的工具,智(zhi)能(neng)驅動(dong)的數(shu)字人開(kai)始嶄露頭角。

2018 年,新華社與搜狗聯合(he)發布的“AI合(he)成(cheng)主播”,可在用戶輸入新聞文本后,在屏幕展(zhan)現虛(xu)擬數(shu)字(zi)人形象并進(jin)行新聞播報,且唇(chun)形動作(zuo)能(neng)與播報聲音(yin)實時同步。

2019 年,浦發(fa)銀行和(he)百(bai)度共同(tong)發(fa)布的(de)(de)數字員工“小浦”,也(ye)是利用自(zi)然語言處理、語音識(shi)別、計算(suan)機視覺等人工智能技(ji)術(shu)制(zhi)作(zuo)的(de)(de)虛擬數字人,可通過移動設備為用戶提供(gong)“面對面”的(de)(de)銀行業務服務。

當前,虛擬數字人正朝著智能化、便捷化、精細化、多樣化發展,步入成長期。2019 年,美國(guo)影(ying)視(shi)特效公司(si)數字(zi)(zi)王國(guo)軟件研發部負責人(ren)(ren) Doug Roble 在(zai)(zai) TED 演(yan)講時(shi)展(zhan)示了自己的(de)(de)(de)虛擬(ni)數字(zi)(zi)人(ren)(ren)“DigiDoug”,可在(zai)(zai)照(zhao)片寫實級逼真(zhen)程度(du)的(de)(de)(de)前提下,進行實時(shi)的(de)(de)(de)表(biao)(biao)情動作捕捉及展(zhan)現。今(jin)年,三星旗下的(de)(de)(de)STAR Labs在(zai)(zai)CES國(guo)際消(xiao)費電子展(zhan)上展(zhan)出了其虛擬(ni)數字(zi)(zi)人(ren)(ren)項目 NEON,NEON 是一種(zhong)由人(ren)(ren)工智能所驅動的(de)(de)(de)虛擬(ni)人(ren)(ren)物,擁有近似真(zhen)人(ren)(ren)的(de)(de)(de)形象(xiang)及逼真(zhen)的(de)(de)(de)表(biao)(biao)情動作,具備表(biao)(biao)達情感和(he)溝通交流的(de)(de)(de)能力。

3、當前虛擬數字人通用系統框架及運作流程

當前(qian)(qian)虛擬(ni)數(shu)(shu)字(zi)(zi)人作(zuo)為新一(yi)代人機交(jiao)互平(ping)臺,仍處于發展期,還未有統一(yi)的通用系統框架(jia)(jia)。這份(fen)白皮書(shu)根據(ju)虛擬(ni)數(shu)(shu)字(zi)(zi)人的制作(zuo)技術以及目前(qian)(qian)市場(chang)上提(ti)供的數(shu)(shu)字(zi)(zi)人服(fu)務和產品結(jie)(jie)構,總結(jie)(jie)出(chu)虛擬(ni)數(shu)(shu)字(zi)(zi)人通用系統框架(jia)(jia),如下圖所(suo)示(shi)(shi)。虛擬(ni)數(shu)(shu)字(zi)(zi)人系統一(yi)般情況(kuang)下由(you)人物形象、語音生(sheng)成、動(dong)畫(hua)生(sheng)成、音視頻合成顯(xian)示(shi)(shi)、交(jiao)互等(deng) 5 個(ge)模塊(kuai)構成。

人(ren)(ren)物形象根據人(ren)(ren)物圖形資源的維度,可(ke)(ke)分為 2D 和(he) 3D 兩大(da)類,從外形上又(you)可(ke)(ke)分為卡通(tong)、擬人(ren)(ren)、寫實、超寫實等風(feng)格; 語音生成(cheng)模(mo)(mo)塊(kuai)和(he) 動(dong)畫生成(cheng)模(mo)(mo)塊(kuai)可(ke)(ke)分別(bie)基于(yu)文(wen)本生成(cheng)對應的人(ren)(ren)物語音以及(ji)與之相匹配的人(ren)(ren)物動(dong)畫; 音視(shi)(shi)頻合成(cheng)顯示(shi)模(mo)(mo)塊(kuai)將(jiang)語音和(he)動(dong)畫合成(cheng)視(shi)(shi)頻,再顯示(shi)給用(yong)戶(hu)。 交(jiao)互(hu)模(mo)(mo)塊(kuai)使數字人(ren)(ren)具備(bei)交(jiao)互(hu)功能,即通(tong)過語音語義識別(bie)等智能技術識別(bie)用(yong)戶(hu)的意圖,并根據用(yong)戶(hu)當(dang)前意圖決定數字人(ren)(ren)后續的語音和(he)動(dong)作,驅動(dong)人(ren)(ren)物開(kai)啟下一輪(lun)交(jiao)互(hu)。

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲虛(xu)擬數字人通用(yong)系統(tong)框架

交互(hu)模塊為擴展(zhan)項(xiang),根(gen)據(ju)其有(you)無,可將數(shu)字(zi)人分為交互(hu)型(xing)(xing)數(shu)字(zi)人和非交互(hu)型(xing)(xing)數(shu)字(zi)人。非交互(hu)型(xing)(xing)數(shu)字(zi)人體統(tong)的(de)運作流程如下圖非交互(hu)類虛擬數(shu)字(zi)人系統(tong)運作流程所示。系統(tong)依(yi)據(ju)目標(biao)文本生成(cheng)(cheng)對應的(de)人物語音及動畫,并合成(cheng)(cheng)音視頻呈現給用戶(hu)。

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲非交互類虛(xu)擬數字人系統運作流程

交互(hu)型數字人(ren)(ren)根據驅動方式的不同可分為智能驅動型和真人(ren)(ren)驅動型。 智能驅動型數字人(ren)(ren)可通(tong)過智能系統自動讀(du)取并解析識別外界輸入信息,根據解析結果決策數字人(ren)(ren)后續的輸出文本,然后驅動人(ren)(ren)物模型生成相應的語音與動作來使數字人(ren)(ren)跟用(yong)戶(hu)互(hu)動。

該人物(wu)模型(xing)是(shi)預先通過(guo)(guo)AI技術訓(xun)練得(de)到的(de),可(ke)通過(guo)(guo)文本(ben)驅動(dong)生成語音和對應動(dong)畫,業內將此模型(xing)稱為TTSA(Text To Speech & Animation)人物(wu)模型(xing)。 真(zhen)(zhen)人驅動(dong)型(xing)數(shu)(shu)字人則是(shi)通過(guo)(guo)真(zhen)(zhen)人來驅動(dong)數(shu)(shu)字人,主(zhu)要原理(li)是(shi)真(zhen)(zhen)人根(gen)據視頻(pin)監控系(xi)統傳來的(de)用(yong)戶視頻(pin),與用(yong)戶實時語音,同時通過(guo)(guo)動(dong)作(zuo)捕捉采集系(xi)統將真(zhen)(zhen)人的(de)表情(qing)、動(dong)作(zuo)呈(cheng)現在虛擬數(shu)(shu)字人形象上(shang),從而與用(yong)戶進行交互。

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲智能驅動型虛(xu)擬數字人運作流程

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲真人(ren)驅動(dong)型虛(xu)擬數字人(ren)運作(zuo)流程

二、虛擬數字人關鍵技術趨勢

1、虛擬數字人技術架構

當前(qian),虛(xu)擬(ni)數字(zi)人的(de)制作涉及眾(zhong)多技術(shu)領域,且制作方式尚未完全定型,通過對(dui)現有虛(xu)擬(ni)數字(zi)人制作中涉及的(de)常用(yong)(yong)技術(shu)進行調(diao)研,本白皮書在虛(xu)擬(ni)數字(zi)人通用(yong)(yong)系統框架(jia)的(de)基(ji)礎上提煉出五(wu)橫兩縱的(de)技術(shu)架(jia)構(gou),如下圖所示(shi)。

“五(wu)橫”是指用于數(shu)字(zi)人(ren)(ren)(ren)(ren)(ren)制作、交(jiao)互的五(wu)大技(ji)術模(mo)塊,即人(ren)(ren)(ren)(ren)(ren)物生成(cheng)、人(ren)(ren)(ren)(ren)(ren)物表(biao)達、合成(cheng)顯(xian)示、識別感知、分(fen)析決策等模(mo)塊。 其中,人(ren)(ren)(ren)(ren)(ren)物表(biao)達包括語音生成(cheng)和動畫生成(cheng)。動畫生成(cheng)則包含驅動(動作生成(cheng))和渲染兩大部分(fen)。“兩縱”是指 2D、3D 數(shu)字(zi)人(ren)(ren)(ren)(ren)(ren),3D 數(shu)字(zi)人(ren)(ren)(ren)(ren)(ren)需要(yao)額(e)外(wai)使用三維建模(mo)技(ji)術生成(cheng)數(shu)字(zi)形(xing)象,信(xin)息維度增加(jia),所需的計算量更大。

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲虛擬數(shu)字人技(ji)術架構

這份(fen)白皮書重(zhong)點關注虛擬數字人制作過(guo)程涉及的建模、驅動、渲染三大關鍵技術(shu)。

2、建模 : 靜態掃描建模仍為主流

相機陣(zhen)列掃(sao)(sao)描(miao)(miao)重(zhong)建(jian)替(ti)代結構光掃(sao)(sao)描(miao)(miao)重(zhong)建(jian)成為(wei)人(ren)物建(jian)模(mo)(mo)主流方式。早期的(de)靜(jing)態建(jian)模(mo)(mo)技術(shu)以結構光掃(sao)(sao)描(miao)(miao)重(zhong)建(jian)為(wei)主。結構光掃(sao)(sao)描(miao)(miao)重(zhong)建(jian)可以實(shi)現 0.1 毫米級的(de)掃(sao)(sao)描(miao)(miao)重(zhong)建(jian)精度,但其掃(sao)(sao)描(miao)(miao)時間長,一般在(zai) 1 秒以上,甚至達到分鐘級,對于人(ren)體這類(lei)運動目標(biao)在(zai)友好(hao)度和適應(ying)性方面(mian)都差(cha)強人(ren)意,因此被更多的(de)應(ying)用于工業(ye)生產、檢測領域(yu)。

近年來,拍照式(shi)相機陣列掃描(miao)重建(jian)得到飛速(su)發展,目前可(ke)實現毫秒級高速(su)拍照掃描(miao)(高性能的(de)相機陣列精度可(ke)達到亞毫米級),滿足數字人(ren)掃描(miao)重建(jian)需求,成(cheng)為(wei)當前人(ren)物建(jian)模主流方(fang)式(shi)。國際(ji)上 IR、Ten24 等公(gong)司已(yi)(yi)經將靜態重建(jian)技術完(wan)全商業化,服務于(yu)好(hao)萊塢大型影視數字人(ren)制(zhi)(zhi)作(zuo)(zuo),國內凌云光等公(gong)司制(zhi)(zhi)作(zuo)(zuo)的(de)拍照式(shi)人(ren)體掃描(miao)系統也已(yi)(yi)經在電影、游(you)戲、虛(xu)擬主播項目中(zhong)成(cheng)功應用。

相比靜態(tai)重(zhong)(zhong)(zhong)建(jian)技術,動態(tai)光場(chang)重(zhong)(zhong)(zhong)建(jian)不僅可(ke)以重(zhong)(zhong)(zhong)建(jian)人(ren)(ren)物的(de)幾何模(mo)型,還可(ke)一次性獲取動態(tai)的(de)人(ren)(ren)物模(mo)型數據,并高品(pin)質重(zhong)(zhong)(zhong)現不同(tong)視角下觀看人(ren)(ren)體(ti)的(de)光影效果(guo),成為(wei)數字人(ren)(ren)建(jian)模(mo)重(zhong)(zhong)(zhong)點發展(zhan)方向。動態(tai)光場(chang)重(zhong)(zhong)(zhong)建(jian)是目前世(shi)界上最新(xin)的(de)深度掃(sao)描技術,此技術可(ke)忽略材質,直接采(cai)集(ji)三維世(shi)界的(de)光線,然(ran)后實時渲染出真實的(de)動態(tai)表演者模(mo)型,它主要(yao)包(bao)含人(ren)(ren)體(ti)動態(tai)三維重(zhong)(zhong)(zhong)建(jian)和光場(chang)成像兩部分。

人體(ti)動(dong)態三(san)維(wei)重建(jian)一直是(shi)計(ji)(ji)算機(ji)視覺、計(ji)(ji)算機(ji)圖(tu)形學等領域(yu)研(yan)究的(de)(de)重點,主要采用攝像(xiang)機(ji)陣列采集動(dong)態數據,可(ke)重建(jian)高低頻(pin)幾何、紋理、材質(zhi)、三(san)維(wei)運動(dong)信息(xi)。光場成像(xiang)是(shi)計(ji)(ji)算攝像(xiang)學領域(yu)一項新興(xing)技術,它(ta)不(bu)同于現有僅(jin)展示物體(ti)表(biao)面光照情況(kuang)的(de)(de) 2D 光線地圖(tu),光場可(ke)以存儲空間中(zhong)所有光線的(de)(de)方向(xiang)和角度,從而產出場景中(zhong)所有表(biao)面的(de)(de)反射和陰影,這為人體(ti)三(san)維(wei)重建(jian)提(ti)供了更加(jia)豐(feng)富的(de)(de)圖(tu)像(xiang)信息(xi)。

近年來 Mirosoft、Google、Intel、Facebook 等公司都(dou)在積極展開(kai)(kai)相(xiang)關研(yan)究(jiu),其(qi)中(zhong) Microsoft 的(de) 108 攝像機 MRstudio已(yi)經在全球各(ge)大(da)洲均有建設;Google 的(de) Relightable 系(xi)統將結構光、動(dong)(dong)態建模(mo)、重光照技(ji)術集成(cheng)到一起,在一套系(xi)統中(zhong)包含模(mo)型重建、動(dong)(dong)作重建、光照重建的(de)全部功能;國內清華(hua)(hua)大(da)學、商湯科技(ji)、華(hua)(hua)為等也展開(kai)(kai)了相(xiang)關研(yan)究(jiu),并(bing)取(qu)得國際水平的(de)同步進(jin)展。

3、驅動 : 智能合成 、 動作捕捉遷移

2D、3D 數(shu)字人均已實現(xian)嘴(zui)型(xing)(xing)動(dong)(dong)作的(de)智能(neng)合成(cheng),其他身體(ti)部(bu)位的(de)動(dong)(dong)作目前還只(zhi)支持錄播。2D、3D 數(shu)字人嘴(zui)型(xing)(xing)動(dong)(dong)作智能(neng)合成(cheng)的(de)底層邏輯是(shi)類似的(de),都是(shi)建立輸(shu)入(ru)文(wen)本(ben)到輸(shu)出音頻與(yu)輸(shu)出視(shi)(shi)覺信息的(de)關聯映(ying)射(she),主要是(shi)對已采集到的(de)文(wen)本(ben)到語(yu)音和嘴(zui)型(xing)(xing)視(shi)(shi)頻(2D)/嘴(zui)型(xing)(xing)動(dong)(dong)畫(3D)的(de)數(shu)據(ju)進行模型(xing)(xing)訓練,得到一個輸(shu)入(ru)任意文(wen)本(ben)都可以驅(qu)動(dong)(dong)嘴(zui)型(xing)(xing)的(de)模型(xing)(xing),再通過(guo)模型(xing)(xing)智能(neng)合成(cheng)。

然而,2D 視頻和(he) 3D 嘴(zui)型動(dong)畫(hua)底層的數學表達(da)不一(yi)樣,2D 視頻是像素(su)表達(da);3D 嘴(zui)型動(dong)畫(hua)是 3D 模型對應(ying)的 BlendShape 的向量表達(da)。除了嘴(zui)型之(zhi)外的動(dong)作(zuo),包含眨眼、微點頭、挑(tiao)眉等動(dong)畫(hua)目前都是通(tong)過采用一(yi)種隨機(ji)策略(lve)(lve)或(huo)某個(ge)腳本策略(lve)(lve)將預錄好的視頻/3D 動(dong)作(zuo)進(jin)行循環播放來實現(xian)。例如 3D 肢(zhi)體動(dong)作(zuo)目前就是通(tong)過在某個(ge)位(wei)置觸發這個(ge)預錄好的肢(zhi)體動(dong)作(zuo)數據得到。

觸發(fa)策略(lve)是通過人手(shou)動(dong)配(pei)置得到的(de),未來希望通過智能分析文本,學習人類的(de)表(biao)達,實現(xian)自動(dong)配(pei)置。截(jie)至目(mu)前,國(guo)內外科技企業在(zai)數字(zi)人動(dong)作智能合成方面(mian)都有一定進展,國(guo)際上如 Reallusion 公司研究的(de)利(li)用(yong)語音生成面(mian)部(bu)表(biao)情的(de) Craytalk 技術已在(zai)動(dong)畫制(zhi)作中(zhong)被(bei)成功(gong)商(shang)用(yong),國(guo)內搜狗(gou)、相芯(xin)科技等公司也有部(bu)分項(xiang)目(mu)落地應用(yong)。

通(tong)過將捕(bu)(bu)(bu)(bu)(bu)捉(zhuo)(zhuo)采集(ji)的(de)動(dong)作(zuo)遷移至數(shu)字人是目前(qian)3D數(shu)字人動(dong)作(zuo)生成的(de)主(zhu)要(yao)方式(shi),核心(xin)技(ji)術(shu)是動(dong)作(zuo)捕(bu)(bu)(bu)(bu)(bu)捉(zhuo)(zhuo)。動(dong)作(zuo)捕(bu)(bu)(bu)(bu)(bu)捉(zhuo)(zhuo)技(ji)術(shu)按照實現方式(shi)的(de)不同,可分為光(guang)(guang)學(xue)式(shi)、慣性(xing)式(shi)、電磁(ci)式(shi)及基于(yu)計算(suan)機視(shi)(shi)覺的(de)動(dong)作(zuo)捕(bu)(bu)(bu)(bu)(bu)捉(zhuo)(zhuo)等。現階段,光(guang)(guang)學(xue)式(shi)和慣性(xing)式(shi)動(dong)作(zuo)捕(bu)(bu)(bu)(bu)(bu)捉(zhuo)(zhuo)占據(ju)主(zhu)導地位,基于(yu)計算(suan)機視(shi)(shi)覺的(de)動(dong)作(zuo)捕(bu)(bu)(bu)(bu)(bu)捉(zhuo)(zhuo)成為聚焦熱(re)點。 光(guang)(guang)學(xue)動(dong)作(zuo)捕(bu)(bu)(bu)(bu)(bu)捉(zhuo)(zhuo)通(tong)過對目標(biao)上特定光(guang)(guang)點的(de)監視(shi)(shi)和跟蹤來完成運動(dong)捕(bu)(bu)(bu)(bu)(bu)捉(zhuo)(zhuo)的(de)任(ren)務。

最常用的(de)(de)是基(ji)于 Marker(馬(ma)(ma)克(ke)點(dian))的(de)(de)光(guang)學(xue)動(dong)作捕(bu)捉(zhuo),即(ji)在演(yan)員(yuan)身上粘(zhan)貼(tie)能夠反(fan)射紅外光(guang)的(de)(de)馬(ma)(ma)克(ke)點(dian),通(tong)過攝像頭對(dui)(dui)反(fan)光(guang)馬(ma)(ma)克(ke)點(dian)的(de)(de)追(zhui)蹤(zong),來對(dui)(dui)演(yan)員(yuan)的(de)(de)動(dong)作進行捕(bu)捉(zhuo)。這種方式對(dui)(dui)動(dong)作的(de)(de)捕(bu)捉(zhuo)精度高(gao),但對(dui)(dui)環境要求也高(gao),并且(qie)造價高(gao)昂(ang)。光(guang)學(xue)式解(jie)決方案比較出(chu)名的(de)(de)企業(ye)有英國的(de)(de)Vicon,美國的(de)(de) OptiTrack 和(he)魔神(MotionAnalysis),國內的(de)(de) Nokov、uSens、青瞳視覺等。

慣性(xing)動作(zuo)捕(bu)捉(zhuo)主要是(shi)基于(yu)慣性(xing)測(ce)量(liang)單元(Inertial Measurement Unit,IMU)來(lai)完(wan)成(cheng)對人體(ti)動作(zuo)的(de)捕(bu)捉(zhuo),即把(ba)集成(cheng)了(le)加速度計(ji)、陀螺儀和(he)磁力計(ji)的(de)IMU 綁(bang)在人體(ti)的(de)特(te)定骨骼節點上(shang),通過算法對測(ce)量(liang)數值進行計(ji)算,從而完(wan)成(cheng)動作(zuo)捕(bu)捉(zhuo)。這種慣性(xing)動作(zuo)捕(bu)捉(zhuo)方案價(jia)格相對低廉,但精(jing)度較低,會隨(sui)著連(lian)續使(shi)用時間的(de)增加產生累(lei)積誤差,發生位置(zhi)漂移。

慣性式(shi)動捕方案的代(dai)表性企業有荷蘭的 Xsens,以及國內(nei)的諾亦(yi)騰(teng)(Noitom)、幻境、國承(cheng)萬通等(deng)。 基于計算機視覺(jue)的動作捕捉主要是(shi)通過采集及計算深度信息(xi)來完成對動作的捕捉,是(shi)近些(xie)年(nian)才興起(qi)的技術。這(zhe)種視覺(jue)動捕方式(shi)因(yin)其簡單、易用(yong)(yong)、低價,已成為目前使用(yong)(yong)的頻率較高的動作捕捉方案,代(dai)表性產品(pin)有 Leap Motion、微軟Kinect 等(deng)。以上(shang)動捕方案的性能對比如下圖所(suo)示。

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲主流動作捕捉方(fang)案性能對(dui)比(bi)

4、 渲染:真實性和實時性均大幅提升

PBR(Physically Based Rendering,基于(yu)物理的(de)渲(xuan)(xuan)染(ran)技(ji)術(shu)(shu))渲(xuan)(xuan)染(ran)技(ji)術(shu)(shu)的(de)進步以及重光照等新(xin)型(xing)渲(xuan)(xuan)染(ran)技(ji)術(shu)(shu)的(de)出現使數(shu)字(zi)人(ren)(ren)(ren)皮膚(fu)紋(wen)理變得真實,突破了恐(kong)怖谷效(xiao)應(ying)(ying)。恐(kong)怖谷效(xiao)應(ying)(ying)由日(ri)本機(ji)器人(ren)(ren)(ren)專(zhuan)家森政弘提出,認為人(ren)(ren)(ren)們對機(ji)器人(ren)(ren)(ren)的(de)親(qin)和(he)度(du)(du)隨著(zhu)(zhu)其仿(fang)真程度(du)(du)增(zeng)加而增(zeng)高,但當達到一個較高的(de)臨界點時,親(qin)和(he)度(du)(du)會突然跌(die)入谷底,產生排斥、恐(kong)懼和(he)困惑等負(fu)面心理。數(shu)字(zi)人(ren)(ren)(ren)恐(kong)怖谷效(xiao)應(ying)(ying)主(zhu)要由數(shu)字(zi)人(ren)(ren)(ren)外表、表情(qing)動作上與(yu)真人(ren)(ren)(ren)的(de)差(cha)異帶來,其中(zhong)外表真實感(gan)的(de)關鍵就是皮膚(fu)材質(zhi)的(de)真實感(gan),無論是塑料感(gan)還是蠟像感(gan)都會給人(ren)(ren)(ren)類帶來不適(shi)。在 PBR 技(ji)術(shu)(shu)出現之前,限于(yu)相關軟硬件的(de)發展程度(du)(du),所有的(de) 3D 渲(xuan)(xuan)染(ran)引擎,更多的(de)著(zhu)(zhu)重在于(yu)實現 3D 效(xiao)果,在真實感(gan)體現方面差(cha)強人(ren)(ren)(ren)意。

PBR 是基于(yu)(yu)真(zhen)實物(wu)理世界的(de)成像規律模擬的(de)一類渲染技術的(de)集合,它的(de)關鍵在于(yu)(yu)微表(biao)面模型(xing)和能量(liang)守恒計算(suan),通過更真(zhen)實的(de)反映模型(xing)表(biao)面反射光(guang)線(xian)(xian)和折射光(guang)線(xian)(xian)的(de)強弱,使得(de)渲染效果突破了(le)塑(su)料(liao)感(gan)。目(mu)前常見(jian)的(de)幾款 3D 引擎(qing),如UnrealEngine 4, CryEngine 3, Unity 3D 5,均有了(le)各自(zi)的(de) PBR實現。

重(zhong)光照(zhao)技(ji)術通(tong)過采集模擬(ni)(ni)多(duo)種光照(zhao)條件的(de)(de)圖(tu)像數據,測算(suan)數字(zi)人表面(mian)光照(zhao)反射特性(xing),并合成出數字(zi)人模型在新的(de)(de)光照(zhao)下的(de)(de)渲染(ran)(ran)結(jie)果,使計(ji)算(suan)機中的(de)(de)虛擬(ni)(ni)數字(zi)人在任(ren)意虛擬(ni)(ni)環境下都可以呈現近乎真實的(de)(de)效果,它徹(che)底改(gai)變了傳統渲染(ran)(ran)方式(shi)通(tong)過模擬(ni)(ni)皮膚(fu)復雜的(de)(de)透射反射來計(ji)算(suan)渲染(ran)(ran)總會帶來誤差(cha)的(de)(de)局面(mian)。

該(gai)技術(shu)在 2000 年(nian)初(chu)由南加州(zhou)大學(xue)實驗(yan)室創建LightStage 平(ping)臺時提出(chu),并開始了相關研究,目(mu)前(qian)已(yi)經經過 7代(dai)的迭代(dai)發展,已(yi)被成功應用到《阿凡達》、《復(fu)仇者聯盟》等眾多(duo)經典(dian)影片的角色(se)制(zhi)作中。國內清華大學(xue)、浙江(jiang)大學(xue)也(ye)都(dou)建設了重光照系統,可以實現高精度(du)人(ren)體光照采集與重建。

實時渲染技術的突破助力寫實類數字人實現實時交互,應用范圍快速擴大。實(shi)時(shi)(shi)(shi)(shi)渲(xuan)(xuan)(xuan)(xuan)(xuan)染(ran)指(zhi)圖形數(shu)據的實(shi)時(shi)(shi)(shi)(shi)計(ji)(ji)算(suan)與(yu)輸(shu)出(chu),其每一(yi)幀(zhen)都(dou)是(shi)針對當(dang)時(shi)(shi)(shi)(shi)實(shi)際的環(huan)境光源、相機位置和材質參數(shu)計(ji)(ji)算(suan)出(chu)來的圖像。與(yu)離(li)(li)線渲(xuan)(xuan)(xuan)(xuan)(xuan)染(ran)相比(bi),實(shi)時(shi)(shi)(shi)(shi)渲(xuan)(xuan)(xuan)(xuan)(xuan)染(ran)面臨較大挑戰(zhan)。一(yi)是(shi)渲(xuan)(xuan)(xuan)(xuan)(xuan)染(ran)時(shi)(shi)(shi)(shi)長短,實(shi)時(shi)(shi)(shi)(shi)渲(xuan)(xuan)(xuan)(xuan)(xuan)染(ran)每秒至(zhi)少要渲(xuan)(xuan)(xuan)(xuan)(xuan)染(ran) 30 幀(zhen),即在 33 毫(hao)秒內完成一(yi)幀(zhen)畫(hua)面渲(xuan)(xuan)(xuan)(xuan)(xuan)染(ran),離(li)(li)線渲(xuan)(xuan)(xuan)(xuan)(xuan)染(ran)則可(ke)以花費數(shu)小時(shi)(shi)(shi)(shi)甚至(zhi)更(geng)長時(shi)(shi)(shi)(shi)間渲(xuan)(xuan)(xuan)(xuan)(xuan)染(ran)一(yi)幀(zhen)畫(hua)面;二是(shi)計(ji)(ji)算(suan)資(zi)源有限,實(shi)時(shi)(shi)(shi)(shi)渲(xuan)(xuan)(xuan)(xuan)(xuan)染(ran)受限于時(shi)(shi)(shi)(shi)效(xiao)要求,計(ji)(ji)算(suan)資(zi)源一(yi)般是(shi)不能及時(shi)(shi)(shi)(shi)調(diao)整,而(er)離(li)(li)線渲(xuan)(xuan)(xuan)(xuan)(xuan)染(ran)受時(shi)(shi)(shi)(shi)效(xiao)限制較低,可(ke)臨時(shi)(shi)(shi)(shi)調(diao)配更(geng)多(duo)的計(ji)(ji)算(suan)資(zi)源。

早期的(de)實(shi)時(shi)渲(xuan)(xuan)染只能(neng)(neng)選擇高度(du)抽象和(he)(he)簡化過的(de)渲(xuan)(xuan)染算(suan)法,犧牲了畫面(mian)質量。隨(sui)著硬件能(neng)(neng)力的(de)提升(sheng)和(he)(he)算(suan)法的(de)突破,渲(xuan)(xuan)染速(su)度(du)、渲(xuan)(xuan)染效果的(de)真實(shi)度(du)、渲(xuan)(xuan)染畫面(mian)的(de)分辨率均大幅(fu)提升(sheng),在虛擬人物(wu)實(shi)時(shi)渲(xuan)(xuan)染方面(mian),已經能(neng)(neng)做到以假亂真。

2016 年,EpicGames 聯(lian)合(he) 3Lateral、Cubic Motion、Ninja Theory 等(deng)公司聯(lian)合(he)開(kai)發的(de)(de)可實(shi)時驅(qu)動(dong)的(de)(de)虛擬(ni)人物在當年的(de)(de) Siggraph(Special Interest Group for Computer GRAPHICS,計(ji)算機圖形圖像特(te)別興(xing)趣小(xiao)組(zu),致力于推廣和發展(zhan)計(ji)算機繪圖和動(dong)畫(hua)制作(zuo)的(de)(de)軟硬件(jian)(jian)技術)會(hui)議中(zhong)做(zuo)了演(yan)示,成功在消(xiao)費(fei)級的(de)(de)硬件(jian)(jian)環境下實(shi)時渲染(ran)了高質(zhi)量的(de)(de)虛擬(ni)角(jiao)色(se)。

2018 年 5 月,騰訊(xun)發布虛(xu)擬(ni)人(ren)(ren) Siren,也一個支(zhi)持實(shi)時(shi)渲染的虛(xu)擬(ni)人(ren)(ren)物。

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲離線(xian)渲(xuan)染與實(shi)時渲(xuan)染對比

三、虛擬數字人產業應用現狀

1、虛擬數字人產業視圖

當(dang)前(qian)虛擬數字人理論和技術(shu)日益成熟(shu),應用范圍不斷擴大,產業(ye)(ye)正在逐步形(xing)成、不斷豐富 ,相應的(de)商業(ye)(ye)模式也在持(chi)續演(yan)進和多元(yuan)化。虛擬數字人的(de)產業(ye)(ye)鏈從上(shang)到(dao)下可以分(fen)為基礎(chu)層、平(ping)臺層和應用層,如下圖所示。

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲虛擬(ni)數(shu)字人(ren)產業視(shi)圖

基礎層。基(ji)礎層為虛擬數(shu)(shu)字(zi)人提供基(ji)礎軟硬件(jian)(jian)(jian)支撐,硬件(jian)(jian)(jian)包(bao)括顯示(shi)(shi)設備、光(guang)學(xue)(xue)器件(jian)(jian)(jian)、傳感(gan)器、芯片(pian)等(deng)(deng),基(ji)礎軟件(jian)(jian)(jian)包(bao)括建模軟件(jian)(jian)(jian)、渲染引擎(qing)。 顯示(shi)(shi)設備是數(shu)(shu)字(zi)人的(de)載(zai)體(ti)(ti),既包(bao)括手(shou)機(ji)、電視、投影、LED 顯示(shi)(shi)等(deng)(deng) 2D 顯示(shi)(shi)設備,也包(bao)括裸眼立體(ti)(ti)、AR、VR 等(deng)(deng) 3D 顯示(shi)(shi)設備。 光(guang)學(xue)(xue)器件(jian)(jian)(jian)用(yong)于視覺傳感(gan)器、用(yong)戶顯示(shi)(shi)器的(de)制(zhi)作(zuo)。 傳感(gan)器用(yong)于數(shu)(shu)字(zi)人原始數(shu)(shu)據及用(yong)戶數(shu)(shu)據的(de)采集。

芯片用于傳感器(qi)數據預(yu)處理和數字(zi)人模(mo)(mo)型(xing)渲染、AI 計算(suan)。 建模(mo)(mo)軟件能夠對(dui)虛擬數字(zi)人的(de)人體、衣物(wu)進行(xing)三(san)維建模(mo)(mo)。 渲染引擎能夠對(dui)燈(deng)光、毛發、衣物(wu)等進行(xing)渲染,主流引擎包括 Unity Technologies 公司(si)的(de) Unity 3D、Epic Games公司(si)的(de) Unreal Engine 等。總體來看,處于基(ji)礎層的(de)廠商已(yi)經深耕行(xing)業多年,已(yi)經形成(cheng)了較為(wei)深厚的(de)技術(shu)壁壘。

平臺層。平(ping)(ping)臺(tai)(tai)(tai)(tai)層包括軟硬件(jian)系(xi)(xi)統、生產技術(shu)服務平(ping)(ping)臺(tai)(tai)(tai)(tai)、AI 能力平(ping)(ping)臺(tai)(tai)(tai)(tai),為(wei)虛擬(ni)數(shu)字(zi)人(ren)的制作及開發提(ti)供(gong)(gong)技術(shu)能力。建模系(xi)(xi)統和動作捕捉(zhuo)系(xi)(xi)統通過產業(ye)(ye)鏈上游的傳感器(qi)(qi)、光學器(qi)(qi)件(jian)等硬件(jian)獲取真(zhen)人(ren)/實物的各類信息,利用軟件(jian)算法(fa)實現對人(ren)物的建模、動作的重(zhong)現;渲染平(ping)(ping)臺(tai)(tai)(tai)(tai)用于模型的云端(duan)渲染。解(jie)決方案平(ping)(ping)臺(tai)(tai)(tai)(tai)基于自身技術(shu)能力為(wei)廣大客戶(hu)提(ti)供(gong)(gong)數(shu)字(zi)人(ren)解(jie)決方案。AI 能力平(ping)(ping)臺(tai)(tai)(tai)(tai)提(ti)供(gong)(gong)計(ji)算機視覺、智能語音、自然語言處理技術(shu)能力。平(ping)(ping)臺(tai)(tai)(tai)(tai)層匯聚的企業(ye)(ye)較多,騰訊、百度、搜狗、魔琺科技、相(xiang)芯科技均(jun)有提(ti)供(gong)(gong)相(xiang)應數(shu)字(zi)人(ren)技術(shu)服務平(ping)(ping)臺(tai)(tai)(tai)(tai)。

應用層。應(ying)(ying)(ying)用層是指虛(xu)(xu)(xu)(xu)(xu)擬數字(zi)(zi)人(ren)(ren)技術(shu)結合實際應(ying)(ying)(ying)用場景領(ling)域(yu),切入各類,形(xing)成行業(ye)應(ying)(ying)(ying)用解決(jue)方案(an),賦能(neng)行業(ye)領(ling)域(yu)。按照應(ying)(ying)(ying)用場景或行業(ye)的(de)不(bu)(bu)同,已經出現(xian)了娛樂型數字(zi)(zi)人(ren)(ren)(如(ru)虛(xu)(xu)(xu)(xu)(xu)擬主播、虛(xu)(xu)(xu)(xu)(xu)擬偶像)、教(jiao)育型數字(zi)(zi)人(ren)(ren)(如(ru)虛(xu)(xu)(xu)(xu)(xu)擬教(jiao)師)、助手(shou)型數字(zi)(zi)人(ren)(ren)(如(ru)虛(xu)(xu)(xu)(xu)(xu)擬客服(fu)、虛(xu)(xu)(xu)(xu)(xu)擬導(dao)游、智能(neng)助手(shou))、影視數字(zi)(zi)人(ren)(ren)(如(ru)替身演(yan)員或虛(xu)(xu)(xu)(xu)(xu)擬演(yan)員)等。不(bu)(bu)同外形(xing)、不(bu)(bu)同功能(neng)的(de)虛(xu)(xu)(xu)(xu)(xu)擬數字(zi)(zi)人(ren)(ren)賦能(neng)影視、傳媒、游戲、金融、文旅等領(ling)域(yu),根(gen)據需求為用戶(hu)提供定制化服(fu)務。

2、虛擬數字人重點領域應用環境及典型應用案例分析

虛擬(ni)數(shu)(shu)字人(ren)應用(yong)給(gei)傳統(tong)領域(yu)帶(dai)來變(bian)革(ge)(ge)。通過(guo)虛擬(ni)數(shu)(shu)字人(ren)產品(pin)與生產生活相融合(he),其(qi)規(gui)模化、可定(ding)制(zhi)化、可復制(zhi)化的(de)能力能夠推(tui)動改善(shan)傳統(tong)環節流程、提升效能、降(jiang)低成本(ben)等,大幅提升業務體(ti)驗,給(gei)傳統(tong)領域(yu)帶(dai)來變(bian)革(ge)(ge)。典型的(de)應用(yong)領域(yu)、場景及充(chong)當的(de)角(jiao)色如下圖所示。

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲虛擬數字人(ren)應用領域、場(chang)景及(ji)角色

虛擬數字人+影視。特(te)(te)效(xiao)(xiao)電(dian)影(ying)(ying)(ying)(ying)(ying)廣(guang)受市場認(ren)可,扶持政策的(de)密集出(chu)臺,以數字(zi)替身(shen)為代表的(de)虛擬(ni)數字(zi)人+影(ying)(ying)(ying)(ying)(ying)視(shi)(shi)(shi)類(lei)的(de)產品應用正(zheng)在展(zhan)(zhan)現廣(guang)闊(kuo)的(de)市場前景。影(ying)(ying)(ying)(ying)(ying)視(shi)(shi)(shi)是對(dui)視(shi)(shi)(shi)覺效(xiao)(xiao)果的(de)要求最(zui)(zui)高且最(zui)(zui)大程度影(ying)(ying)(ying)(ying)(ying)響社會(hui)對(dui)數字(zi)人形象認(ren)知、品牌的(de)一(yi)個領域。近年來中國(guo)影(ying)(ying)(ying)(ying)(ying)視(shi)(shi)(shi)數字(zi)人特(te)(te)效(xiao)(xiao)取得(de)快速發(fa)展(zhan)(zhan),部分(fen)特(te)(te)效(xiao)(xiao)大片(pian)獲得(de)市場認(ren)可。2019 年中國(guo)影(ying)(ying)(ying)(ying)(ying)視(shi)(shi)(shi)票房收入超過 640 億級別,連續多年增長8%左(zuo)右(you),其中特(te)(te)效(xiao)(xiao)電(dian)影(ying)(ying)(ying)(ying)(ying)約(yue)占 10%。國(guo)家對(dui)于(yu)影(ying)(ying)(ying)(ying)(ying)視(shi)(shi)(shi)特(te)(te)效(xiao)(xiao)的(de)發(fa)展(zhan)(zhan)十分(fen)重視(shi)(shi)(shi),先(xian)后出(chu)臺了一(yi)系列(lie)相關扶持政策。

2019 年,科(ke)技部、文化(hua)(hua)部聯合六部委發布(bu)《關(guan)于(yu)促進文化(hua)(hua)和(he)科(ke)技深度(du)融合的指(zhi)導意見(jian)》,提(ti)出加強(qiang)激光放映(ying)、虛擬現實(shi)、光學捕(bu)捉、影視攝錄、高清制播、圖像編輯等高端文化(hua)(hua)裝備自主研發及產業化(hua)(hua)。2020 年,國家電影局(ju)《關(guan)于(yu)促進科(ke)幻電影發展的若干意見(jian)》,提(ti)出以科(ke)幻電影特效技術發展引(yin)領帶動電影特效水平整(zheng)體提(ti)升,并要落實(shi)財稅支(zhi)持政策,同時對入駐影視文化(hua)(hua)基地(di)的科(ke)技企業進行租金減免。

于 2019 年(nian) 2 月 22 日在(zai)中(zhong)(zhong)(zhong)國(guo)內地(di)上映的(de)《阿(a)麗塔:戰斗天使》是(shi)虛(xu)擬數字(zi)人(ren)(ren)技術與影(ying)視相結合的(de)典(dian)型(xing)應用案(an)例之一。劇中(zhong)(zhong)(zhong)的(de)女主角(jiao)阿(a)麗塔是(shi)一位完全采用數字(zi)人(ren)(ren)技術制(zhi)作(zuo)的(de)角(jiao)色。該電影(ying)通過采用特(te)殊的(de)面部捕(bu)捉儀器(qi)對真人(ren)(ren)演員(yuan)人(ren)(ren)臉細節(jie)進行精(jing)準捕(bu)捉,然后(hou)將其作(zuo)為電腦(nao)中(zhong)(zhong)(zhong)虛(xu)擬角(jiao)色的(de)運動(dong)依據,使虛(xu)擬角(jiao)色的(de)動(dong)作(zuo)和表情能(neng)像真人(ren)(ren)一樣自(zi)然逼真。

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲2013-2019 中(zhong)國電影(ying)票房收入(ru)增長(chang)趨勢

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲中國內地電影票房總收入(ru) TOP10

虛擬數字人+傳媒。以(yi)虛擬主播(bo)(bo)為代表傳(chuan)媒(mei)行業應用(yong)很(hen)好(hao)的(de)滿(man)足了(le)(le)媒(mei)體(ti)傳(chuan)播(bo)(bo)領域(yu)對內容生(sheng)成(cheng)方面(mian)的(de)業務需求,成(cheng)為了(le)(le)融媒(mei)體(ti)時(shi)代的(de)傳(chuan)媒(mei)利器。據前瞻(zhan)產業研究院統(tong)計(ji),2019 年中國視頻直播(bo)(bo)行業收入達(da)到 1082 億(yi)人(ren)民幣(bi),全國有 3.9 億(yi)人(ren)在(zai)關注虛擬偶像,其中最(zui)大的(de)二次元活動社區B站月活用(yong)戶(hu)達(da) 1140 萬,虛擬主播(bo)(bo)占(zhan)直播(bo)(bo)營(ying)收 40%。

同(tong)期,B站(zhan)(zhan)、虎(hu)牙等大型(xing)直(zhi)播平臺也(ye)都開啟了線上、線下虛(xu)擬主(zhu)(zhu)(zhu)播活(huo)動。如Bilibili Macro Link系列活(huo)動VR直(zhi)播觀看如數達到 660 萬(wan),10 萬(wan)級(ji)的(de)“up主(zhu)(zhu)(zhu)”(指(zhi)在視頻網站(zhan)(zhan)、論壇、FTP站(zhan)(zhan)點(dian)上傳視頻音頻文(wen)件的(de)人(ren))就(jiu)可以達到 100 萬(wan)級(ji)真人(ren)主(zhu)(zhu)(zhu)播的(de)應收。此(ci)外,在傳統媒體領(ling)域,以虛(xu)擬主(zhu)(zhu)(zhu)持(chi)人(ren)為代表(biao)的(de)數字人(ren)應用也(ye)開始進入(ru)公眾視野。在2019 年(nian)央(yang)視網絡春晚舞臺上,以撒貝(bei)寧為原(yuan)型(xing)制(zhi)作的(de)AI虛(xu)擬主(zhu)(zhu)(zhu)持(chi)人(ren)“小(xiao)小(xiao)撒”首(shou)次(ci)上崗(gang)與原(yuan)型(xing)同(tong)臺秀技。這也(ye)是國(guo)內第一次(ci)人(ren)類主(zhu)(zhu)(zhu)持(chi)人(ren)和自己的(de)虛(xu)擬孿(luan)生(sheng)數字人(ren)共(gong)同(tong)主(zhu)(zhu)(zhu)持(chi)大規(gui)模的(de)國(guo)家級(ji)文(wen)化活(huo)動,引起(qi)了業界及網民的(de)強(qiang)烈關(guan)注(zhu)。

虛擬數字人+游戲。游(you)戲市場(chang)日趨激烈,對于(yu)精(jing)(jing)品的(de)需求日益增長,或(huo)是虛擬數(shu)字人(ren)(ren)技術在該領域(yu)落地的(de)福音。2019 年游(you)戲市場(chang)規模達到 2300 億,其中與(yu)數(shu)字人(ren)(ren)相關度(du)較(jiao)大的(de)RPG類(lei)游(you)戲約占 30%的(de)份額。我國(guo)國(guo)內游(you)戲監管環境和游(you)戲版號審(shen)批政策仍舊趨嚴,游(you)戲用戶數(shu)相比 2018 年僅增加 0.1 億,市場(chang)競爭日趨激烈,對于(yu)精(jing)(jing)品的(de)需求越來(lai)越高。

虛擬數字人技術(shu)則能夠有(you)效簡化和加快游戲(xi)(xi)動(dong)(dong)畫(hua)制(zhi)作過程,可以(yi)在有(you)限成本(ben)的(de)情況下(xia)讓游戲(xi)(xi)中(zhong)更多的(de)虛擬角色(se)都具(ju)備豐(feng)富(fu)的(de)肢體(ti)動(dong)(dong)作和精細的(de)面部表情,給玩家帶(dai)來更沉浸的(de)游戲(xi)(xi)體(ti)驗。例(li)如網易伏羲實驗室成功將(jiang)虛擬數字人技術(shu)應用(yong)到《逆水寒》等多個(ge)游戲(xi)(xi)劇情動(dong)(dong)畫(hua)場(chang)景制(zhi)作中(zhong),在無手工(gong)參與(yu)下(xia),快速生(sheng)成動(dong)(dong)畫(hua),這使得(de)大(da)量的(de)虛擬角色(se)都能富(fu)有(you)視覺的(de)表達能力。

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲2015-2019 中國游戲市(shi)場實際銷售收入

虛擬數字人+金融。虛擬數字人能(neng)夠有效(xiao)助力金(jin)(jin)融(rong)(rong)機構實現“降(jiang)(jiang)本增(zeng)效(xiao)”,各大(da)金(jin)(jin)融(rong)(rong)巨頭爭(zheng)相布局“數字員工”。運用金(jin)(jin)融(rong)(rong)科(ke)技(ji)(ji)實現“降(jiang)(jiang)本增(zeng)效(xiao)”應對市場(chang)競爭(zheng)成為(wei)金(jin)(jin)融(rong)(rong)行(xing)(xing)業發展共識,以(yi)科(ke)技(ji)(ji)為(wei)核心(xin)的競爭(zheng)導向,帶來了金(jin)(jin)融(rong)(rong)機構信息科(ke)技(ji)(ji)投(tou)入(ru)的逐年增(zeng)加。據輕金(jin)(jin)融(rong)(rong)統(tong)計,2019 年,16 家全國性銀(yin)行(xing)(xing)科(ke)技(ji)(ji)總(zong)(zong)投(tou)入(ru)超千億,總(zong)(zong)計1034.1億元。其中(zhong)工農中(zhong)建四大(da)行(xing)(xing)投(tou)入(ru)均超過100億元,建行(xing)(xing)投(tou)入(ru)最高,達到 176.33 億元。

虛擬(ni)數(shu)字人(ren)擁(yong)有擬(ni)人(ren)的(de)表情動作,可(ke)進行智能(neng)(neng)對話,能(neng)(neng)夠(gou)與(yu)服務(wu)類(lei)場景較(jiao)多的(de)金融(rong)行業(ye)天然(ran)結合(he)。多家金融(rong)機構正(zheng)利用虛擬(ni)數(shu)字人(ren)技術打造“數(shu)字員工(gong)”,成為了(le)科技創(chuang)新、降本增(zeng)效的(de)重(zhong)要方向。以中國工(gong)商銀行為例,其(qi)推出的(de)數(shu)字人(ren)銀行員工(gong),在移(yi)動終端(duan)和大屏等(deng)媒介(jie)上展現數(shu)字擬(ni)態形象,能(neng)(neng)夠(gou)在產品營銷講解(jie)、金融(rong)業(ye)務(wu)辦理、資訊播報、咨詢問答(da)等(deng)多個(ge)業(ye)務(wu)場景,實現與(yu)用戶(hu)(hu)的(de)可(ke)視(shi)化交互,為用戶(hu)(hu)帶來個(ge)性化服務(wu),有效解(jie)除用戶(hu)(hu)顧(gu)慮(lv),提升用戶(hu)(hu)體驗(yan)和駐留時間,真(zhen)正(zheng)讓數(shu)字化服務(wu)“聽得見”的(de)同時也“看(kan)得見”。

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲部分國際領(ling)先金(jin)融(rong)機(ji)構(gou)信息(xi)技術投入(ru)金(jin)額與增速

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲全(quan)國性科技(ji)總(zong)投(tou)入與占營收比重

虛擬數字人+文旅。數(shu)字文(wen)旅產業表現突(tu)出,以(yi)虛擬(ni)講解員為(wei)代表的(de)虛擬(ni)數(shu)字人應用或為(wei)其貢獻蓬勃(bo)力(li)量。據中國(guo)旅游研究院(yuan)統計(ji),2019 年前(qian)三季度,文(wen)旅營業收(shou)入 62187 億元,比(bi)上年同期增(zeng)長 7.6%,特別是(shi)數(shu)字文(wen)旅產業表現突(tu)出,成(cheng)為(wei)文(wen)旅產業轉型升(sheng)級的(de)重要引擎。數(shu)字文(wen)化內(nei)容與互聯網(wang)旅游、智慧(hui)旅游、虛擬(ni)旅游等新模(mo)式聯動發展,特別是(shi)疫情(qing)期間得(de)到(dao)不斷增(zeng)長。

目前,虛擬數(shu)字人在文(wen)(wen)旅領域暫時(shi)還沒(mei)有(you)落(luo)地產(chan)品,但相關概念(nian)產(chan)品已(yi)經(jing)開始映(ying)入公眾眼簾。例如商(shang)湯科技在 2020世界人工智能大(da)會(WAIC)上展(zhan)(zhan)示(shi)的(de)(de)(de)AI數(shu)字人“小糖”。“小糖”可依托于展(zhan)(zhan)臺前的(de)(de)(de)滑動屏(ping)幕,為觀眾介紹和講述預先設定好的(de)(de)(de)講解內容。虛擬數(shu)字人帶來(lai)(lai)的(de)(de)(de)全(quan)新展(zhan)(zhan)示(shi)方式和講解模式,在幫(bang)助文(wen)(wen)旅場(chang)館解決人力不足(zu)問(wen)題的(de)(de)(de)同時(shi),更憑借其智能化、電子化和展(zhan)(zhan)示(shi)效果多樣化的(de)(de)(de)特性,為文(wen)(wen)旅行(xing)業的(de)(de)(de)未來(lai)(lai)帶來(lai)(lai)更多可能性。

數字人正走進現實!AI大腦+高顏值,白皮書看懂四大關鍵技術五大應用 | 智東西內參

▲2012-2019 全國國內旅(lv)游人數

四、虛擬數字人發展趨勢和制約因素

1、虛擬數字人未來發展趨勢

虛擬數字人的采集、制作流程逐步簡單化、一體化,迭代式提升真實感。未來數字人(ren)的制(zhi)作(zuo)技術將會變得更加(jia)簡單,會有更加(jia)一體化(hua)、自動化(hua)的設備同步獲(huo)取模(mo)型、身體、表情、手指運動、聲音等所(suo)有數據,無(wu)需穿(chuan)戴專業傳感設備。在特定的環境下人(ren)們甚至無(wu)法分(fen)辨數字人(ren)的真(zhen)假,可以更加(jia)自然與數字人(ren)交流互動。

虛擬數字人的交互方式衍變,智能化程度不斷加深。全雙工技術(shu)(shu)將(jiang)推進(jin)數(shu)字(zi)人(ren)的交(jiao)互方式衍變,讓數(shu)字(zi)人(ren)擁(yong)有一次喚醒、多次交(jiao)互的能(neng)力,具備(bei)實時智(zhi)能(neng)響應、智(zhi)能(neng)打斷、智(zhi)能(neng)糾錯、多輪對話等(deng)功能(neng)。另外,隨著計算(suan)機視(shi)覺、語音和自(zi)然語言處(chu)理等(deng)人(ren)工智(zhi)能(neng)技術(shu)(shu)的不(bu)斷進(jin)步,虛擬數(shu)字(zi)人(ren)將(jiang)逐漸具備(bei)“看”、“聽”、“說”、“懂”的能(neng)力。

虛擬數字人逐漸實現在多場景、多領域的融合、應用、落地。盡管目前數(shu)字人的(de)發(fa)展環境、整體情況(kuang)還處于尚未成熟的(de)起步(bu)階段,但隨著虛擬數(shu)字人技(ji)術(shu)的(de)精進、市(shi)場價值的(de)釋放(fang),其將(jiang)更全面、更深入(ru)地融入(ru)影(ying)視、金融、文旅等各個領域,充分發(fa)揮(hui)應用價值,迸發(fa)巨大的(de)潛力。

2、虛擬數字人發展制約因素

目前,制約(yue)虛擬數(shu)字人(ren)產業發(fa)展的因素主要(yao)有以(yi)下(xia)幾個方面。

政策環境層面,行(xing)業(ye)(ye)依然處于培(pei)育期(qi),缺(que)乏(fa)政策與資(zi)(zi)本扶(fu)持(chi)。一是(shi)缺(que)少上下游(you)協作交(jiao)流平(ping)臺,制約整體產(chan)業(ye)(ye)化(hua)發展(zhan)。虛(xu)擬(ni)數(shu)字人(ren)產(chan)業(ye)(ye)鏈長(chang)(chang),參與主體多,既有(you)大型平(ping)臺企業(ye)(ye)、也有(you)中小(xiao)單位和初創公(gong)司,行(xing)業(ye)(ye)溝通(tong)成本高。二是(shi)行(xing)業(ye)(ye)投資(zi)(zi)回報(bao)周期(qi)較長(chang)(chang),為數(shu)字人(ren)產(chan)業(ye)(ye)投資(zi)(zi)豎立了“無(wu)形壁壘(lei)”。數(shu)字人(ren)產(chan)業(ye)(ye)還不完全成熟,投資(zi)(zi)回報(bao)周期(qi)較傳統技(ji)術應(ying)用(yong)更長(chang)(chang),缺(que)乏(fa)長(chang)(chang)期(qi)耐(nai)心資(zi)(zi)本來扶(fu)持(chi)企業(ye)(ye)成長(chang)(chang)。由于缺(que)乏(fa)資(zi)(zi)本力量(liang)的推(tui)動,各產(chan)業(ye)(ye)規模擴張與資(zi)(zi)源整合的進程(cheng)相對滯后。

技術應用層面,制作方式自動化程度低、生產門檻高,關鍵技術還不夠完全成熟。目前 3D 數(shu)字人建模依(yi)然(ran)需(xu)(xu)要(yao)(yao)大(da)量的人工(gong)制作參與(yu)(yu),整(zheng)體制作效率相對較低,與(yu)(yu)部分應用場(chang)景快速、批量制作的需(xu)(xu)求并不匹配(pei)。此外(wai),在虛擬數(shu)字人的關(guan)鍵技術(shu)方面,還存在實時面部表情(qing)捕捉與(yu)(yu)還原(yuan)精準度不足、語音識(shi)別在強噪聲干擾及遠場(chang)識(shi)別等方面還很難達到(dao)實用化要(yao)(yao)求等瓶頸,需(xu)(xu)要(yao)(yao)加大(da)研究力(li)度以提(ti)高算法精度。

人才培養層面,技術人才、綜合人才極度缺乏,人才供應體系不完善。數(shu)字人的(de)(de)技術(shu)跨(kua)度大(da),從制作端的(de)(de)美術(shu)師(shi)(shi)(shi)、模(mo)型師(shi)(shi)(shi)、綁定師(shi)(shi)(shi)、材質師(shi)(shi)(shi)、動作捕捉師(shi)(shi)(shi)、燈光(guang)師(shi)(shi)(shi)、特效師(shi)(shi)(shi)、攝像師(shi)(shi)(shi)、導演、特效演員,到技術(shu)端的(de)(de)光(guang)學工程師(shi)(shi)(shi)、硬(ying)件(jian)工程師(shi)(shi)(shi)、軟件(jian)工程師(shi)(shi)(shi)、算法工程師(shi)(shi)(shi)、系統工程師(shi)(shi)(shi),以(yi)及(ji)運(yun)營端的(de)(de)產品(pin)經理、經紀人等每一個環節的(de)(de)人才(cai)都很重要,急需(xu)一套完(wan)善(shan)的(de)(de)人才(cai)供應體系,特別(bie)是跨(kua)界(jie)人才(cai)體系,才(cai)能(neng)保障(zhang)產業的(de)(de)良性運(yun)轉。

標準體系層面,行業內缺乏統一技術標準和體系,產品質量良莠不齊。數(shu)字人的產業處于發展初期,制作型公司、技術(shu)型公司、運營型公司、應用型公司均(jun)已(yi)入場,但各企(qi)業的技術(shu)、產品質(zhi)量差異(yi)較大。通(tong)過建立虛擬數(shu)字人的技術(shu)、產品標準體(ti)系(xi),保護優質(zhi)數(shu)字人廠商,促進行業健康發展。

安全倫理層面,相關法律法規和倫理規范尚待完善,存在潛在風險。虛擬數字(zi)人(ren)(ren)技(ji)術在(zai)發展中會(hui)(hui)引(yin)發一些法律問題和倫(lun)理風險,需要提前建立(li)相關制度(du)進行(xing)(xing)防范(fan)。虛擬世界里面的(de)虛擬人(ren)(ren)物所有權、犯罪行(xing)(xing)為尚(shang)沒(mei)有法律上的(de)界定。虛擬數字(zi)人(ren)(ren)帶(dai)來的(de)沉浸(jin)式體驗可能會(hui)(hui)對(dui)用(yong)戶(hu)(hu)的(de)精神(shen)、心理狀態帶(dai)來影(ying)響,改變用(yong)戶(hu)(hu)在(zai)脫離虛擬世界后的(de)行(xing)(xing)為,比(bi)如可能會(hui)(hui)增加暴力傾向,存在(zai)一定倫(lun)理風險。

智東西認為,現在,在AI+5G的(de)(de)加持下,“虛擬數(shu)字人(ren)”的(de)(de)蓬勃發展(zhan)才剛剛開始,而這只是第三產(chan)業(ye)(ye)(ye)智能(neng)化(hua)趨勢的(de)(de)一(yi)個縮影(ying),隨(sui)著我國產(chan)業(ye)(ye)(ye)轉型(xing)升級的(de)(de)腳步逐漸加速,將會(hui)有各種形(xing)態的(de)(de)虛擬數(shu)字人(ren)出現在各行各業(ye)(ye)(ye)。