智東西(公眾號:zhidxcom)
作者 | 韋世瑋
編輯 | 漠影

搜狗在超寫實3D數字(zi)人(ren)領域(yu)再度攻破(po)一(yi)城,“跨界”手語數字(zi)人(ren)領域(yu)實現新突破(po)!

5月17日,搜狗發布(bu)全球首個手(shou)語AI合成(cheng)主播“小聰”,能夠自然流暢地為聽障者(zhe)播報手(shou)語,在(zai)測評中可(ke)懂度約85%。

與搜狗以往發(fa)布(bu)的(de)3D AI合(he)成主播不(bu)同,“小(xiao)聰(cong)”并不(bu)能穿越攝影棚為(wei)(wei)大家口播新聞(wen),也(ye)不(bu)需(xu)要真(zhen)人原(yuan)型進行形象特征和表情(qing)肢體的(de)數據采集(ji),只是(shi)通(tong)過靈活的(de)手(shou)勢動作和表情(qing),為(wei)(wei)聽力(li)障(zhang)礙人士(shi)提供“無聲的(de)溝通(tong)”。

從技術(shu)(shu)(shu)上來看,“小(xiao)聰”的背后(hou)基于搜狗長期研發(fa)積累的AI分身技術(shu)(shu)(shu),結合原力科技的行業領先3D重光照掃(sao)描還原完成的手語數(shu)字(zi)(zi)人(ren)高精(jing)度模(mo)型(xing)及采集的動(dong)(dong)畫數(shu)據(ju),輔(fu)助自研的表情(qing)肢體手勢捕捉技術(shu)(shu)(shu),生產出了高度還原真人(ren)發(fa)膚(fu)、形象(xiang)逼(bi)真、動(dong)(dong)作自然生動(dong)(dong)的數(shu)字(zi)(zi)人(ren)模(mo)型(xing)。

從3D AI合成主播到手語AI合成主播,搜狗的分身技術實現了哪些突破和挑戰?“小聰”的誕生又將會給社會帶來哪些改變?它未來還有哪些需要不斷完善的地方?

為了(le)更深(shen)一(yi)步了(le)解“小(xiao)(xiao)聰(cong)”的(de)(de)(de)誕(dan)生(sheng),智東西與少數媒體對搜狗AI交(jiao)互(hu)技術(shu)部總經理陳偉的(de)(de)(de)團隊進行了(le)采訪,在(zai)探究“小(xiao)(xiao)聰(cong)”背后的(de)(de)(de)技術(shu)新突破的(de)(de)(de)同時,進一(yi)步挖掘搜狗對“小(xiao)(xiao)聰(cong)”未來的(de)(de)(de)戰略布局和構(gou)思。

一、手語主播的三大技術優勢,表情唇動逼真豐富

何為搜狗分身(shen)技(ji)術?簡單來看,該技(ji)術集成了超寫(xie)實3D數(shu)字人(ren)建模、機(ji)器翻譯(yi)、多(duo)模態(tai)數(shu)字人(ren)生成、遷移學習、實時面(mian)部動(dong)作生成及(ji)驅動(dong)等(deng)多(duo)項AI技(ji)術。正(zheng)是基于這項技(ji)術,搜狗才能讓超寫(xie)實3D數(shu)字人(ren)具(ju)備自(zi)然可懂(dong)的手語主播能力(li)。

整體來看,“小聰”在數字人(ren)寫實度(du)、手(shou)語表(biao)達可懂(dong)度(du)、手(shou)語展現接受度(du)三(san)大(da)方面,都躍上了(le)新(xin)的(de)技術臺(tai)階(jie)。

1、超寫實的逼真數字人效果

數字人寫實度大(da)幅提升(sheng)的(de)好處在于,它能顯著提升(sheng)手語(yu)播(bo)報(bao)帶來的(de)真實感與親切感,進一步提高播(bo)報(bao)用戶體驗(yan)。

為此(ci),“小聰”使用(yong)了行業最(zui)領先的3D重光照掃描(miao)還原、面部肌(ji)肉驅動、表(biao)情肢體手勢捕捉技術,能生產出(chu)高度(du)還原真人發(fa)膚、形象逼真、動作自(zi)然生動的數字人模(mo)型。

2、高可懂度的手語表達能力

手語有(you)沒有(you)像自然語言(yan)一(yi)樣有(you)一(yi)套(tao)(tao)完整的語言(yan)體系(xi)?實際上,手語也有(you)一(yi)套(tao)(tao)自己通用(yong)的詞典。

“小(xiao)聰”基于我國(guo)在2019年發布的(de)《國(guo)家通用(yong)手語(yu)詞典》,健聽人只需輸(shu)入日常生活中(zhong)的(de)語(yu)言文本,就能(neng)低延遲地生成(cheng)(cheng)高準(zhun)確率的(de)手語(yu)語(yu)言表征。同時,通過(guo)搜狗分身的(de)多模態生成(cheng)(cheng)技(ji)術,系統能(neng)實時預(yu)測生成(cheng)(cheng)對應的(de)超寫實3D數字人驅動參數,并快(kuai)速生成(cheng)(cheng)數字人手語(yu)播報視頻。

陳偉談到,“小聰”手語播報的可懂度在測評中達85%以上,能有(you)(you)效幫助聽(ting)障者克服理(li)解障礙,達成信(xin)息(xi)有(you)(you)效傳遞(di)。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術是核心

3、高接受度的手語展現效果

作為一種視(shi)覺語言,手(shou)(shou)語表達(da)不僅僅需要依靠手(shou)(shou)勢(shi),還需要配合(he)面部表情、唇動、姿態(tai)等方式(shi)來傳達(da)更準確(que)的(de)(de)意圖,也稱為“非手(shou)(shou)控信(xin)息”的(de)(de)表達(da)。因此,除(chu)了高可懂度的(de)(de)手(shou)(shou)語表達(da)能力之外,“小聰”的(de)(de)手(shou)(shou)語表達(da)細(xi)節(jie)也十分真(zhen)實豐(feng)富。

通過搜狗機器翻譯(yi),系(xi)統能(neng)生(sheng)成(cheng)覆蓋手部動(dong)(dong)作、面(mian)部表情、口動(dong)(dong)唇動(dong)(dong)等(deng)多個維度(du)的手語表征信息(xi)。同時,基(ji)于搜狗多模(mo)態(tai)端到端生(sheng)成(cheng)模(mo)型進行(xing)聯合(he)建模(mo)及預測,生(sheng)成(cheng)高(gao)(gao)準確率的動(dong)(dong)作、表情、唇動(dong)(dong)等(deng)序列,從而實現自然(ran)、地道(dao)、接(jie)受(shou)度(du)更高(gao)(gao)的手語表達效果。

基(ji)于搜狗分身技術,“小聰”還能實(shi)現快速生成和批(pi)量復制,成為全年無(wu)休(xiu)的(de)“勞模”,更(geng)好地幫助聽障(zhang)人士解決日常(chang)生活、公共(gong)服務、特殊教育等多個場景下的(de)溝通不暢問題。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術是核心

二、面向2700萬聽障人群,手語合成背后的語言鴻溝

也(ye)許有人認為,現在(zai)的語音轉文字(zi)技(ji)術(shu)如此成熟(shu)了,新聞(wen)、影視等作(zuo)品(pin)都有字(zi)幕,為什么(me)還要大費周(zhou)章地開發手語AI合成主(zhu)播技(ji)術(shu)?相(xiang)比以往的AI合成主(zhu)播,它(ta)的技(ji)術(shu)到(dao)底(di)難(nan)在(zai)哪?

據世界(jie)衛生組(zu)織(zhi)發(fa)布的數(shu)據,目前全球聽(ting)力障礙人群(qun)高達4.66億人,在我國(guo)則有2700萬人。其中(zhong),受教育程度(du)(du)和了(le)解健(jian)聽(ting)人語言(yan)體系越來越高地主要(yao)集中(zhong)在年(nian)輕聽(ting)障人群(qun)中(zhong),還有不少中(zhong)老年(nian)聽(ting)障人士在學(xue)習上(shang)仍有難度(du)(du)。

“我國2700萬聽障(zhang)(zhang)(zhang)(zhang)人(ren)群的(de)教育程度是參差不齊(qi)的(de),上了高中(zhong)、大學的(de)聽障(zhang)(zhang)(zhang)(zhang)人(ren)僅占了很小的(de)比例。”陳偉說,從學習(xi)角度來看,由于聽障(zhang)(zhang)(zhang)(zhang)人(ren)士在(zai)聽力上天(tian)生(sheng)有障(zhang)(zhang)(zhang)(zhang)礙,少了一個能更(geng)快學習(xi)語(yu)(yu)言的(de)因素(su)。所(suo)(suo)以短期內,手語(yu)(yu)仍(reng)是聽障(zhang)(zhang)(zhang)(zhang)人(ren)士主要的(de)學習(xi)方(fang)式,更(geng)是他們主要的(de)表達方(fang)式,難(nan)以被字(zi)幕所(suo)(suo)替代。

盡管(guan)也有(you)一些電視(shi)節目能夠提(ti)供手(shou)語解說,但多以(yi)正常語序編(bian)排,與手(shou)語的(de)特(te)殊表(biao)達結(jie)構(gou)不(bu)符,讓大部分聽障人士(shi)只能理(li)解不(bu)到(dao)60%的(de)內容。這就導致了許多聽障人士(shi)無法(fa)常態(tai)化(hua)(hua)、高質量地接(jie)收(shou)信息,逐漸(jian)變得(de)難以(yi)融入社會,最終(zhong)成為被(bei)邊緣化(hua)(hua)群體(ti)。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術是核心

與此同時,當搜狗(gou)聯(lian)合新華社在2020年(nian)5月發布全球首(shou)個3D AI合成主播(bo)后,搜狗(gou)AI交互技術(shu)(shu)團隊開始(shi)思(si)考,自己在數字人方向(xiang)上(shang)是否還能沖(chong)上(shang)更高的技術(shu)(shu)壁壘?同時又能找到(dao)有(you)強烈(lie)需求的場景?

因此,一群對手語一竅不通的研發團隊開始與許多聽障人士進行探討,嘗試挖掘手語AI合成主播這條賽道更大的可能性,并在內部組建了一個除語言、產品、研發三大體系外的顧問團,包含中國聾人(ren)協會的專業人(ren)士、手(shou)語學校的老師,以及(ji)手(shou)語AI合(he)成主播的真實用戶——聽障人士(shi)。

但AI合成主播技術深厚如(ru)搜(sou)狗,在面對手(shou)語合成技術這條新(xin)賽道(dao)上,也(ye)面臨著不少挑戰(zhan)。

“我(wo)們最開始接(jie)觸手(shou)語(yu)的(de)(de)(de)(de)時候發現,它跟我(wo)們之(zhi)前了解的(de)(de)(de)(de)所(suo)有語(yu)言(yan)語(yu)種都不(bu)(bu)太(tai)一樣,他是(shi)一個視覺語(yu)言(yan),并不(bu)(bu)能直接(jie)用(yong)語(yu)音語(yu)言(yan)的(de)(de)(de)(de)方式去(qu)解決(jue)手(shou)語(yu)的(de)(de)(de)(de)事情。”一位(wei)參(can)與(yu)研發的(de)(de)(de)(de)團隊成員談到,在手(shou)語(yu)語(yu)言(yan)體系(xi)的(de)(de)(de)(de)構建過程中,有三(san)個最主要的(de)(de)(de)(de)難點(dian):

1、手語語序結構獨特,翻譯難

手語(yu)的(de)語(yu)序結構(gou)和(he)漢(han)語(yu)語(yu)言大有不(bu)(bu)同,例如漢(han)語(yu)中(zhong)的(de)“貓追老鼠”,在(zai)手語(yu)表(biao)達中(zhong)為“貓、老鼠、追”;“開車不(bu)(bu)準喝酒(jiu)”在(zai)手語(yu)表(biao)達中(zhong)為“開車、喝酒(jiu)、不(bu)(bu)準”。

這些跟漢(han)語(yu)語(yu)序(xu)表達(da)的(de)不同,使得研發(fa)團隊難以直(zhi)接采用原有的(de)語(yu)料庫(ku)和數(shu)據庫(ku)進行算法訓(xun)練。因此(ci),搜狗專(zhuan)門建立了相應的(de)語(yu)言規則嘗試(shi)進行“漢(han)語(yu)-手語(yu)”的(de)語(yu)序(xu)轉換,先將手語(yu)進行翻譯(yi)后(hou)再給算法進行訓(xun)練。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術是核心

2、詞匯類型缺失,表達差異大

手(shou)語(yu)(yu)的(de)(de)詞匯類型(xing)并(bing)不像漢語(yu)(yu)那么豐富,并(bing)沒有(you)量詞、程(cheng)度副詞,更(geng)多是(shi)直接省略(lve)或(huo)是(shi)采用肢體語(yu)(yu)言來表達。例如漢語(yu)(yu)中的(de)(de)“我買兩支(zhi)鉛(qian)筆、一本書”,在手(shou)語(yu)(yu)表達中為“我買鉛(qian)筆、二、書、一”;“大雪紛飛”在手(shou)語(yu)(yu)表達中則(ze)是(shi)表達一個(ge)“雪”,然(ran)后在雪的(de)(de)基(ji)礎上加大身(shen)體的(de)(de)擺(bai)動(dong)來體現(xian)程(cheng)度副詞。

因此(ci)在詞(ci)(ci)匯方(fang)面,搜狗AI交互(hu)團(tuan)隊還建立了一個手語(yu)到(dao)漢語(yu)之間(jian)的映射詞(ci)(ci)典,嘗試去解決手語(yu)和漢語(yu)之間(jian)詞(ci)(ci)匯上的差異問題。

3、特有非手控信息,需建立新表情庫

漢語的(de)(de)(de)博大精深在于,哪怕是(shi)(shi)同(tong)一句話,用不(bu)同(tong)音(yin)調(diao)或語氣也能表達出不(bu)同(tong)信(xin)息,這讓手語表達的(de)(de)(de)難度系數大大提高。因此(ci)手語也有(you)特有(you)的(de)(de)(de)非手控信(xin)息,通過不(bu)同(tong)的(de)(de)(de)表情、口動、身體姿態等方式(shi)來傳達信(xin)息。例如(ru)一句“我做的(de)(de)(de)好(hao)不(bu)好(hao)”,皺眉(mei)時是(shi)(shi)詢問(wen)的(de)(de)(de)語氣,挑(tiao)眉(mei)時則是(shi)(shi)感嘆的(de)(de)(de)語氣。

非手控信(xin)息也是(shi)搜狗(gou)AI交(jiao)互(hu)團隊在開發過程中遇到的(de)最大難點,針對這一問(wen)題,搜狗(gou)目前正嘗試(shi)通過建立數據庫(ku)等(deng)規則方式來(lai)解決。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術是核心

三、技術難度系數增大,還需解決恐怖谷難題

值(zhi)得注意的(de)是,手語(yu)語(yu)言中的(de)三大問題僅僅是語(yu)言體(ti)(ti)系建立(li)方面的(de)難點,具體(ti)(ti)落(luo)實到技(ji)術(shu)方面,搜狗也(ye)面臨著不少挑戰(zhan)。

一是數據挑戰。陳偉(wei)談到(dao)(dao),國內從來(lai)沒有這樣規模(mo)化地思(si)考如何(he)構建一個能讓AI學習的手語(yu)大數據(ju)庫,無論是(shi)數據(ju)體(ti)系的構建、標注的方法,以及如何(he)找到(dao)(dao)手語(yu)專業老師幫助團隊(dui)(dui)高效地推進研(yan)發(fa), 這些對(dui)搜狗(gou)AI交互團隊(dui)(dui)來(lai)說都(dou)是(shi)一個新的技術挑戰。

二是算法挑戰。無論是機器翻譯還(huan)(huan)是數(shu)字人(ren)生(sheng)成,搜狗(gou)(gou)都要面臨更多機器語(yu)言特點的(de)定制。以往(wang)搜狗(gou)(gou)做3D AI合(he)成主播(bo)時一直在強(qiang)調唇形、表情,但在手語(yu)AI合(he)成主播(bo)上還(huan)(huan)需(xu)加上嘴形、表情、姿態和(he)手部(bu)動(dong)作等維度,并(bing)保證(zheng)在同一時間內完(wan)全對齊(qi)。

三是3D驅動挑戰。手(shou)語(yu)表達(da)(da)的特殊性(xing)需(xu)要手(shou)語(yu)AI合成主播實現連(lian)續大(da)(da)幅手(shou)部動作的自然生成。基于此,搜(sou)狗通過3D建(jian)模技術(shu)結合AI實時驅動,大(da)(da)大(da)(da)提升手(shou)語(yu)AI合成主播動作的靈活性(xing)、可控性(xing)和連(lian)貫度,提升動作表達(da)(da)能力。

“我們也一直和顧問團保(bao)持非常緊(jin)密的(de)(de)聯系和溝通,對(dui)專業人(ren)士和聽障(zhang)人(ren)士覺得手勢、位置、運動等不標準的(de)(de)地方進(jin)行及時(shi)糾正,這樣才能確(que)保(bao)我們每一步的(de)(de)技術迭代都(dou)能時(shi)刻得到最真實的(de)(de)反饋。”陳偉談到。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術是核心

當一個數字人(ren)(ren)無限接近(jin)真人(ren)(ren)時(shi),不(bu)少細節容易讓人(ren)(ren)感(gan)到害怕。例如有人(ren)(ren)認為,搜狗去年(nian)推(tui)出(chu)的3D數字人(ren)(ren)張(zhang)嘴時(shi),看不(bu)到聲帶或(huo)咽喉的共(gong)振,或(huo)是模型偶爾的穿模,這些都容易讓人(ren)(ren)產生恐(kong)(kong)懼感(gan)。但(dan)如果(guo)將(jiang)合成(cheng)主播(bo)做成(cheng)卡通形象,盡管(guan)能解決恐(kong)(kong)怖谷(gu)問題,但(dan)用戶和數字人(ren)(ren)交互的親切感(gan)、體驗感(gan)也大大降低。

“當我(wo)(wo)看到(dao)一(yi)個數(shu)字人(ren)時沒有產生(sheng)恐怖(bu)谷(gu)效(xiao)應(ying),我(wo)(wo)會覺得我(wo)(wo)和(he)數(shu)字人(ren)之(zhi)間時有情感連接的(de),交流時就像是(shi)面對面的(de)溝通(tong)。”陳(chen)偉提(ti)到(dao),這也是(shi)搜狗做數(shu)字人(ren)的(de)初(chu)衷。

為了減少“小聰”的恐怖谷效應,搜狗對“小聰”的皮膚材質、紋理、手勢形狀等渲染都進行了優化,寫實度大大提高。“我們認為在未來一到兩年的時間內,3D建模會突破恐怖谷效應。”陳偉說。

同時(shi)在他看(kan)來,真正讓人覺得不(bu)恐怖的狀態還需要在數字(zi)人的表達能(neng)(neng)(neng)力和對話(hua)能(neng)(neng)(neng)力上進(jin)行突破。“只有數字(zi)人或AI越來越像(xiang)人的時(shi)候,人機交(jiao)互的可能(neng)(neng)(neng)性才能(neng)(neng)(neng)做(zuo)到真正的自然交(jiao)互,才能(neng)(neng)(neng)實現人和數字(zi)人的情(qing)感連接。”陳偉解釋,這也是搜(sou)狗堅定不(bu)移(yi)地把重心放在數字(zi)人超寫實方面的原因。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術是核心

四、今年Q4規模應用,手語AI合成主播的兩大落地方向

現階段,“小聰”手語AI合成主播從數據到算法,再到3D建模等工程化技術仍在持續地優化迭代。陳偉預計,到今年第四季度,“小聰”將真正實現規模應用。

在落地方面,“小聰”也將從實時場景和非實時場景兩個方向落地。

在實時新(xin)聞信(xin)息、公共廣(guang)播信(xin)息等實時場景方面,搜狗將考慮人機交(jiao)互與多模態動作的結合,把(ba)手語放到人機交(jiao)互的環境中,方便聽(ting)障(zhang)人士自主地與機器(qi)進行交(jiao)流。

在偏文化(hua)(hua)娛樂和(he)生活相(xiang)關(guan)等非實時場景(jing)中,搜狗也將和(he)更(geng)多電視媒(mei)體,以及對內容播報有強需(xu)求的(de)團隊(dui)合作(zuo),通過(guo)“小聰”將視頻(pin)和(he)文字內容視頻(pin)化(hua)(hua),讓(rang)更(geng)多節目都能通過(guo)手語的(de)方式進行信息傳(chuan)遞,幫助聽障人群更(geng)好地融(rong)入(ru)社(she)會生活,同時也減(jian)輕傳(chuan)統手語老師的(de)工作(zuo)壓力(li)。

“我(wo)們(men)希(xi)望通過聚焦(jiao)數字人(ren)技術,讓它為社會創造更大(da)的價值。”陳(chen)偉談到,這不僅是嘴(zui)形的播報(bao),而是充(chong)分把數字人(ren)的靈活性、真實性、自(zi)然連貫的性能(neng)全部發揮出來(lai),做出高品質且(qie)符(fu)合(he)國(guo)家(jia)標準的手(shou)(shou)語表達技術,真正提高手(shou)(shou)語的普及力度和(he)應用范圍。

結語:搜狗AI合成主播打開行業創新突破口

作為我國AI合成主播的(de)行業風向(xiang)標,搜狗(gou)一直不(bu)斷(duan)精進數(shu)字人技術,在(zai)增加機器的(de)溫度,拉(la)近人機之間關系的(de)同時,也幫助傳統內容(rong)行業提(ti)高生產力(li)和創新力(li)。

這次搜(sou)狗將分身技(ji)術聚焦在更少數的聽(ting)障人群,去挑戰一(yi)(yi)個又(you)一(yi)(yi)個新的技(ji)術難關(guan),不僅(jin)讓我們看(kan)到了搜(sou)狗攀爬技(ji)術壁壘的魄力,也看(kan)到了搜(sou)狗作為一(yi)(yi)家(jia)企業(ye)的社會責任感和(he)擔當,也是一(yi)(yi)次與弱勢群體的共情(qing)。

也(ye)(ye)許(xu)對(dui)(dui)更(geng)(geng)大規模的(de)健聽(ting)(ting)人(ren)群來說,“小(xiao)聰(cong)”的(de)誕生對(dui)(dui)自己的(de)生活(huo)并沒(mei)有帶來任何改(gai)變。但(dan)對(dui)(dui)我國那2700萬聽(ting)(ting)障人(ren)士而言,這也(ye)(ye)是他們能拉近(jin)與社會的(de)距離,更(geng)(geng)輕松、更(geng)(geng)溫暖(nuan)地感受當下生活(huo),甚至輕松走出(chu)國門的(de)重要技術突破。