
智東西(公眾號:zhidxcom)
作者 |?徐珊
編輯 | 云鵬
智東西4月25日報道(dao),今天騰訊云(yun)(yun)智能推出了騰訊云(yun)(yun)智能小樣本數智人(ren)生產平臺,從而實(shi)現“自助式”數智人(ren)生產制作。
通過騰訊(xun)云智(zhi)能小(xiao)樣(yang)本數(shu)智(zhi)人(ren)生產平臺(tai),用戶(hu)只(zhi)需(xu)要3分鐘(zhong)真(zhen)人(ren)口播視頻、100句(ju)語音素材,就可以在24小(xiao)時內(nei)制作(zuo)出與真(zhen)人(ren)近(jin)似的“數(shu)智(zhi)人(ren)”。
目前,騰訊(xun)云智(zhi)能主要將行業提(ti)(ti)供數智(zhi)人底層aPaaS能力, 并且提(ti)(ti)供專屬的技(ji)術支持和商機(ji)流量(liang)扶(fu)持,而(er)合作(zuo)伙伴(ban)主要負責為云智(zhi)能數智(zhi)人服務打造上層應用,形成(cheng)數智(zhi)人SaaS方(fang)案。
從現場我們了解到,目前騰訊云智能、騰訊優圖實驗室、騰訊AI Lab、Next Studios等(deng)多個業務團隊都為該(gai)數(shu)智人工廠提供(gong)技術支持(chi)。
一、從數字人到數智人,騰訊數字人在口播等多領域應用
據(ju)騰(teng)(teng)訊云智能數智人(ren)產品總經理陳磊透(tou)露(lu),從2016年(nian)(nian)開始,騰(teng)(teng)訊就已經開始接觸(chu)對話式AI,也就是早期的(de)數字人(ren)。2018年(nian)(nian),騰(teng)(teng)訊正式投(tou)入數智人(ren)研發和服務,成為國內最早投(tou)入數字人(ren)領域的(de)企業(ye)之一,目前(qian)騰(teng)(teng)訊已發布數百篇相關技術頂會、期刊論(lun)文、專(zhuan)利近百份。
數智人的發展(zhan)階(jie)段一(yi)共分為(wei)三個階(jie)段,離線(xian)階(jie)段、在線(xian)階(jie)段、在場階(jie)段。
在(zai)場階(jie)段,數(shu)智(zhi)人在(zai)生產效(xiao)率和生產效(xiao)能大(da)幅提升(sheng)。從三年前的(de)(de)百萬級(ji)價格(ge),到如今的(de)(de)千(qian)元級(ji),數(shu)智(zhi)人的(de)(de)成本正在(zai)迅速下降,數(shu)智(zhi)人也開始走(zou)向(xiang)更廣泛商用市場,“普惠化(hua)”、“場景化(hua)”趨勢明(ming)顯(xian)。
騰訊云(yun)智(zhi)能(neng)還提(ti)出自動化(hua)“AI+數(shu)智(zhi)人工(gong)廠”,提(ti)供讓企業開箱即可(ke)以(yi)直接使(shi)用的數(shu)智(zhi)人生(sheng)產服務。該數(shu)智(zhi)人工(gong)廠依托于(yu)騰訊云(yun)TI平臺,內置超(chao)過10項AI算法能(neng)力(li)。
未來,無(wu)需任何算(suan)法、研發經(jing)驗,企業(ye)只(zhi)要在平臺導入視頻、語(yu)音訓練素材,即可通過“自助式”服務(wu),完成(cheng)大批量數智(zhi)人形象(xiang)、音色(se)定制。
目前,已經有(you)數(shu)十(shi)家合作伙伴依托平臺,向行業提供數(shu)智人直(zhi)播(bo)SaaS、知識(shi)口(kou)播(bo)SaaS應用,覆蓋醫療、傳媒、金(jin)融多個行業。
“騰訊和(he)其(qi)他相比,更懂行業(ye)內的市(shi)場需求(qiu)。”在陳磊看來,未(wei)來人(ren)們可以在騰訊云上傳自己的照片,然后(hou)選擇下一(yi)個虛擬數智(zhi)人(ren)的訂單,在一(yi)天內就可以獲得自己的數智(zhi)人(ren)。
二、以“小樣本”見“大模型”,揭開小樣本打造數字人背后的AI黑科技
騰訊優圖實驗室研究總監汪(wang)鋮(cheng)杰認為目前(qian)數智(zhi)人(ren)服務的問題主要聚焦在兩大方(fang)面:如何將數智(zhi)人(ren)做的更(geng)高效,以及如何將數智(zhi)人(ren)做得更(geng)逼真。
比(bi)如(ru)(ru)說,想要(yao)虛擬數(shu)智人更加逼真,要(yao)考(kao)慮如(ru)(ru)何(he)將此前的產品變得(de)更加標準化(hua)和(he)流程化(hua),離(li)不開(kai)人像(xiang)編輯生成、人像(xiang)3D技術(shu)(shu)、生成輔助技術(shu)(shu)等多樣(yang)的AI技術(shu)(shu)幫助。
他(ta)覺得2D小(xiao)樣本(ben)技(ji)術的背后(hou)是3D技(ji)術。“小(xiao)樣本(ben)數智(zhi)人(ren)從直觀上感受是2D視頻(pin),背后(hou)其實是3D人(ren)像在(zai)做支撐。從‘文本(ben)/音(yin)頻(pin)’信息到(dao)(dao)(dao)‘3D人(ren)像驅(qu)動(dong)’再到(dao)(dao)(dao)‘2D人(ren)像視頻(pin)’的模式,通過3D人(ren)臉結構的先(xian)驗信息引(yin)入,使數智(zhi)人(ren)口型(xing)、表情更到(dao)(dao)(dao)位。”
如(ru)今用戶可(ke)(ke)以(yi)通過(guo)兩(liang)三分鐘(zhong)的(de)(de)視頻(pin),借助騰訊云智能(neng)(neng)的(de)(de)相關功能(neng)(neng),就可(ke)(ke)以(yi)獲(huo)得自己(ji)的(de)(de)虛擬數智人。這其中,像(xiang)是(shi)3分鐘(zhong)的(de)(de)視頻(pin)或者文本、圖(tu)片(pian)都是(shi)屬(shu)于小樣本,但為(wei)這些小樣本做背后(hou)支撐的(de)(de)都是(shi)各種不同的(de)(de)大模型。
比如說,在數據(ju)獲(huo)取(qu)和數據(ju)篩選階段,騰訊訓練通(tong)(tong)用(yong)基礎(chu)模型時,引入自監督(du)機制,讓AI自己(ji)去約束數據(ju),從而構(gou)建(jian)通(tong)(tong)用(yong)基礎(chu)模型,如通(tong)(tong)用(yong)語音合成/編(bian)碼(ma)模型、通(tong)(tong)用(yong)3D重建(jian)模型、通(tong)(tong)用(yong)人(ren)像編(bian)輯(ji)模型。有了(le)自監督(du)機制,3D騰訊數字人(ren)不(bu)在需要現場掃描,就可以還原(yuan)每一道皺紋級的細節,讓3D數智人(ren)更加逼真。
語音方面(mian),騰訊接入兩(liang)大3D口(kou)(kou)型驅動(dong)接口(kou)(kou),覆蓋了ARKit、metahuman等(deng)不(bu)同的建模標準。同時,人(ren)(ren)像編輯生成技(ji)術(shu)也是(shi)數智人(ren)(ren)的重要技(ji)術(shu)之一,包括人(ren)(ren)像分割(ge)、綠幕去光、背景更(geng)換、視線矯(jiao)正(zheng)、人(ren)(ren)像美顏等(deng)多個(ge)環節,可以讓數智人(ren)(ren)后(hou)期制(zhi)作(zuo)更(geng)加方便(bian)快捷(jie)。
此外,通過(guo)構(gou)建大規模高質量音(yin)色數據的(de)預(yu)訓練基底模型,未(wei)來小樣本(ben)數智人(ren)還將支持用戶(hu)只錄制普通話(hua),即可合成英文及方言(yan)語音(yin)。
三、數智人應用千行百業,場景深度還需挖掘
騰訊研究(jiu)院高級(ji)研究(jiu)員(yuan)宋揚覺得(de),虛擬數(shu)字人(ren)產(chan)業被(bei)用(yong)戶(hu)普及(ji)(ji),既(ji)有(you)各類爆款事件結合(he)在一起(qi)的造成(cheng)的熱度(du)助力,如(ru)一些網紅數(shu)字人(ren)推(tui)動C端最直觀的認知和概念普及(ji)(ji),又有(you)技術推(tui)動、用(yong)戶(hu)需求(qiu)、生態建設和標(biao)準(zhun)等底(di)層支撐。
他發現虛(xu)擬數(shu)字人(ren)發展的(de)(de)成本正在(zai)不(bu)斷的(de)(de)下降,AI技術升(sheng)級能夠讓虛(xu)擬數(shu)字人(ren)同時有“好看的(de)(de)皮囊(nang)”和(he)“有趣(qu)的(de)(de)靈魂”,3D數(shu)字人(ren)制作的(de)(de)效(xiao)能也在(zai)繼續提(ti)升(sheng)。AI技術技術驅動數(shu)智人(ren)多(duo)模型交互還有智慧,并且逐(zhu)步覆蓋(gai)多(duo)類型的(de)(de)數(shu)智人(ren)生產運營全(quan)流程(cheng)。
從目前發展的途徑來看(kan),虛擬數字(zi)人將成為企業降本增(zeng)效的工具,千(qian)行千(qian)面的數字(zi)人將成為人機交(jiao)互新入(ru)口,但是(shi)數智人應(ying)用(yong)的深度(du)還需(xu)要挖掘。
結語:走向企業,數智人成為降本增效好工具
從QQ秀開始,騰訊(xun)可以說是最早打(da)造數字人(ren)的(de)(de)企業,在此領域,騰訊(xun)已有多年(nian)的(de)(de)技術積累。今天,騰訊(xun)正式(shi)帶來數智人(ren)工(gong)廠和小樣本(ben)數智人(ren)生產平(ping)臺,面對不同的(de)(de)企業需求,提供相應(ying)的(de)(de)企業服(fu)務,幫助各(ge)大(da)企業打(da)造自己(ji)的(de)(de)數智人(ren)。
如何打造一個深受用戶喜愛的數字人,成為所有數字人玩家共同的考題。而在這道題上,騰訊已經交出自己的答卷——打造數字(zi)人工廠(chang)。當騰訊的小樣(yang)本數智(zhi)人生產平臺走入產業(ye)(ye)深處將會(hui)碰撞出什么樣(yang)的火(huo)花?我們也將持續(xu)關注(zhu)數字(zi)人在產業(ye)(ye)深處應用的最新動(dong)向(xiang)。