
智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 漠影
讓《長安(an)的荔枝》男主角李善德親自(zi)推薦自(zi)己的電視劇(ju)是什(shen)么體驗(yan)?
這段讓人難辨真假的音頻并非真正出自李善德之口,其應用的正是科大訊飛近期升級的聲音(yin)復刻技術,李善德痛斥右相的段落中,聲調拔高,語速加快,聲音復刻技術呈現的李善德推薦《長安的荔枝》音頻中,不僅將聲線高度契合,而且把語音中包含的情緒也復刻得非常到位。值得注意的是,這段AI“李善德”的學習素材僅需不到10s。
去年,訊(xun)飛星(xing)火App的小星(xing)暢聊里就上(shang)線(xian)了一句話聲音(yin)復(fu)刻(ke)功能,如今,訊(xun)飛星(xing)火新版聲音(yin)復(fu)刻(ke)功能也已更(geng)新,人人都可擁(yong)有同(tong)聲線(xian)的數字分身。同(tong)時(shi),新一代的聲音(yin)復(fu)刻(ke)能力也已正式上(shang)線(xian)訊(xun)飛開放平臺,開發者(zhe)可通過API進行接入和調用。
在App中創建聲音(yin),用戶只需要選擇性別,朗(lang)讀一句話,就可以快速生成(cheng)自定義聲音(yin),并與之進行對(dui)話。
作為AI語音王者,科大訊飛在語音技術領域的深耕,以及在智能駕駛、教育等人機交互場景的廣泛應用,已經使其成為全球語音領域的頭部企業,其語音相關項目不僅兩次獲得國內知識產權領域的最高獎項中國專利金獎,同時還斬獲(huo)國家科學技術進步獎一等獎。
在(zai)這一背(bei)景下,科(ke)大訊飛(fei)聲音復(fu)刻技(ji)(ji)術的背(bei)后到(dao)底有哪(na)些(xie)黑科(ke)技(ji)(ji)?語音技(ji)(ji)術將帶給科(ke)技(ji)(ji)行業(ye)什(shen)么樣的想象空間?智東西將從訊飛(fei)星火App的相(xiang)關功能體驗出發,找到(dao)這些(xie)問題的答(da)案。
一、秒級自定義AI發音人,蠟筆小新、哪吒跨時空交流
如今更貼近人類(lei)日常交流的語音交互(hu)模式,幾乎已經成為聊天機器人的必備(bei)功能。
訊飛星火App的(de)語音通(tong)話(hua)功能中,不僅支持其內置的(de)14位發(fa)音人與用戶流暢對(dui)話(hua),還可(ke)以通(tong)過(guo)一句話(hua)創(chuang)建(jian)屬于自己的(de)發(fa)音人。
可以看到,App中已經(jing)預設了14個發(fa)音人(ren),包(bao)含普通話、英文、方言、日語(yu)、俄語(yu)等多種(zhong)語(yu)音包(bao)。
想(xiang)要(yao)自己(ji)創建(jian)(jian)發音人的過程也極(ji)為簡單,用戶只需選擇性別,然后根(gen)據提示朗讀屏幕(mu)上的一句話,等(deng)待(dai)幾秒(miao)鐘就能(neng)創建(jian)(jian)成功,同時為了讓其更(geng)符合用戶的使用習慣(guan),還能(neng)添加相應人設。
下面有幾個(ge)案例來感受一下一句話聲(sheng)音復刻(ke)技術(shu)的驚艷效果,用這項(xiang)技術(shu)對用戶熟知的影視劇角色、動漫人物聲(sheng)音進行了復刻(ke),通(tong)過(guo)對比(bi),我們可以(yi)更為直觀地感受到其聲(sheng)音合成的相似(si)度與準(zhun)確度。
科大(da)訊飛的(de)聲音復刻(ke)技術(shu)還(huan)讓兩(liang)大(da)經(jing)典(dian)影視(shi)劇中的(de)甄(zhen)嬛(huan)和佟(tong)掌柜來了(le)一場世(shi)紀交流,當AI用《甄(zhen)嬛(huan)傳》中甄(zhen)嬛(huan)的(de)復刻(ke)聲線說出(chu)《武林外傳》佟(tong)掌柜的(de)經(jing)典(dian)臺詞時(shi),僅需(xu)不到6s的(de)音頻即可瞬間讓《武林外傳》資(zi)深觀(guan)眾來了(le)一波(bo)穿越。
原音頻:
聲音復刻效果:
其合成音頻(pin)中,不僅復刻(ke)了甄嬛的聲線,語氣(qi)也十分平(ping)緩,訴說過程銜接(jie)自然流暢(chang)。
第三是(shi)動漫(man)形象,基于(yu)科大訊飛(fei)的(de)聲(sheng)音復刻技術,哪吒和(he)蠟筆小新實(shi)現(xian)了跨(kua)時空(kong)交流。
通過(guo)不到7s的(de)音(yin)頻(pin)素材進(jin)行學習,就可以復刻蠟(la)筆(bi)小新的(de)聲音(yin),并讓其準確說(shuo)出哪吒的(de)經典打油詩。
原音頻:
聲音復刻效果:
同時,哪吒也可以開(kai)口說蠟筆小(xiao)新的(de)(de)經典(dian)臺詞,與其(qi)寵物小(xiao)白隔空交流(liu),復刻的(de)(de)音(yin)頻(pin)中,既保留(liu)了哪吒的(de)(de)獨(du)特聲線,還有其(qi)特殊的(de)(de)尾音(yin)上揚特征。
原音頻:
聲音復刻效果:
這些音頻的實(shi)現(xian)效(xiao)果,有(you)的僅需(xu)要原(yuan)角(jiao)色不到5s的音頻就能實(shi)現(xian),且可以(yi)看出(chu)上(shang)面幾段(duan)音頻都沒(mei)有(you)出(chu)現(xian)明顯的卡(ka)頓,還復刻了聲調上(shang)揚、語速、說話(hua)節奏等(deng)細微的特征。
二、從音色到停頓、發音流暢自然,打造三階段層次化語音建模框架
對于這些深入人心(xin)的(de)影(ying)視角(jiao)色,用戶在一(yi)些更為細節的(de)發音(yin)特征上或許感(gan)知并不是很強烈,但在訊飛星(xing)火App自定(ding)義創(chuang)建聲(sheng)音(yin)的(de)場景中,用戶對發音(yin)人復刻(ke)效果(guo)的(de)要求更高(gao),這對聲(sheng)音(yin)復刻(ke)功能提出了更大挑戰(zhan)。
因(yin)此想要實現“一句(ju)話聲音復刻”的(de)(de)背后,需要面臨三大關鍵(jian)難題:如何(he)從一句(ju)話中精(jing)準提煉(lian)用戶(hu)發(fa)音的(de)(de)多(duo)種特性、如何(he)保證聲音相(xiang)似、如何(he)準確(que)還原用戶(hu)的(de)(de)停頓、發(fa)聲、重音習(xi)慣以及口癖等。
在此基礎(chu)上(shang),科大訊飛為(wei)個性(xing)化的語(yu)(yu)音(yin)合成打造了“三(san)階段層次化語(yu)(yu)音(yin)建模框架”,試圖將用戶輸入一句(ju)話音(yin)頻的各種(zhong)聲音(yin)信息都捕(bu)捉到位。
具(ju)體(ti)來看(kan),該(gai)框架具(ju)體(ti)分為三個階段,通(tong)過星火底座大模(mo)型精確捕捉發音(yin)規(gui)律和韻律特征、在音(yin)色恢復階段解耦并重(zhong)構聲(sheng)(sheng)學特征、通(tong)過聲(sheng)(sheng)碼器恢復高保真波形(xing)。
傳統聲音復刻(ke)技術往往需(xu)要數小時(shi)甚至數十小時(shi)語(yu)音樣本進行訓練,而基于星火語(yu)音大模型底座能力,其可以快速(su)從短(duan)時(shi)間音頻中(zhong)提取(qu)語(yu)音中(zhong)的(de)基礎(chu)元素。
其第二個階段的本質(zhi)正是(shi)通(tong)過將語音的音色屬性從復雜的混合信號中剝離出來,并按照目標需求重新組合關鍵特征,以(yi)提高音(yin)色(se)還(huan)原的(de)準確性(xing)。
第三個階段中的(de)高保真(zhen)波(bo)形(xing)恢(hui)復,能(neng)夠盡可能(neng)還原(yuan)原(yuan)始音頻(pin)的(de)時域細節、頻(pin)譜特征和(he)動態(tai)范(fan)圍。
據了解,這(zhe)套語(yu)(yu)(yu)音(yin)建模(mo)框(kuang)架突破語(yu)(yu)(yu)義表征,采(cai)用mel VQ-AE模(mo)型(Mel頻譜向量(liang)量(liang)化自(zi)編碼器(qi))結合語(yu)(yu)(yu)音(yin)自(zi)監督預訓練編碼器(qi),并(bing)引入音(yin)色(se)(se)最小互信息約束,能解耦(ou)出音(yin)色(se)(se)無關的離散語(yu)(yu)(yu)義token,實現了發音(yin)內容與(yu)音(yin)色(se)(se)特征的可控分離,并(bing)可以提升語(yu)(yu)(yu)義大模(mo)型的建模(mo)穩定性。
同時,讓合成(cheng)聲(sheng)音更為自(zi)然(ran)還有一(yi)大(da)關(guan)鍵是,發音需流(liu)暢且(qie)音色(se)一(yi)致(zhi),因此(ci)在音色(se)解耦(ou)表征的基(ji)礎上,科(ke)大(da)訊飛進(jin)一(yi)步通過音色(se)增強(qiang)以及強(qiang)化學(xue)習,來實現聲(sheng)音復刻的人機難辨(bian)。
其(qi)中(zhong),音(yin)(yin)(yin)色(se)增強是(shi)指(zhi)在聲(sheng)(sheng)學(xue)模(mo)型(xing)中(zhong),研(yan)究人員(yuan)融合(he)全局聲(sheng)(sheng)紋嵌(qian)入與局部(bu)幀(zhen)級音(yin)(yin)(yin)色(se)編碼,提(ti)取細粒度音(yin)(yin)(yin)色(se)特征,并構建聲(sheng)(sheng)紋空間(jian)語義(yi)一致性損失函數,提(ti)升(sheng)音(yin)(yin)(yin)色(se)恢復的(de)相(xiang)似(si)度;主要是(shi)通(tong)過語音(yin)(yin)(yin)魯棒性評價模(mo)型(xing)和人工標注構建偏好數據集,采用基于DPO的(de)強化學(xue)習(xi)策略提(ti)升(sheng)合(he)成語音(yin)(yin)(yin)的(de)穩定(ding)性和自(zi)然流(liu)暢度。
在這(zhe)些(xie)綜合(he)(he)作(zuo)用下,科大訊飛的語音合(he)(he)成技(ji)術已經可以做到(dao),只需一句話錄音就能(neng)完整捕捉用戶(hu)喉腔共鳴、口音特(te)點、氣息(xi)流轉等發音特(te)征,并精(jing)準還原用戶(hu)的停頓習慣、情感起伏和呼吸節奏。
基于此才能(neng)達(da)到真人難以區分的復刻效果,為(wei)車載語音交互系統、個性化智(zhi)能(neng)客(ke)服、智(zhi)能(neng)體(ti)交互的應用場景打開更大想象空間(jian)。
三、多次拿下業界國家級大獎,橫縱布局加速語音技術落地
一直以來,語音(yin)都是(shi)人類最自然的交(jiao)流方式,因此(ci)業(ye)界一直圍繞著模擬人類對話(hua)過程、使機器能夠理解并回應(ying)人類語音(yin)指(zhi)令進行探索(suo)。
作為(wei)(wei)國內AI領域國家隊,科(ke)大訊飛早在(zai)2011年就肩負起(qi)語音及語言(yan)處(chu)理國家工程實(shi)驗室(shi)(后升級為(wei)(wei)工程研究中(zhong)心)的(de)重任,并成為(wei)(wei)全(quan)球語音技術領域的(de)頭部玩(wan)家。
時(shi)(shi)至今日(ri),科大(da)訊(xun)飛在語音領域已經碩果累(lei)累(lei),最(zui)直觀的(de)(de)數據(ju)就是,本月(yue),科大(da)訊(xun)飛憑(ping)借“基于時(shi)(shi)延估計的(de)(de)回聲(sheng)消除方法及裝(zhuang)置”專利入(ru)選第二十五屆(jie)中(zhong)國專利金(jin)獎(jiang)項(xiang)目(mu)名單(dan),這也(ye)是其第二次獲得這一(yi)國內知識產(chan)權領域的(de)(de)最(zui)高獎(jiang)項(xiang),同(tong)時(shi)(shi)也(ye)是安(an)徽省唯一(yi)一(yi)家兩次獲得中(zhong)國專利金(jin)獎(jiang)的(de)(de)單(dan)位。
此外,去年其“多語種智能語音關鍵技術及產業化”項目還斬(zhan)獲國家科學技術進步獎一等獎。
在技術(shu)深(shen)耕之下,科大訊飛(fei)不僅實現了在語音(yin)識別、語音(yin)合成領域的準(zhun)確度、識別語種、相似(si)度等各項性能的縱向提(ti)升,還橫向拓寬了語音(yin)技術(shu)的應用場景,從識別、翻(fan)譯到合成,以及(ji)智(zhi)能駕駛、智(zhi)能客服、教育等諸多場景。
去年(nian)9月,科大訊(xun)飛在語音(yin)識別(bie)領域的賽事CHiME-8奪冠(guan),并(bing)實現五(wu)連冠(guan)。語音(yin)識別(bie)首(shou)次實現全(quan)國地(di)級市(shi)方(fang)言全(quan)覆蓋,包括288個(ge)地(di)市(shi)202種方(fang)言。
此前科大訊飛正式發(fa)(fa)布的星火(huo)(huo)語(yu)音大模(mo)型,實(shi)(shi)現(xian)74個語(yu)種、方言免切(qie)換對(dui)話;且根據真實(shi)(shi)業(ye)務構建的語(yu)音輸入場景測試集,星火(huo)(huo)語(yu)音大模(mo)型37個語(yu)種語(yu)音識別效果領先OpenAI發(fa)(fa)布的開源(yuan)語(yu)音識別模(mo)型Whisper-V3.5。
同時其(qi)能(neng)在(zai)強干(gan)擾場(chang)(chang)景(jing)(jing)下(xia)實現(xian)精準語音(yin)識別,在(zai)兩人疊混(hun)(hun)場(chang)(chang)景(jing)(jing)、三人疊混(hun)(hun)場(chang)(chang)景(jing)(jing)中和-5dB高噪音(yin)場(chang)(chang)景(jing)(jing)中的語音(yin)轉寫效(xiao)果遠超Whisper和Gemini。
在此基礎上,星火語音(yin)大模型已經(jing)深度運用在各(ge)種人機交互場景(jing)中(zhong),如智(zhi)能(neng)座艙、教育等諸多領域。
可見語音技(ji)術的攻關非一日(ri)之功(gong),在技(ji)術深耕與(yu)場景應用(yong)上的雙重發(fa)力,使得(de)科大訊飛(fei)的語音技(ji)術正在全球扮演著愈發(fa)重要的角色。
結語:更自然流暢的語音交互,正擴寬AI應用場景
語(yu)音交(jiao)互使人(ren)們可以(yi)通(tong)過說話來操作設備和獲取信息,無需手動(dong)輸入或操作復雜(za)的(de)界(jie)面。如今隨著技(ji)術的(de)發展,語(yu)音識(shi)別和合成技(ji)術為聊天機器(qi)人(ren)等(deng)AI工具賦予(yu)了自然交(jiao)互能力,使其(qi)與(yu)用戶的(de)交(jiao)流更加流暢。
與(yu)此同(tong)時(shi),企業也在不斷(duan)探索新的算(suan)法和模(mo)型,在突(tu)破語(yu)音識(shi)別、合(he)(he)成準確率的同(tong)時(shi),拓寬其應用場景,使(shi)得語(yu)音與(yu)自然語(yu)言處(chu)理、計算(suan)機視覺(jue)等技(ji)術(shu)相互(hu)融(rong)合(he)(he),以(yi)推動(dong)AI的發(fa)展(zhan),而(er)科大訊飛在技(ji)術(shu)融(rong)合(he)(he)與(yu)場景落地方面的積累,已(yi)展(zhan)現出顯著(zhu)的競爭力。