
智東西(公眾號:zhidxcom)
作者 | 韋世瑋
編輯 | 心緣
不到半年(nian),僅成(cheng)立兩(liang)年(nian)的TTS(語音合成(cheng))科技創企倒(dao)映有(you)聲又開啟新(xin)一輪(lun)融資了。
如今(jin),電子書、廣播劇等以(yi)聲音(yin)(yin)為載體的(de)“耳朵經濟”快速興(xing)起(qi),其(qi)(qi)中有些堪比專業播音(yin)(yin)員(yuan)的(de)聲音(yin)(yin),其(qi)(qi)實是由人工智能(AI)合成出(chu)來的(de)。
相比(bi)真人播音員,AI語音合(he)成技術(shu)不(bu)僅大大縮(suo)短(duan)配音時間,而且更加(jia)節約制作(zuo)成本和人力成本。以提(ti)供(gong)語音合(he)成系(xi)統及解決方案起(qi)家的倒映(ying)有聲,即是在(zai)做(zuo)這樣的事(shi)。
過去一年,倒映有(you)聲上(shang)線的有(you)聲讀物制(zhi)作(zuo)(zuo)平臺,其AI主播每日單機生產速度已超500萬(wan)字,錄(lu)制(zhi)成(cheng)本可節約超90%。今年3月,它與(yu)中央廣(guang)(guang)播電視總臺音(yin)頻(pin)客戶端“云聽”APP達成(cheng)合作(zuo)(zuo),開展(zhan)基于央廣(guang)(guang)總臺IP和融(rong)媒體(ti)領域的AI產品研發,這(zhe)意味(wei)著其業務已成(cheng)功打(da)入“國家隊(dui)”。
倒映有(you)聲的核(he)心團隊大(da)多(duo)出身于百度、微軟、阿(a)里等(deng)公司,早期(qi)小愛同學、小度智能音(yin)箱(xiang)、百度語(yu)(yu)音(yin)導航、百度呼叫中心等(deng)語(yu)(yu)音(yin)產品(pin)底層技術的構建(jian),都少不了這群技術專(zhuan)家(jia)的身影。
基于端到端神經網絡和深(shen)度學習合成器,倒映(ying)有聲自研(yan)了情緒(xu)和情感(gan)控制模(mo)塊,在音色模(mo)擬、情感(gan)展現(xian)、定(ding)制化服務、多語種等方面都已達(da)行業領先水平。
其融資(zi)(zi)也在快(kuai)速推進中。此(ci)前,這家創(chuang)企已完成2019年5月300萬元的天使輪融資(zi)(zi)、今(jin)年5月千萬級人民幣的Pre-A輪融資(zi)(zi),并正在啟動A輪融資(zi)(zi),目(mu)標規模(mo)為(wei)2000-3000萬元,以加(jia)快(kuai)技術研發(fa)、加(jia)速垂(chui)直場(chang)景的產品落(luo)地。
在北京建(jian)外SOHO的(de)一(yi)間(jian)辦公室里,這家團隊規模不到(dao)20人的(de)新興(xing)企業,正醞釀著一(yi)場圍繞語音(yin)合成領域的(de)新一(yi)輪搶(qiang)位賽。
近(jin)日(ri),智東(dong)西走進他們(men)(men)的(de)(de)北京總部(bu),通(tong)過與(yu)其創始團隊展開深入(ru)交流(liu),我(wo)們(men)(men)了解到更多這家(jia)公司的(de)(de)誕(dan)生與(yu)成長(chang)故事,也看到了不少他們(men)(men)對AI語音技(ji)術創新(xin)的(de)(de)探索和堅持。
▲從(cong)左(zuo)到右分別為倒(dao)映有聲聯(lian)合創始(shi)人兼(jian)CTO李驍、倒(dao)映有聲創始(shi)人兼(jian)CEO肖(xiao)朔、倒(dao)映有聲聯(lian)合創始(shi)人兼(jian)CMO何培成
一、助推百度小米智能音箱誕生,倒映有聲的起航
2013年左右(you),碩士畢業于北京(jing)航(hang)(hang)空航(hang)(hang)天大學云計(ji)算專(zhuan)業的(de)肖朔,加(jia)入(ru)了百度語音技(ji)術部工(gong)(gong)作。同期加(jia)入(ru)的(de),還有剛從英國帝(di)國理工(gong)(gong)大學人(ren)工(gong)(gong)智能專(zhuan)業碩士畢業回國的(de)李驍。這時,百度的(de)人(ren)工(gong)(gong)智能(AI)業務才剛剛起步。
在百(bai)度期間,肖朔(shuo)與李(li)驍所(suo)在的團隊開發了國內首款(kuan)情感語言合成系統(tong),并先后研發了小度智(zhi)能(neng)音箱、百(bai)度呼叫中(zhong)心等(deng)產品(pin),給(gei)未來百(bai)度智(zhi)能(neng)語音生態的構建和豐富打下了重要基礎。
此外(wai),二(er)人(ren)還(huan)曾任職于(yu)獵(lie)豹移動投資的(de)AI創企——獵(lie)戶(hu)星空,在一年時間里與初創團隊共同參與了小米(mi)首(shou)款小愛智能(neng)音箱(xiang)的(de)開發項目。
在這幾年摸爬滾打的(de)(de)過程中,正(zheng)是這兩段從0到1構建技術方(fang)案(an)的(de)(de)經(jing)(jing)歷(li),讓(rang)肖朔(shuo)與李驍(xiao)逐漸產生了(le)創(chuang)(chuang)業的(de)(de)想法。恰好(hao)在獵(lie)戶星空(kong)打拼的(de)(de)經(jing)(jing)歷(li),也(ye)讓(rang)他們接觸了(le)許多創(chuang)(chuang)意知識(shi)和經(jing)(jing)驗,“消除了(le)對創(chuang)(chuang)業的(de)(de)恐懼感(gan)。”
2019年,隨著(zhu)百度(du)語(yu)音技術(shu)(shu)已步(bu)入成熟發展的(de)正(zheng)軌,其語(yu)音技術(shu)(shu)戰略重點已不(bu)在(zai)語(yu)音合成,更多是聚(ju)焦在(zai)語(yu)音交互。與此(ci)同時,得益于硬件設施的(de)完善、算力(li)的(de)增(zeng)強,以及深(shen)度(du)學習應用場景的(de)進(jin)一步(bu)拓展,曾一直處于早(zao)期發展階段的(de)語(yu)音合成技術(shu)(shu)終于有了變革(ge)性(xing)突(tu)破。
因(yin)此(ci),肖(xiao)朔和李(li)驍決定離(li)開(kai)百(bai)度,開(kai)啟創業生涯。2019年3月,倒(dao)映有聲于杭州正式注冊成(cheng)立,由(you)于跟隨他們(men)一同出(chu)來創業的還有不少原百(bai)度團隊的伙伴(ban),他們(men)也選擇將公司總部“落戶”北京(jing),并(bing)在(zai)成(cheng)立兩個月后拿下300萬人民幣的天(tian)使輪融資。
肖朔和李驍的創(chuang)業之旅正式起(qi)航,倒映有聲(sheng)的挑戰也才(cai)剛(gang)剛(gang)開始(shi)。
二、押注有聲書和AI新聞播報,語音合成想象空間巨大
不過,AI語音的賽道如此廣泛,倒映有聲為何堅定地選擇語音合成賽道?
在肖(xiao)朔看(kan)來(lai),語音(yin)識別是(shi)最早爆發(fa)的(de)語音(yin)技術(shu),科大訊飛、云(yun)知(zhi)聲等(deng)公司已深耕多年,做出(chu)了智(zhi)能(neng)(neng)醫療、智(zhi)能(neng)(neng)翻譯筆、智(zhi)能(neng)(neng)會議錄入系統等(deng)成熟產品,給新玩家留(liu)下(xia)的(de)市場機會并不多。
技術方面,李驍認為目前語音識別技術已進入了單純比拼識別準確率的成熟階段。相比之下,語音合成仍有許多待發掘的細分場景,包括廣播劇、有聲書、游戲配音,甚至亞文化(hua)中的虛(xu)擬偶(ou)像等,都是未來的落地方向,想象空間巨大(da)。
例(li)如(ru),以往(wang)有聲書、廣播劇等長(chang)音頻作品在制作過程中(zhong),需要(yao)人工(gong)對大量(liang)文字腳本進行(xing)前期畫本、中(zhong)期配音、后期剪輯(ji)等工(gong)作,整(zheng)套(tao)流程要(yao)花費幾個(ge)(ge)月時間,還(huan)涉及不(bu)少人工(gong)成本。但如(ru)果使用語(yu)音合成技術,能極大地壓縮各個(ge)(ge)環節中(zhong)的時間和財務成本,只(zhi)需幾天(tian)甚至幾個(ge)(ge)小時,就能完成一個(ge)(ge)長(chang)音頻作品的制作。
再比(bi)如影視和游戲配(pei)(pei)音(yin)中,為了(le)(le)保(bao)證用戶的(de)(de)觀影及游戲體驗,制作(zuo)團隊需(xu)要花大(da)量(liang)時(shi)間(jian)(jian)篩選適合角色的(de)(de)配(pei)(pei)音(yin)員,同時(shi)還需(xu)考(kao)慮配(pei)(pei)音(yin)員的(de)(de)休息時(shi)間(jian)(jian)、續集(ji)聲(sheng)(sheng)音(yin)的(de)(de)連(lian)貫性等,這些也對(dui)制作(zuo)周期(qi)帶來了(le)(le)許(xu)多不(bu)確定(ding)性。若采用語音(yin)合成技(ji)術,只需(xu)輸(shu)入腳本就能快(kuai)速生成適合人物形(xing)象和作(zuo)品(pin)需(xu)求的(de)(de)聲(sheng)(sheng)音(yin)。
不過,由(you)于用(yong)戶對語音合成(cheng)技術的(de)體感要求非常高,如果(guo)技術無法(fa)達到媲(pi)美真人的(de)效果(guo)水(shui)平,就很難有(you)用(yong)戶愿意付費,同(tong)時用(yong)戶付費的(de)意愿與技術效果(guo)的(de)提高成(cheng)正比。
“因此語音合成技術是整個語音交互技術鏈路上最后爆發的賽道,一旦爆發,市場空間會更大。”肖朔評價。
目前,倒映有聲主要以有聲書和AI新聞播報兩大場景為切入點,為創作者、版權方和融媒體平(ping)臺等客戶提(ti)供(gong)高產能、低(di)成本的音頻(pin)制作服務。
有聲書方面,倒映有聲主(zhu)要(yao)提(ti)供有聲讀物(wu)交(jiao)易制(zhi)(zhi)作(zuo)平(ping)臺,用戶通過該平(ping)臺可(ke)實現從(cong)覆(fu)蓋文稿(gao)畫本到(dao)配音錄(lu)制(zhi)(zhi),再到(dao)音頻剪輯(ji)的全流(liu)程云端制(zhi)(zhi)作(zuo),還可(ke)自主(zhu)選擇全自動(dong)/半自動(dong)制(zhi)(zhi)作(zuo),以(yi)及純AI主(zhu)播、AI人(ren)聲+真人(ren)主(zhu)播錄(lu)制(zhi)(zhi)等(deng)。
例如在前期處(chu)理環節,平臺(tai)可實現(xian)對文稿的(de)篩選(xuan)和清洗,如果是廣(guang)播劇級別的(de)內容,還能對內容進(jin)行深層次的(de)改造,包(bao)括配音的(de)角色劃分、性格描述(shu)刻(ke)畫、情緒風(feng)格等要素,以改編成適合(he)收(shou)聽的(de)文本。
AI新聞播報方面,倒映有聲與(yu)中央廣播(bo)電視總(zong)臺音(yin)頻客(ke)戶端(duan)“云聽”APP合(he)作打造AI新聞(wen)主播(bo),提供音(yin)頻內容服務的一(yi)站式解決方(fang)案。和國(guo)內其他(ta)AI新聞(wen)主播(bo)相比,倒映有聲的播(bo)音(yin)效(xiao)果(guo)情緒更(geng)加飽滿、自然(ran),在音(yin)色模擬、情感展(zhan)現、多語種等方(fang)面都已達業內領(ling)先水(shui)平。
▲倒映有聲語音合成技術在云聽APP上(shang)的應用實例
三、背后的技術城池構建,語音合成的三大優勢
不管(guan)是有聲(sheng)書(shu)還是AI新聞播報背(bei)后,都離不開倒映(ying)有聲(sheng)在語(yu)音合(he)成領域的技術積累(lei)和(he)創新。
李(li)驍談(tan)道,以前傳統(tong)的語音(yin)合(he)成(cheng)技術主要有兩種(zhong)方(fang)式,分別為拼(pin)接(jie)法和參數法。例如最(zui)初的小(xiao)米小(xiao)愛(ai)同學就是采用拼(pin)接(jie)法,幾乎使用真人的聲音(yin)片段進行算(suan)法拼(pin)接(jie)組合(he),優勢是音(yin)色和自然(ran)度等效果(guo)好,缺點(dian)在于操作復雜度極高,對(dui)數據量(liang)需求也非常大。
“當時我們讓配音員錄了將近半年時間,前(qian)后加起(qi)來上百(bai)個小(xiao)時,才將小(xiao)愛同(tong)學打磨到(dao)一(yi)個非常好(hao)的水(shui)平。”李驍說(shuo)。
隨著端到端深度學習逐步拓展到語音合成領域,語音合成技術得到了質的飛躍。
一(yi)方(fang)(fang)面(mian)(mian),基于深度學習(xi)的(de)語音合成技術,其內部計算模塊和網(wang)絡構建更為復(fu)雜(za)(za)(za),不管(guan)是(shi)參(can)數(shu)量還(huan)是(shi)技術復(fu)雜(za)(za)(za)度,都遠(yuan)遠(yuan)超過以往水平(ping);另一(yi)方(fang)(fang)面(mian)(mian),內部結構的(de)復(fu)雜(za)(za)(za)也(ye)使(shi)得模型搭(da)建完成后,后續的(de)使(shi)用會變(bian)得非常簡單,無需再用大量數(shu)據去(qu)做底層支撐(cheng)。
▲智(zhi)能語音(yin)合成結構(圖源:頭豹研究院(yuan))
整體來看,倒映有聲的語音合成技術主要擁有三方面核心優勢。
一是擬真度,這是語音合成技術的核心。語音(yin)合成通常覆蓋有(you)聲繪本、有(you)聲讀物、新(xin)聞(wen)播報、呼叫中心等多個應用(yong)場景,不(bu)同場景下(xia)的(de)技術表達方式與操作邏輯(ji)都有(you)著(zhu)較大區別,例如小(xiao)孩兒、成年人、老年人等不(bu)同音(yin)色,或是(shi)模擬不(bu)同動物、怪獸的(de)發音(yin),都是(shi)一個較大的(de)課題。
倒(dao)映(ying)有(you)聲則能大(da)大(da)減少語(yu)音(yin)合成(cheng)和真(zhen)人(ren)表達之間的(de)差異性,拉(la)近合成(cheng)聲與真(zhen)人(ren)之間的(de)距離(li),合成(cheng)后的(de)聲音(yin)采(cai)樣率達48kHz,更接近真(zhen)人(ren)在(zai)錄(lu)(lu)音(yin)棚中錄(lu)(lu)制(zhi)的(de)聲音(yin),而市場上主流合成(cheng)采(cai)樣率為16kHz。
在多(duo)情感方(fang)面,倒映有聲的(de)語音合(he)成技術還(huan)能(neng)將(jiang)情感表達(da)得(de)更精準、細膩和豐(feng)富。同(tong)時,它(ta)還(huan)支持英文(wen)、中英文(wen)混合(he)合(he)成,跨語種定(ding)制成本低。
二是定制化能力。基于(yu)過(guo)去兩年的(de)(de)數據(ju)積累,倒映(ying)有聲(sheng)在自己平臺(tai)上已(yi)沉淀了上千位真人主播,其語(yu)音(yin)(yin)合(he)成(cheng)定(ding)制化能(neng)力已(yi)達到(dao)只需200句話(hua)(約(yue)30分(fen)鐘時長),就能(neng)幾乎100%還原一個人的(de)(de)聲(sheng)音(yin)(yin),并且能(neng)達到(dao)商業化落地的(de)(de)水平。
甚至用(yong)戶只(zhi)需錄10-15句話,倒映有聲(sheng)就(jiu)能將聲(sheng)音以(yi)(yi)90%的相似度“克(ke)隆”下來(lai),但“克(ke)隆”下來(lai)的主要是聲(sheng)線,句子數非(fei)常小,所以(yi)(yi)在情緒還(huan)原上還(huan)需其他(ta)算法技術進行彌補。
三是語音合成技術的結合性。除了(le)語音(yin)合(he)成(cheng)這一單(dan)點技術外,倒映有(you)聲(sheng)還(huan)很(hen)關(guan)注與之強相關(guan)的上下(xia)游技術點。例(li)如在有(you)聲(sheng)讀物(wu)場景,倒映有(you)聲(sheng)已落地(di)了(le)全自動畫(hua)本(ben)能力,每(mei)句(ju)話(hua)該用(yong)哪個音(yin)庫、該用(yong)什么情感風(feng)格,都與語音(yin)合(he)成(cheng)技術有(you)著強相關(guan)的綁定關(guan)系。
四、有聲書行業高速發展背后,倒映有聲的下一步規劃
從2019年(nian)3月(yue)成立(li)至今,倒映有聲將近花了一年(nian)多(duo)時(shi)間在(zai)做底層技術(shu)的(de)打磨和積累,直到2020年(nian)5月(yue)開始正式商業化。2020年(nian)間,他們(men)9月(yue)跑通有聲書賽道,12月(yue)進入廣電融媒體(ti)賽道……其(qi)中最大的(de)變化在(zai)于聯合創始人兼CMO何培成的(de)加入。
“何校長補齊了我們的市場商務團隊,讓倒映有聲從一家純粹的技術輸出型公司,轉變成了產品服務公司。”肖朔提(ti)到,在這(zhe)個轉變中,公司(si)針對幾(ji)個垂直場景(jing)形成了(le)完(wan)整的產(chan)品服(fu)務,在打開市場局面的同時進一(yi)步擴充了(le)公司(si)營(ying)收。
“去年公(gong)司(si)主要聚焦在技術(shu)和產(chan)品階段,營收基(ji)數較(jiao)低。”何培成談道(dao),今年公(gong)司(si)營收出現了(le)明顯爆發,預(yu)計(ji)將有大幾百(bai)萬的收入,同比增(zeng)長700%。
今年,倒映有聲的主要目標還是集中在技術和市場兩個方面,一是夯實(shi)已切入的(de)有(you)聲書和AI新聞播報市(shi)場,做出標桿(gan)客戶(hu),實(shi)現(xian)更大規(gui)模收入的(de)同時提升市(shi)場占有(you)率(lv),這也是今年他們(men)最核心的(de)目標;二(er)是希望基于(yu)自身的(de)語音(yin)合成技術,延伸到更多(duo)商業場景。
至于技術方面,李驍認為目前語音合成的關鍵挑戰是如何讓情緒表達更加細膩,“這將(jiang)是(shi)我們(men)持續深挖的(de)點(dian),只(zhi)有把它攻克了,我們(men)才有可能讓語(yu)音(yin)合成(cheng)技術進入到(dao)更多場景中(zhong)。”他說(shuo),如何加強語(yu)音(yin)合成(cheng)在(zai)(zai)長音(yin)頻中(zhong)的(de)自然和流暢感也是(shi)一個(ge)難點(dian),因(yin)為目前(qian)語(yu)音(yin)合成(cheng)仍聚(ju)焦在(zai)(zai)單句的(de)合成(cheng)上。
簡單來說(shuo),現階(jie)段語(yu)音合成技(ji)術的最大瓶頸已(yi)不在算力上,而(er)是(shi)語(yu)音合成技(ji)術本(ben)身,如(ru)何才能用更好的數學模型來解釋人(ren)們發(fa)音的生理構造和原理,也(ye)許是(shi)語(yu)音合成技(ji)術下一(yi)個最重要的突(tu)破口。
因此倒映有聲(sheng)的(de)下一步技術研(yan)發方向(xiang),一方面將從(cong)深度出發,持續挖掘情(qing)感的(de)細膩表達(da),更好(hao)地控(kong)制在長文本上連貫的(de)漸(jian)強(qiang)、漸(jian)弱自(zi)然表達(da)。同時,更低成本的(de)定(ding)制化也是重點之一。
另一方(fang)面則從廣度出發(fa),加強(qiang)和語音合成強(qiang)相關的(de)(de)上(shang)下游技(ji)術(shu)鏈路,包括(kuo)自然(ran)語言處理(NLP)方(fang)面的(de)(de)自動(dong)角(jiao)色劃分、文本級(ji)情感預測(ce)等重(zhong)點。李驍(xiao)認為,再(zai)往下游走也有不(bu)少需要通過音頻(pin)驅(qu)動(dong)的(de)(de)場景(jing),例如語音驅(qu)動(dong)虛擬人物的(de)(de)面部表情或肢體表達(da)。
“整體(ti)來(lai)看,語音(yin)合成在有聲書(shu)和融媒體(ti)方向(xiang)的落地(di)都比較清晰了,真正挑戰是開拓增(zeng)量場景。”肖(xiao)朔(shuo)談(tan)道,未來(lai)他們也(ye)將向(xiang)東南亞地(di)區,以及(ji)俄羅(luo)斯、日本、韓國(guo)等非英(ying)文母(mu)語國(guo)家提供服務(wu),進一步拓展海外(wai)業務(wu)范圍。
結語:語音合成技術爆發潛力巨大
智能語音作(zuo)為當下(xia)(xia)發展如火如荼的(de)技(ji)術,已(yi)成為各產業(ye)智能化過程中不可或缺(que)的(de)重要工具(ju),尤其是語音交互和語音識別技(ji)術,已(yi)深入(ru)到人們(men)生活、工作(zuo)的(de)方方面(mian)面(mian)。相比之下(xia)(xia),語音合(he)成技(ji)術確實還未(wei)來到全(quan)面(mian)爆(bao)發的(de)節點。
但(dan)目前在語(yu)音合成賽道(dao)中(zhong),有聲書行業的市(shi)(shi)場規模正(zheng)保(bao)持著高速增(zeng)長(chang)(chang)。據(ju)市(shi)(shi)場研究機構(gou)艾媒咨詢數(shu)據(ju),中(zhong)國有聲書行業規模已(yi)從2016年(nian)(nian)的23.7億(yi)元(yuan)增(zeng)長(chang)(chang)至2019年(nian)(nian)的63.6億(yi)元(yuan),連(lian)續三年(nian)(nian)增(zeng)速超30%,預計2020年(nian)(nian)將(jiang)達到95億(yi)元(yuan)左(zuo)右(you)。
倒(dao)映有聲的(de)成立,無疑為語音合(he)成技術在更(geng)多(duo)領(ling)域的(de)融合(he)創(chuang)(chuang)新(xin)提(ti)供了一個值得借鑒的(de)商業(ye)樣本。這支創(chuang)(chuang)業(ye)團隊讓(rang)我們看到(dao)了語音合(he)成技術更(geng)廣(guang)闊的(de)想象空間,從有聲書到(dao)AI新(xin)聞播(bo)報,從游戲到(dao)影視劇,從機器人到(dao)虛擬主播(bo)……似(si)乎一切(qie)有視聽內容(rong)輸出的(de)場景(jing),都有著(zhu)不少潛(qian)在機會。
未來,隨著語(yu)音(yin)合成技術逐(zhu)步進入爆(bao)發階段,我們也期待(dai)它能給各行各業帶來更多創新(xin)性的(de)突(tu)破和蛻變。