
智東西(公眾號:zhidxcom)
文 | 寓揚
近日,在(zai)IWSLT(International Workshop on Spoken Language Translation)國際口語機器翻譯評測大賽上,搜狗(gou)擊敗(bai)其他對手獲(huo)得Baseline Mode(基線模型(xing))賽道冠軍。
IWSLT是國際口語機器(qi)翻譯評(ping)測中的最具(ju)影(ying)響力之一(yi)的大(da)(da)賽(sai),從2004年開(kai)始至今已(yi)舉辦15屆。本(ben)屆比(bi)賽(sai)吸引了搜狗、科(ke)(ke)大(da)(da)訊飛、阿里巴巴、愛爾蘭ADAPT中心、美國約翰霍普金斯大(da)(da)學、美國應用科(ke)(ke)技公司APPTEK、美國空軍研(yan)究實(shi)驗室AFRL等國內外知名大(da)(da)學、研(yan)究機構與公司參加。
▲右(you)為搜狗語音交(jiao)互中心技術(shu)總(zong)監陳偉(wei),左為機器翻譯負責人(ren)王(wang)宇光
圍繞搜(sou)狗(gou)在本屆口語機(ji)器(qi)翻譯測評大賽中的表現(xian)以及其(qi)背后的技(ji)術(shu)探索(suo)(suo),今天智(zhi)東西等少數幾家媒體與搜(sou)狗(gou)語音交互中心技(ji)術(shu)總監陳(chen)偉、機(ji)器(qi)翻譯負(fu)責(ze)人王宇光等人進(jin)行溝通,看(kan)看(kan)搜(sou)狗(gou)近(jin)兩年機(ji)器(qi)翻譯道路上(shang)又(you)有哪些(xie)新的探索(suo)(suo)。
一、賽道選擇出于實戰考量
本(ben)次的國際口語(yu)機(ji)器(qi)翻譯測評大賽(sai)主(zhu)要考驗(yan)的是AI從英語(yu)到德(de)語(yu)的語(yu)音翻譯,主(zhu)要分(fen)為兩個賽(sai)道(dao),一個是Baseline(基線)模型,另一個是端(duan)到端(duan)模型賽(sai)道(dao)。搜狗本(ben)次參加的是Baseline賽(sai)道(dao),并(bing)獲得該賽(sai)道(dao)的第(di)一名。
而(er)在(zai)(zai)本(ben)屆的端(duan)到端(duan)模型賽(sai)道上,科大訊飛則獲得了第一名。搜狗為(wei)何在(zai)(zai)本(ben)次比賽(sai)中選擇了Baseline的模型賽(sai)道而(er)非端(duan)到端(duan)賽(sai)道呢?
搜狗語(yu)(yu)音(yin)交互中心(xin)技術(shu)總監陳偉介紹道(dao),Baseline模型是目前做口語(yu)(yu)機器翻譯(yi)比較成熟的(de)方案,由機器像流(liu)水線(xian)一樣(yang)逐一進行語(yu)(yu)音(yin)識別(bie)、機器翻譯(yi)、語(yu)(yu)音(yin)合成等的(de)方案;而口語(yu)(yu)機器翻譯(yi)的(de)端到端意味著直(zhi)接(jie)輸(shu)(shu)入英語(yu)(yu)輸(shu)(shu)出德語(yu)(yu)口語(yu)(yu),目前還處于(yu)學術(shu)界的(de)一種探索,尚在應(ying)用的(de)早(zao)期。
他們在本次比(bi)賽(sai)中(zhong)選擇了(le)Baseline的(de)模型賽(sai)道,主要(yao)原因是出(chu)于實(shi)用性考量。2016年11月的(de)世(shi)界互聯(lian)網大會上(shang)(shang),搜狗(gou)便推出(chu)機器同聲傳譯技術,經(jing)過過去2年的(de)產品實(shi)戰(zhan),搜狗(gou)想要(yao)借助這場比(bi)賽(sai)檢驗(yan)自身在語音(yin)翻譯上(shang)(shang)的(de)實(shi)力。
陳偉稱(cheng),翻譯是搜(sou)狗幾個比(bi)較大(da)的(de)戰略(lve)方(fang)向(xiang)之(zhi)一,他們希望(wang)通過產(chan)品(pin)實(shi)戰把技術(shu)打磨好,并在真實(shi)的(de)場景中檢測(ce)一下自身(shen)實(shi)力。本次比(bi)賽其(qi)大(da)約(yue)投入十多(duo)人的(de)團隊(dui),主要來自內部語音識別、機器翻譯、NLP(自然語言處(chu)理)、數據資源等多(duo)個團隊(dui)。
此(ci)外,搜狗在機器翻譯的端(duan)到端(duan)應用上也(ye)有一些前沿性探索,但(dan)該技術短期內并(bing)不能落地(di)。
在(zai)他看來,小(xiao)領域(yu)可控制的(de)(de)端(duan)(duan)到(dao)(dao)(dao)端(duan)(duan)模型更(geng)有價值,比如語音識別(bie)或(huo)者機器翻譯這(zhe)樣一個(ge)環節的(de)(de)端(duan)(duan)到(dao)(dao)(dao)端(duan)(duan)在(zai)實際應用中更(geng)加可靠,而(er)端(duan)(duan)到(dao)(dao)(dao)端(duan)(duan)的(de)(de)口(kou)語機器翻譯至少(shao)還(huan)有5年(nian)以(yi)上的(de)(de)路要走。
二、要把語音識別、機器翻譯的中間環節做好
陳(chen)偉也借(jie)著這場(chang)口(kou)語(yu)機(ji)(ji)器(qi)(qi)翻(fan)譯比(bi)賽談了他們(men)對(dui)于機(ji)(ji)器(qi)(qi)翻(fan)譯同(tong)傳(chuan)的一些新思考,他稱早期認(ren)為機(ji)(ji)器(qi)(qi)同(tong)聲傳(chuan)譯就是語(yu)音(yin)識(shi)別+機(ji)(ji)器(qi)(qi)翻(fan)譯,近兩年在(zai)單點模型迭代的同(tong)時(shi),他們(men)在(zai)實際落地鐘(zhong)發現,要把(ba)語(yu)音(yin)識(shi)別與(yu)機(ji)(ji)器(qi)(qi)翻(fan)譯的中(zhong)間銜接環節(jie)做(zuo)好,才能夠真正(zheng)實現領先。
他(ta)說,“想要做好(hao)機器同聲(sheng)傳譯,不僅(jin)僅(jin)是要把語音(yin)識別(bie)、機器翻譯做好(hao),還要把中間環節做好(hao),這來自搜狗同傳產(chan)品、實踐(jian)中的積累。”
在Baseline這種(zhong)流水(shui)線式(shi)(shi)的(de)模(mo)(mo)型(xing)(xing)(xing)中,分為單點模(mo)(mo)型(xing)(xing)(xing)的(de)迭(die)代與不同(tong)環節之間的(de)銜接(jie)。在單點模(mo)(mo)型(xing)(xing)(xing)上,搜狗通過(guo)多模(mo)(mo)型(xing)(xing)(xing)融合(he)的(de)方(fang)式(shi)(shi)來做語音識別與機器(qi)翻(fan)譯(yi),保(bao)證不同(tong)維度(du)的(de)特(te)征,從而迭(die)代效果。
科大訊飛無疑是語音(yin)賽道一位資(zi)深的(de)老牌玩家(jia),當談及來(lai)自科大訊飛的(de)競(jing)爭時,陳(chen)偉稱,科大訊飛是一家(jia)很值(zhi)得尊(zun)敬的(de)公司,它(ta)們在技術(shu)細節上做的(de)很扎實。
但他(ta)認(ren)為搜狗在語音(yin)識別技術上(shang)(shang)并(bing)不輸于科大(da)訊飛(fei)。隨著2010年后深度神經網絡在語音(yin)識別與機器翻譯(yi)上(shang)(shang)的(de)應用,對于新技術,大(da)家都處于同一起(qi)跑線,這也(ye)是行業后入局者的(de)機會。同時,搜狗依(yi)托搜狗輸入法等產品,在數(shu)據上(shang)(shang)同樣具有優勢。
科(ke)大(da)訊(xun)飛(fei)的(de)(de)會議同(tong)傳(chuan)產品訊(xun)飛(fei)聽(ting)見最近鬧出(chu)一場風波,它主要采用語音識別將(jiang)語音轉換成中文(wen)文(wen)本,然后由人(ren)(ren)工結合文(wen)本翻譯成英文(wen)。針對這(zhe)一“人(ren)(ren)機耦合”概念,陳偉稱這(zhe)是(shi)一種AI應(ying)用的(de)(de)方式(shi),但一個成熟的(de)(de)人(ren)(ren)工同(tong)傳(chuan)是(shi)不(bu)需要看(kan)屏幕(看(kan)文(wen)字(zi))的(de)(de),人(ren)(ren)機結合應(ying)該(gai)以提升效率、降低成本為前提。此外,他們團隊希望在未來3~5年內,搜狗同(tong)傳(chuan)能夠(gou)達到(dao)人(ren)(ren)類的(de)(de)一般同(tong)傳(chuan)水平。
同(tong)時,他(ta)也談道,目(mu)前(qian)同(tong)聲傳(chuan)(chuan)譯(yi)領域還存在(zai)很(hen)多問(wen)(wen)題有待解決:其(qi)一是機(ji)器同(tong)傳(chuan)(chuan)具有很(hen)強的領域屬性(xing),而(er)在(zai)領域之外或者大量專業領域則效(xiao)果一般;其(qi)二口音問(wen)(wen)題、重復詞等也是翻譯(yi)中(zhong)的一個(ge)難(nan)點,其(qi)三(san)算(suan)法中(zhong)還存在(zai)一些(xie)亟待解決的問(wen)(wen)題,比如中(zhong)譯(yi)英(ying)中(zhong)很(hen)大的問(wen)(wen)題是中(zhong)英(ying)混(hun)雜,這都值得長期投入和(he)推敲。
三、探索多模態、語音合成技術
2018年(nian)(nian)是人工智能深入落地場景的一年(nian)(nian),搜(sou)狗(gou)也將(jiang)AI技術落地到(dao)輸(shu)入法、出(chu)行/旅(lv)行、大會同傳等領域。在B端上,搜(sou)狗(gou)也開始將(jiang)自身的AI能力對外輸(shu)出(chu),比如(ru)其AI能力已經上線到(dao)OPPO、vivo的手機(ji)中。
而(er)在AI技(ji)術探索上,陳偉介紹了(le)搜狗在多(duo)模態、語音合成等方(fang)面(mian)的進展。
2016年搜(sou)狗對外發布搜(sou)狗知音(yin)引擎,但最初它是(shi)一(yi)個以語(yu)音(yin)為主的(de)(de)單模態(tai)引擎,但語(yu)音(yin)在表達上是(shi)較為單薄的(de)(de),近期搜(sou)狗將(jiang)語(yu)音(yin)、唇語(yu)、圖片等都加入知音(yin)引擎中,從而具備多模態(tai)表達的(de)(de)能(neng)力。
在語音(yin)合(he)成(cheng)方面,他展示了一個(ge)變(bian)聲應用,你隨便說一句話后(hou),就(jiu)可以模(mo)仿其他人的(de)聲音(yin)說出(chu),比如經常被拿來調侃的(de)特朗(lang)普。
陳(chen)偉還展示(shi)了(le)一個搜(sou)狗制(zhi)音坊的(de)微信小程序應用,主要圍繞(rao)兒童故事場景,爸爸媽(ma)媽(ma)們需要5分(fen)鐘左右錄制(zhi)10句(ju)話,軟件(jian)即可為(wei)孩(hai)子講述帶有父母聲音的(de)故事。
近年來(lai)語音合(he)成(cheng)技(ji)術(shu)也逐漸(jian)收到關(guan)注,并呈現出(chu)個性化、情感(gan)化發展的趨(qu)勢。陳偉也表示,語音合(he)成(cheng)的關(guan)鍵是如(ru)何快(kuai)速(su)定制個性化聲音,而目前(qian)最大的問(wen)題是數(shu)據問(wen)題。
語音(yin)合成希(xi)望機器的(de)聲音(yin)與(yu)人的(de)聲音(yin)很像(xiang),這意味著(zhu)聲音(yin)的(de)音(yin)色、韻律等(deng)信(xin)息都需要(yao)還原,機器對數據的(de)適(shi)配能力還需要(yao)加強。
此外,在今年的烏鎮世界互聯網大會上,搜狗還將(jiang)與新(xin)華社合作展示搜狗分身(shen)技(ji)術。