智東西(公眾號:zhidxcom)
文 | 寓揚

8月初,搜狗(gou)CEO王小(xiao)川的一(yi)封(feng)內部(bu)郵件講到(dao),搜狗(gou)即將(jiang)赴美IPO,也將(jiang)搜狗(gou)帶到(dao)了互聯網圈議論的焦(jiao)點。

而近期搜狗語音交互中心機(ji)器(qi)翻譯團(tuan)隊也取得(de)了(le)優(you)異(yi)的(de)(de)成績,在國際頂(ding)級機(ji)器(qi)翻譯比賽WMT(Workshop on Machine Translation) 2017種(zhong)獲得(de)人(ren)工評(ping)測的(de)(de)中英和英中機(ji)器(qi)翻譯比賽雙(shuang)向冠軍(jun)。

從智能語音到機器翻譯!解讀搜狗的人工智能進擊之路

(WMT機(ji)器翻譯(yi)比(bi)賽得(de)分表(biao),第一個即為(wei)搜狗團隊的機(ji)器翻譯(yi)系統)

WMT是機(ji)(ji)器(qi)(qi)(qi)翻(fan)(fan)譯領域的國(guo)際頂級(ji)評測(ce)比賽之(zhi)一,從2006年(nian)(nian)開始到現在一共(gong)舉辦了(le)12屆機(ji)(ji)器(qi)(qi)(qi)翻(fan)(fan)譯比賽。它由國(guo)際機(ji)(ji)器(qi)(qi)(qi)翻(fan)(fan)譯研(yan)討(tao)會面(mian)向新聞(wen)領域,提(ti)供統(tong)(tong)一數據集(ji),采取機(ji)(ji)器(qi)(qi)(qi)測(ce)評和人工評分兩種測(ce)評方(fang)(fang)式(shi),并將結果以競(jing)賽的形式(shi)呈(cheng)現。作為今年(nian)(nian)新聞(wen)機(ji)(ji)器(qi)(qi)(qi)翻(fan)(fan)譯任務(wu)的7個語(yu)言之(zhi)一,中(zhong)譯英、英譯中(zhong)是今年(nian)(nian)新增的兩個方(fang)(fang)向,訓練(lian)數據為800萬~900萬。共(gong)有20支(zhi)團(tuan)隊(dui)提(ti)交了(le)中(zhong)譯英翻(fan)(fan)譯系統(tong)(tong)、15支(zhi)團(tuan)隊(dui)提(ti)交了(le)英譯中(zhong)翻(fan)(fan)譯系統(tong)(tong),參賽團(tuan)隊(dui)包(bao)括美國(guo)約(yue)翰霍普金斯(si)大學(xue)、美國(guo)空軍研(yan)究實(shi)驗室(shi)、加拿大國(guo)家研(yan)究院、(英)愛(ai)丁堡(bao)大學(xue)、中(zhong)國(guo)中(zhong)科院計算所(suo)、廈門大學(xue)等。

搜(sou)狗(gou)機(ji)器翻(fan)譯團隊(dui)的獲(huo)獎代表搜(sou)狗(gou)在人工智能方面的最新進(jin)展(zhan),而王小川(chuan)此前(qian)也曾(ceng)提到今年是搜(sou)狗(gou)人工智能技術從前(qian)沿科技到走向實用的重要一年。那么搜(sou)狗(gou)前(qian)沿技術應(ying)用到了哪(na)些領域(yu)?在語(yu)音交(jiao)互大入口(kou)下(xia)又(you)有哪(na)些布局(ju)?

從智能語音到機器翻譯!解讀搜狗的人工智能進擊之路

(圖為搜狗語音交互中心技術總(zong)監陳偉)

智東西(xi)同搜(sou)狗語音交互中(zhong)(zhong)心技術(shu)總(zong)監陳偉(wei)以及機器(qi)翻(fan)譯技術(shu)負責人王宇光展開對話(hua),看看這家靠輸入法而知(zhi)名的公司在人工智能中(zhong)(zhong)有哪些新進展。

組建機器翻譯團隊實現跨語言交流

搜(sou)(sou)狗(gou)的(de)(de)核心(xin)主要包(bao)括(kuo)兩個(ge)事(shi)業(ye)部(bu),一(yi)個(ge)是桌面(mian)事(shi)業(ye)部(bu),一(yi)個(ge)是搜(sou)(sou)索事(shi)業(ye)部(bu)。陳(chen)偉和王宇(yu)光所在(zai)的(de)(de)語(yu)音(yin)交互(hu)中心(xin)則在(zai)桌面(mian)事(shi)業(ye)部(bu)下面(mian),而搜(sou)(sou)狗(gou)語(yu)音(yin)交互(hu)中心(xin)也是搜(sou)(sou)狗(gou)人(ren)工(gong)智能技術(shu)的(de)(de)代表。

恰逢搜(sou)狗(gou)在(zai)2012年成(cheng)立語(yu)(yu)音(yin)(yin)識(shi)別(bie)團(tuan)隊,陳偉便(bian)加入(ru)了搜(sou)狗(gou),而其(qi)在(zai)博士期間主攻的(de)就是語(yu)(yu)音(yin)(yin)識(shi)別(bie)。目前圍繞語(yu)(yu)音(yin)(yin)和輸(shu)(shu)入(ru)法的(de)結合,搜(sou)狗(gou)輸(shu)(shu)入(ru)法一天的(de)語(yu)(yu)音(yin)(yin)識(shi)別(bie)請(qing)求已高達3億次,是國內最大(da)的(de)語(yu)(yu)音(yin)(yin)單品(pin)APP,也顯示了搜(sou)狗(gou)在(zai)語(yu)(yu)音(yin)(yin)識(shi)別(bie)方面的(de)進展。

除了(le)語音(yin)識(shi)別之外,圍繞(rao)搜狗的(de)人(ren)工智能戰略,語音(yin)交(jiao)互中心開(kai)始做自(zi)(zi)然(ran)交(jiao)互。語音(yin)技(ji)(ji)術部(bu)圍繞(rao)自(zi)(zi)然(ran)交(jiao)互,逐漸(jian)轉移(yi)到多(duo)模態輸入上(shang)(人(ren)機(ji)交(jiao)互中讓機(ji)器理解人(ren)的(de)信息,包括(kuo)語音(yin)、文(wen)本(ben)、圖(tu)像等方式(shi))。除了(le)語音(yin)識(shi)別外,語音(yin)技(ji)(ji)術部(bu)還做了(le)語音(yin)合成、聲紋識(shi)別、語音(yin)分析(語種)等技(ji)(ji)術研究,隨著從近場(chang)的(de)手機(ji)向(xiang)遠場(chang)的(de)電視、音(yin)箱發展,該(gai)部(bu)門(men)也具有了(le)自(zi)(zi)己(ji)的(de)麥克(ke)風陣列的(de)硬件能力,形成了(le)較為閉環的(de)語音(yin)能力。

在這個(ge)基礎上,作為(wei)一款人與(yu)人交流、表達信息的輸入(ru)法產品,搜狗希望(wang)用(yong)戶能夠幫用(yong)戶實現跨語(yu)言交流,因此(ci)就(jiu)做(zuo)了機器翻(fan)譯,以及基于語(yu)音識(shi)別和機器翻(fan)譯做(zuo)了搜狗機器的同聲(sheng)傳譯。

此外,圍繞自(zi)然(ran)交互,語音(yin)技術部(bu)也(ye)(ye)在(zai)做(zuo)手寫和圖像方面的(de)(de)研究,語音(yin)+圖像+文本的(de)(de)能(neng)(neng)力都已(yi)具備,在(zai)加上(shang)語義理解團隊,就是一個完(wan)整的(de)(de)知音(yin)引(yin)擎(qing)。未(wei)來,搜(sou)(sou)狗知音(yin)也(ye)(ye)將會成(cheng)為一個開放平臺,輸出一整套軟硬(ying)件相結合的(de)(de)語音(yin)交互方案,并將逐漸把搜(sou)(sou)狗知音(yin)OS的(de)(de)能(neng)(neng)力標準化,輸出到(dao)最(zui)適合的(de)(de)場景。

依托數據優勢構建機器翻譯技術壁壘

而本(ben)次WMT比賽中獲獎的機器翻(fan)譯(yi)(yi)團(tuan)隊(dui)也(ye)在語音(yin)技術部下。隨著2014年機器翻(fan)譯(yi)(yi)從SMT(統計機器翻(fan)譯(yi)(yi))往NMT(神經(jing)網絡機器翻(fan)譯(yi)(yi))遷(qian)移(yi),搜狗語音(yin)技術部門便做(zuo)基于神經(jing)網絡技術的機器翻(fan)譯(yi)(yi),并在2016年成立機器翻(fan)譯(yi)(yi)團(tuan)隊(dui)。

機(ji)器(qi)(qi)翻譯團隊從一開始就(jiu)發力神經機(ji)器(qi)(qi)翻譯技術(shu),用了(le)不到半年的時間把(ba)技術(shu)打磨好,使(shi)用在搜狗輸(shu)(shu)入法(fa)上(shang)(shang),輸(shu)(shu)入法(fa)中(zhong)的語音翻譯和文本翻譯上(shang)(shang)線以(yi)來(lai)日均請(qing)求量(liang)已達(da)200萬次。之后在去年11月份世界互聯網大會上(shang)(shang),語音技術(shu)部便將已有的語音技術(shu)和機(ji)器(qi)(qi)翻譯技術(shu)相結(jie)合,推出了(le)機(ji)器(qi)(qi)同傳技術(shu),目前已經在多場重要會議場中(zhong)使(shi)用。

從智能語音到機器翻譯!解讀搜狗的人工智能進擊之路

以中英文的(de)(de)(de)機器同傳為例,它大(da)致需要將搜集來的(de)(de)(de)中文語音(yin)(yin)信息經(jing)過語音(yin)(yin)斷(duan)句,獲(huo)得小的(de)(de)(de)語音(yin)(yin)片段,然后(hou)會送到語音(yin)(yin)識別(bie)中獲(huo)得文本,此時(shi)需要對文本進行一些順滑處理,將這(zhe)個經(jing)過語音(yin)(yin)識別(bie)后(hou)的(de)(de)(de)處理文本送到端到端的(de)(de)(de)神經(jing)網絡(目前機器翻譯的(de)(de)(de)主流方(fang)法),通過翻譯器進行語音(yin)(yin)翻譯。

在機(ji)器(qi)翻(fan)(fan)譯(yi)中,各(ge)家公(gong)司使(shi)用的(de)算法(fa)類型基本是一(yi)(yi)樣的(de),但是同樣的(de)數(shu)據(ju)效果卻相差很多(duo)。對(dui)于搜狗(gou)來講(jiang),重要的(de)問(wen)題有兩個,一(yi)(yi)個是怎么用好(hao)數(shu)據(ju)(比如單語數(shu)據(ju)),另一(yi)(yi)個是找到最合適的(de)數(shu)據(ju)(甄選數(shu)據(ju))。此(ci)外(wai),搜狗(gou)機(ji)器(qi)翻(fan)(fan)譯(yi)團隊(dui)也在針對(dui)翻(fan)(fan)譯(yi)里(li)面的(de)實體進行優(you)化,包括(kuo)多(duo)翻(fan)(fan)漏翻(fan)(fan)、數(shu)字等細節(jie)問(wen)題。

那么剛剛成(cheng)立1年(nian)多的(de)(de)機(ji)(ji)(ji)器(qi)翻(fan)(fan)譯(yi)(yi)團隊(dui),相(xiang)比其他機(ji)(ji)(ji)器(qi)翻(fan)(fan)譯(yi)(yi)團隊(dui)、或者科大(da)訊飛,搜狗的(de)(de)優勢(shi)何在(zai)?智東(dong)西了解到,一方(fang)面是(shi)人(ren)才,搜狗主(zhu)做機(ji)(ji)(ji)器(qi)翻(fan)(fan)譯(yi)(yi)的(de)(de)員工(gong)經驗大(da)都在(zai)5年(nian)以(yi)上;第二,語音識別中(zhong)有許多經驗可(ke)以(yi)借鑒,依托(tuo)于(yu)之前(qian)語音團隊(dui)的(de)(de)技術優勢(shi),對機(ji)(ji)(ji)器(qi)翻(fan)(fan)譯(yi)(yi)幫助(zhu)也很大(da);第三(san),搜狗在(zai)輸(shu)入法(fa)的(de)(de)場景下面積累大(da)量的(de)(de)用戶數據(ju),可(ke)以(yi)快速把數據(ju)壁壘做起(qi)來(lai),而算法(fa)是(shi)很難形成(cheng)壁壘的(de)(de)。

2012年之后,原有統計機(ji)(ji)器(qi)翻(fan)譯(yi)上的(de)技術框架逐(zhu)漸被推倒,需要從新布(bu)局新的(de)技術框架。再加上搜(sou)狗(gou)有國內最大的(de)輸入法,在(zai)這方面(mian)(mian)積累的(de)語音數據(ju)量比科大訊(xun)(xun)飛還要多。難(nan)怪陳偉稱搜(sou)狗(gou)在(zai)機(ji)(ji)器(qi)翻(fan)譯(yi)方面(mian)(mian)與(yu)科大訊(xun)(xun)飛是持(chi)平的(de)或是有優勢的(de)。

就機(ji)器(qi)(qi)(qi)同(tong)傳(chuan)而(er)言,目前搜狗的(de)(de)語音識別率已(yi)達97%,而(er)機(ji)器(qi)(qi)(qi)翻譯的(de)(de)準確率則(ze)要略低一些(xie),這也是業界的(de)(de)難題。機(ji)器(qi)(qi)(qi)翻譯最難的(de)(de)部分(fen)在于盲傳(chuan),翻譯本身是嚴(yan)重依(yi)賴上下文的(de)(de),而(er)機(ji)器(qi)(qi)(qi)翻譯卻沒有任何背(bei)景(jing)知識。此外機(ji)器(qi)(qi)(qi)同(tong)傳(chuan)也要盡可(ke)能的(de)(de)做到低延遲(chi),搜狗在這方面已(yi)經把延遲(chi)控(kong)制(zhi)在2、3秒(miao)以(yi)內(nei)。

而搜狗機器同傳接(jie)(jie)下(xia)來的(de)(de)(de)發展,一(yi)(yi)方面(mian)需要保(bao)證穩定的(de)(de)(de)語(yu)音識別率,比如(ru)噪音場景下(xia);另一(yi)(yi)方面(mian)是(shi)機器翻(fan)譯如(ru)何能更好的(de)(de)(de)找到一(yi)(yi)個(ge)完整的(de)(de)(de)語(yu)譯邊(bian)界。同傳系(xi)統(tong)最核心的(de)(de)(de)就是(shi)建立一(yi)(yi)個(ge)連接(jie)(jie)語(yu)音識別和(he)機器翻(fan)譯文本的(de)(de)(de)處理(li)系(xi)統(tong),這(zhe)個(ge)處理(li)系(xi)統(tong)可(ke)以接(jie)(jie)收(shou)語(yu)音識別的(de)(de)(de)結果(guo),去做容(rong)錯。此(ci)外,就是(shi)如(ru)何處理(li)更多口(kou)語(yu)化的(de)(de)(de)表達,如(ru)“這(zhe)個(ge)”、“那個(ge)”,以及(ji)如(ru)何斷句問(wen)題(ti),確保(bao)翻(fan)譯出來的(de)(de)(de)是(shi)一(yi)(yi)個(ge)完成的(de)(de)(de)語(yu)義句子。當這(zhe)些問(wen)題(ti)都(dou)解決的(de)(de)(de)時候(hou),機器同傳的(de)(de)(de)效果(guo)才會提升(sheng)很多。

結語:搜狗語音交互入口下的布局

機器翻譯是(shi)搜狗重點(dian)布局的(de)一個方向,也是(shi)一個差異化的(de)優勢所在(zai)(zai)(zai)。但搜狗的(de)人(ren)工智能(neng)并未止步于此,圍繞著(zhu)語音(yin)交互入(ru)口,搜狗在(zai)(zai)(zai)更多領(ling)域,甚至在(zai)(zai)(zai)智能(neng)硬件方面都(dou)會(hui)有進(jin)一步的(de)進(jin)展(zhan)。目(mu)前搜狗技術落地的(de)產(chan)(chan)品主要包(bao)括搜狗輸入(ru)法、搜狗同(tong)傳、搜狗聽寫(xie)等產(chan)(chan)品。

在2014年前(qian)后(hou)(hou),搜狗也做過手機中的(de)(de)語(yu)音助手APP,但后(hou)(hou)來項目被停滯。搜狗也從中獲取經驗,“一個(ge)產(chan)品(pin)做的(de)(de)好不好,要看你的(de)(de)產(chan)品(pin)邊界定(ding)的(de)(de)清(qing)不清(qing)楚,技術能(neng)力能(neng)不能(neng)達到產(chan)品(pin)需求”。在這種情況下,搜狗將深耕車載和家居兩(liang)個(ge)方向的(de)(de)語(yu)音交互。

目(mu)前搜狗在和四維圖新做(zuo)車載(zai)設備中(zhong)的人機交互(hu),跟小米(mi)電視、創維電視等合作打磨語音交互(hu)技術,預(yu)計(ji)未來將(jiang)會有更(geng)多打造(zao)搜狗語音技術的智能硬件產品發布。

從智能語音到機器翻譯!解讀搜狗的人工智能進擊之路