
4月8日(ri)至11日(ri),全國(guo)(guo)乃至全球(qiu)(qiu)媒(mei)體(ti)的注意力都集(ji)中在博鰲亞洲論壇(tan),這里匯集(ji)了(le)多(duo)國(guo)(guo)首腦政(zheng)要與高(gao)層人士,他們進行的討論與決策,不僅(jin)會(hui)(hui)影(ying)響(xiang)亞洲經濟發展,更(geng)會(hui)(hui)影(ying)響(xiang)全球(qiu)(qiu)經濟走向,其規格之高(gao)、意義之重(zhong)無(wu)需多(duo)言。
今(jin)年(nian)博鰲論壇的(de)一個(ge)變化就是(shi)引入了(le)(le)人工(gong)智能進行(xing)AI同聲傳(chuan)(chuan)譯(yi),其實AI同傳(chuan)(chuan)不是(shi)新鮮(xian)事物,早在(zai)2016年(nian)的(de)烏鎮(zhen)大(da)會上,搜狗就率(lv)先推(tui)出搜狗同傳(chuan)(chuan),為(wei)大(da)會提供機器同傳(chuan)(chuan)服務。但因為(wei)博鰲論壇的(de)影響力且是(shi)舉辦(ban)17年(nian)以來的(de)首(shou)次(ci)嘗試,從而引起廣泛關注(zhu)。但擔負此項重任的(de)騰訊AI同傳(chuan)(chuan)現場卻表現不佳, AI同傳(chuan)(chuan)也一時(shi)成(cheng)了(le)(le)大(da)家(jia)的(de)吐(tu)槽對象。
拋開騰訊AI同傳在(zai)博鰲論壇的表現,機器翻(fan)譯的難點(dian)在(zai)哪(na)里,國(guo)內(nei)機器翻(fan)譯研(yan)究水平到底如何(he),值得行(xing)業關注與(yu)思(si)考。
騰訊AI同傳現場“翻車”
在一(yi)場主題為“全球化下半場:風險和(he)不確(que)定性(xing)”的分論(lun)壇中,騰訊AI同傳產(chan)生(sheng)了(le)許多錯(cuo)誤(wu),下圖是(shi)(shi)公眾號(hao)“遇見人工智(zhi)能(neng)”截(jie)取的直播小(xiao)程(cheng)序(xu)頁面,和(he)會議現場的顯示是(shi)(shi)一(yi)模一(yi)樣的,可以看(kan)到,翻(fan)譯出來的內容(rong)支離破碎,已經無(wu)法正常理解和(he)閱讀。
此外,騰訊AI同傳還出現了類似下圖這(zhe)樣,不(bu)斷(duan)重復無意義(yi)單詞(ci)和(he)字(zi)符混亂的(de)情況。
博鰲亞洲(zhou)論壇作為亞洲(zhou)乃至全球的一(yi)(yi)場有影響(xiang)力(li)的峰會,本是(shi)機(ji)器(qi)(qi)同傳(chuan)(chuan)一(yi)(yi)展身(shen)手(shou),捕獲各方政要“芳心(xin)”的絕佳(jia)時刻。而此次論壇中的AI同傳(chuan)(chuan)卻錯誤頻(pin)頻(pin),在(zai)(zai)吐(tu)槽騰訊AI同傳(chuan)(chuan)的同時,一(yi)(yi)個更加(jia)值得關注的問題(ti)是(shi)國內機(ji)器(qi)(qi)同傳(chuan)(chuan)發(fa)展水平到(dao)底(di)如(ru)何(he)?機(ji)器(qi)(qi)同傳(chuan)(chuan)的難點到(dao)底(di)在(zai)(zai)哪里,我們又該如(ru)何(he)去(qu)進一(yi)(yi)步突破。
AI同傳的挑戰
從(cong)行業整體發展來看(kan),認(ren)知智(zhi)能(neng)相(xiang)較于感知智(zhi)能(neng)來說(shuo),在引入深度學習方面慢了一拍,整體發展還不成熟(shu),其(qi)核心(xin)自然語(yu)言理解更是業界(jie)公(gong)認(ren)的難點。作為(wei)認(ren)知智(zhi)能(neng)的落(luo)地應用之一,AI同傳也會受(shou)制于認(ren)知智(zhi)能(neng)的整體發展。
比如在博鰲(ao)論壇上(shang),騰訊(xun)AI同傳將“一(yi)帶(dai)一(yi)路(lu)(lu)(lu)”翻譯(yi)成(cheng)(cheng)了(le)“一(yi)條公(gong)路(lu)(lu)(lu)和一(yi)條腰帶(dai)”,這背(bei)后的故事是,演講嘉賓將“一(yi)帶(dai)一(yi)路(lu)(lu)(lu)”的固(gu)定(ding)說法“the belt and road”說成(cheng)(cheng)了(le)“the road and belt”,這種(zhong)需要“反(fan)應一(yi)下”的工作(zuo),人類可(ke)以輕(qing)松完成(cheng)(cheng),但對于缺乏上(shang)下文背(bei)景(jing)、沒有背(bei)景(jing)知識的機器來說,則是非常艱(jian)巨的任(ren)務。
此外,在翻(fan)譯(yi)(yi)領域(yu),即使是兩(liang)位專業翻(fan)譯(yi)(yi)人員對于完全(quan)相同的(de)句子也會有略微不同的(de)理解,而機器翻(fan)譯(yi)(yi)面(mian)臨的(de)挑戰就更大,比純粹的(de)模式識別要復雜的(de)多。
騰訊機器翻譯應(ying)用AI同傳(chuan)選擇在(zai)博鰲亮(liang)相,又(you)同時面臨復雜的應(ying)用場景:
第一,各(ge)國語(yu)(yu)(yu)言與口(kou)音(yin)(yin)(yin)(yin)(yin)混雜。博鰲(ao)論壇(tan)嘉賓來(lai)自世界各(ge)地,即便都(dou)(dou)使(shi)用英(ying)語(yu)(yu)(yu),也存(cun)在不(bu)易識(shi)別(bie)(bie)的口(kou)音(yin)(yin)(yin)(yin)(yin)問題。英(ying)語(yu)(yu)(yu)就分美(mei)式(shi)發(fa)(fa)音(yin)(yin)(yin)(yin)(yin)、英(ying)式(shi)發(fa)(fa)音(yin)(yin)(yin)(yin)(yin)、中式(shi)發(fa)(fa)音(yin)(yin)(yin)(yin)(yin)等。通(tong)常的英(ying)文識(shi)別(bie)(bie)引(yin)擎側重的更多(duo)是(shi)美(mei)式(shi)發(fa)(fa)音(yin)(yin)(yin)(yin)(yin)和中式(shi)發(fa)(fa)音(yin)(yin)(yin)(yin)(yin),但是(shi)如果遇到(dao)其它(ta)發(fa)(fa)音(yin)(yin)(yin)(yin)(yin)方式(shi),識(shi)別(bie)(bie)的效果也會大大折(zhe)扣。因此,多(duo)樣化的發(fa)(fa)音(yin)(yin)(yin)(yin)(yin)方式(shi)、口(kou)音(yin)(yin)(yin)(yin)(yin)都(dou)(dou)給AI同傳的第一步語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)識(shi)別(bie)(bie)帶來(lai)巨(ju)大的挑戰。
第二,是會議內容專業性強。無(wu)論(lun)是(shi)騰訊的(de)(de)(de)AI同傳還是(shi)其(qi)他企業的(de)(de)(de)機器同傳,所做研究的(de)(de)(de)主要(yao)應(ying)用方向(xiang)都是(shi)通(tong)用領域的(de)(de)(de),對(dui)于極其(qi)專業和嚴肅的(de)(de)(de)博鰲論(lun)壇來(lai)說,如(ru)何對(dui)專業詞匯、術(shu)語、關(guan)鍵的(de)(de)(de)觀點進行精準的(de)(de)(de)翻(fan)譯也是(shi)一個難題。即使是(shi)人(ren)工(gong)同傳,也需(xu)要(yao)花費大量的(de)(de)(de)時間來(lai)學習和掌(zhang)握經濟、政治(zhi)等這里領域的(de)(de)(de)概念術(shu)語的(de)(de)(de)翻(fan)譯。
針對(dui)騰訊AI同(tong)傳(chuan)在博(bo)鰲論壇中的(de)(de)表(biao)(biao)現(xian),搜狗同(tong)傳(chuan)負責人表(biao)(biao)示,博(bo)鰲論壇中出現(xian)的(de)(de)問題,其實是(shi)目前行業內都(dou)在面臨(lin)的(de)(de)幾(ji)個挑戰,總體來講就(jiu)是(shi)不同(tong)口(kou)音(yin)的(de)(de)語音(yin)識別(bie)難、會議(yi)內容的(de)(de)領域性(xing)強、語音(yin)識別(bie)錯(cuo)誤對(dui)機器翻(fan)(fan)譯的(de)(de)干(gan)擾(rao)、口(kou)語化(hua)文本翻(fan)(fan)譯難等難題。
中國機器翻譯,水平到底如何?
從(cong)2014年(nian)開始,機器翻譯技術(shu)上(shang)開始從(cong)統計機器翻譯(SMT)向神經機器翻譯(NMT)的遷移。深(shen)度學(xue)習技術(shu)的應用和底層框(kuang)架的突破,使目前國內機器翻譯取得(de)階段性(xing)進展。
拿搜狗(gou)(gou)來說,作為國(guo)內較早(zao)從事機器(qi)(qi)同(tong)(tong)傳(chuan)的(de)團隊(dui),搜狗(gou)(gou)早(zao)在2016年就在烏鎮互聯網大會(hui)(hui)上推出(chu)了(le)機器(qi)(qi)同(tong)(tong)傳(chuan)產品(pin)。這也是全球(qiu)首個基于(yu)深度(du)神經(jing)機器(qi)(qi)翻譯技術的(de)商用翻譯產品(pin)。目前搜狗(gou)(gou)的(de)同(tong)(tong)傳(chuan)翻譯已(yi)經(jing)基于(yu)業(ye)界(jie)領先的(de)Transformer框架。搜狗(gou)(gou)同(tong)(tong)傳(chuan)目前已(yi)經(jing)在國(guo)內很多頂(ding)(ding)級大會(hui)(hui)上得到了(le)應用,已(yi)經(jing)成功(gong)為數百場頂(ding)(ding)尖行業(ye)盛會(hui)(hui)提供過機器(qi)(qi)同(tong)(tong)傳(chuan)服(fu)務。
除此之外,搜(sou)(sou)(sou)狗(gou)手機(ji)輸入(ru)法上(shang)線了(le)文本(ben)翻(fan)(fan)譯(yi)(yi)(yi)和語音翻(fan)(fan)譯(yi)(yi)(yi)的(de)(de)能(neng)力,日(ri)均請求達800萬次(ci)。搜(sou)(sou)(sou)狗(gou)還(huan)推出了(le)搜(sou)(sou)(sou)狗(gou)翻(fan)(fan)譯(yi)(yi)(yi)APP、搜(sou)(sou)(sou)狗(gou)旅行翻(fan)(fan)譯(yi)(yi)(yi)寶(bao)、搜(sou)(sou)(sou)狗(gou)翻(fan)(fan)譯(yi)(yi)(yi)筆等各個形(xing)式的(de)(de)AI翻(fan)(fan)譯(yi)(yi)(yi)產品。在國(guo)際(ji)翻(fan)(fan)譯(yi)(yi)(yi)比賽(sai)方面,搜(sou)(sou)(sou)狗(gou)榮獲了(le)國(guo)際(ji)頂(ding)級機(ji)器(qi)翻(fan)(fan)譯(yi)(yi)(yi)比賽(sai)WMT 2017中英和英中賽(sai)道的(de)(de)冠軍,再一次(ci)在頂(ding)尖的(de)(de)國(guo)際(ji)舞臺證明了(le)搜(sou)(sou)(sou)狗(gou)的(de)(de)翻(fan)(fan)譯(yi)(yi)(yi)技(ji)術實力。
搜(sou)狗同(tong)傳負責人(ren)表示,搜(sou)狗同(tong)傳取(qu)得的(de)這些技(ji)術(shu)進步,主要(yao)得益于搜(sou)狗同(tong)傳的(de)技(ji)術(shu)團隊在自然(ran)語(yu)言處(chu)理和深(shen)度(du)學習(xi)方面有深(shen)厚(hou)的(de)積累,同(tong)時(shi)也是搜(sou)狗同(tong)傳走在行(xing)業前沿的(de)關鍵原因。
與此(ci)同時(shi),我們也應該看到機(ji)器翻譯作為(wei)AI研究的(de)前(qian)沿方(fang)向之一(yi),仍處行業(ye)于(yu)最早(zao)期,比如業(ye)界機(ji)器翻譯的(de)準(zhun)確率普遍略低(di),機(ji)器翻譯最難的(de)部分在于(yu)盲傳,它沒(mei)有背景知(zhi)識(shi),而翻譯本(ben)身又嚴(yan)重依賴上(shang)下(xia)文。這有賴于(yu)自然語言技(ji)術的(de)突(tu)破。
所以騰(teng)訊AI同(tong)(tong)傳面臨的(de)挑戰和問題,是行業內共有的(de)。人工智能的(de)發展仍然處在初級階段,機器同(tong)(tong)傳應該給(gei)予(yu)更多的(de)包(bao)容和時(shi)間,讓這(zhe)些(xie)產品在博鰲論壇這(zhe)樣規模(mo)的(de)會議進行檢驗(yan)。