智東西(公眾號:zhidxcom)
編 | 子佩

智(zhi)東西10月23日(ri)消(xiao)息(xi),Facebook近期開源(yuan)其M2M-100源(yuan)代碼,這是(shi)首(shou)個(ge)可(ke)以(yi)不依賴英語(yu)數據(ju)而可(ke)以(yi)實(shi)現100個(ge)語(yu)言(yan)(yan)(yan)對互相翻譯(yi)(yi)的(de)機器(qi)翻譯(yi)(yi)模(mo)型(如中文-法文互譯(yi)(yi)為一個(ge)語(yu)言(yan)(yan)(yan)對)。在訓練2200種語(yu)言(yan)(yan)(yan)對后,該單一多(duo)語(yu)言(yan)(yan)(yan)模(mo)型不僅與傳統的(de)雙(shuang)語(yu)模(mo)型性能(neng)相當,同時也(ye)比以(yi)英語(yu)為中心的(de)多(duo)語(yu)模(mo)型在機器(qi)翻譯(yi)(yi)評價指標BLEU上提(ti)高了10%。

傳統機器翻譯算法(fa)通過(guo)為每種語(yu)言(yan)(yan)和每項任務構建單獨的AI模型能夠(gou)同(tong)時處理多語(yu)翻譯,但(dan)由于(yu)依(yi)賴英語(yu)數據作(zuo)為源語(yu)言(yan)(yan)和目(mu)標語(yu)言(yan)(yan)之(zhi)間的中介(jie),在語(yu)義準(zhun)確性上可(ke)能有所(suo)折損。

為(wei)了(le)實現多(duo)(duo)語(yu)言不(bu)依賴英語(yu)互譯,研究人員(yuan)使(shi)用不(bu)同的(de)(de)挖掘策(ce)略(lve)構建(jian)了(le)首個真正(zheng)的(de)(de)多(duo)(duo)對多(duo)(duo)翻譯數據集,再(zai)通過Fairscale等(deng)擴展技術(shu)建(jian)立具(ju)有(you)150億個參數的(de)(de)通用翻譯模(mo)型,使(shi)M2M-100可以從大量語(yu)言數據庫(ku)中(zhong)學(xue)習,并反映出(chu)更加多(duo)(duo)樣化的(de)(de)語(yu)言文(wen)字和詞法(fa)。

論文主頁:

項目地址://github.com/pytorch/fairseq/tree/master/examples/m2m_100

Facebook?100種語言互譯模型源代碼公開!機器翻譯再也不用英語當媒介了?

一、多種技術融合,反向尋找海量數據

多語言機器(qi)翻譯(yi)的目標是建(jian)立一個(ge)超(chao)7000種語言的一對(dui)一互譯(yi)模型,如(ru)此大(da)量級的模型需要大(da)量數據(ju)(ju)來訓(xun)練(lian)。由于小語種本身缺(que)少可直(zhi)接使用的大(da)量數據(ju)(ju),再加上如(ru)果要實(shi)現多語言間任意方(fang)向(xiang)高質(zhi)量翻譯(yi),例如(ru)中文到法語和(he)法語到中文,模型訓(xun)練(lian)所(suo)需要的數據(ju)(ju)量會(hui)隨語言對(dui)數量呈二次增長。

Facebook?100種語言互譯模型源代碼公開!機器翻譯再也不用英語當媒介了?

為此,Facebook在XLM-R,一種(zhong)可(ke)以(yi)(yi)(yi)從單語(yu)數據(ju)中(zhong)學習并以(yi)(yi)(yi)100種(zhong)語(yu)言(yan)執行任務的(de)(de)(de)模型上,增添了新穎(ying)的(de)(de)(de)語(yu)言(yan)識別技術,用以(yi)(yi)(yi)從更多(duo)來源(yuan)中(zhong)挖掘更高質(zhi)量的(de)(de)(de)數據(ju)。如(ru)可(ke)以(yi)(yi)(yi)對自然語(yu)言(yan)處理(li)模型進行零樣本傳輸(shu)(one-shot transfer)的(de)(de)(de)開(kai)放(fang)式源(yuan)代碼(ma)工具包Language-Agnostic Sentence Representations、用于訓練(lian)翻譯模型的(de)(de)(de)“十億規模” bitext數據(ju)集(ji)CCMatrix以(yi)(yi)(yi)及跨語(yu)言(yan)Web文檔對的(de)(de)(de)集(ji)合CCAligned。

除此之外,Facebook還使用反向翻譯(back-translation)來(lai)補充數據(ju)(ju)(ju)較少的語料數據(ju)(ju)(ju):如(ru)果(guo)目標是訓練一個中文(wen)到(dao)法(fa)文(wen)的翻譯模型,Facebook研究(jiu)人員先訓練一個法(fa)文(wen)到(dao)中文(wen)的模型,再(zai)將(jiang)所有沒被翻譯的單語數據(ju)(ju)(ju)譯成(cheng)中文(wen)。在 M2M-100的開發過程中,反向翻譯得到(dao)的數據(ju)(ju)(ju)會(hui)被添加(jia)到(dao)挖掘的并行數據(ju)(ju)(ju)中。

在(zai)得(de)到的(de)(de)數(shu)據中(zhong),M2M-100也有三(san)大(da)篩選標(biao)準:被廣泛(fan)使用的(de)(de)、不同語(yu)(yu)(yu)族的(de)(de)語(yu)(yu)(yu)言(yan)(yan);已有評估標(biao)準數(shu)據的(de)(de)語(yu)(yu)(yu)言(yan)(yan),以便更輕松(song)地量化模型(xing)的(de)(de)性能;可以獨立存在(zai)的(de)(de)語(yu)(yu)(yu)言(yan)(yan)。基于此,Facebook的(de)(de)M2M-100得(de)到了100種(zhong)不同語(yu)(yu)(yu)言(yan)(yan)超過75億個句(ju)子(zi)的(de)(de)數(shu)據集。

“多年(nian)來,人工智(zhi)能研(yan)究人員一直在努(nu)力構(gou)建一個單(dan)一的(de)(de)(de)、跨語言(yan)的(de)(de)(de)通用模型。”Facebook的(de)(de)(de)數(shu)據科(ke)學家Angela Fan在博客中寫道,“支持所有(you)語言(yan)、方言(yan)的(de)(de)(de)統一模型將幫助我們更好地為更多的(de)(de)(de)人服務,并為數(shu)十億人創造新(xin)的(de)(de)(de)翻譯體驗。”

二、“橋接策略”構建語群,節約算力最大化

但并不(bu)是100種語(yu)言對中任意一(yi)種都需(xu)要實現(xian)互譯,例如冰島語(yu)-尼泊爾(er)語(yu)或僧伽羅語(yu)-爪哇語(yu)之間需(xu)要互譯的情況是很少(shao)見的。Facebook研究人員為(wei)了避免這些少(shao)見的互譯組合浪(lang)費算力,提出了“橋接策略(lve)”,即根據(ju)分類、地(di)理和文化相似性將語(yu)言分為(wei)14個(ge)族。

Facebook?100種語言互譯模型源代碼公開!機器翻譯再也不用英語當媒介了?

因(yin)為生活在相同語(yu)(yu)(yu)族的國家和地(di)區(qu)的人們會(hui)(hui)更加(jia)頻繁地(di)交流,并從(cong)高質量的翻譯中(zhong)受益(yi)。例如,一個(ge)在印度(du)地(di)區(qu)生活的家庭可能日(ri)常會(hui)(hui)使用(yong)印度(du)地(di)區(qu)常用(yong)的語(yu)(yu)(yu)言,例如孟加(jia)拉語(yu)(yu)(yu)、北印度(du)語(yu)(yu)(yu)、馬(ma)拉地(di)語(yu)(yu)(yu)、尼泊爾語(yu)(yu)(yu)、泰米爾語(yu)(yu)(yu)和烏爾都語(yu)(yu)(yu)等。

為了(le)滿足(zu)14個語(yu)群(qun)之間可能存在的互譯需求(qiu),Facebook研究人員(yuan)還確定(ding)了(le)少數“過渡語(yu)言(yan)”,即每(mei)個語(yu)族(zu)中一到三種主要語(yu)言(yan)會作為橋(qiao)梁轉(zhuan)化不(bu)同語(yu)群(qun)語(yu)言(yan)。例如(ru),印地語(yu)、孟加拉語(yu)和泰(tai)米爾(er)語(yu)會成為印度-雅利雅語(yu)群(qun)中的橋(qiao)梁語(yu)言(yan)。

研究人員會為橋梁語言(yan)的(de)(de)所(suo)有可能組合挖掘訓練數據,從而(er)獲得上述數據集中的(de)(de)75億個句(ju)子。

三、154億參數,只為模型容量最優化

在解決了如(ru)何獲(huo)取數(shu)(shu)據(ju)和如(ru)何有(you)效利用數(shu)(shu)據(ju)后,接下來的一(yi)步(bu)就(jiu)(jiu)是搭建(jian)模(mo)型(xing)。而在模(mo)型(xing)組建(jian)中遇見(jian)的最大問(wen)題就(jiu)(jiu)是:單(dan)一(yi)模(mo)型(xing)必須捕獲(huo)多種不同語言(yan)的多種文字信息,這時候就(jiu)(jiu)需要擴展(zhan)模(mo)型(xing)的容量及添加(jia)特定(ding)語言(yan)參數(shu)(shu)用以處(chu)理更多語言(yan)數(shu)(shu)據(ju)。

Facebook?100種語言互譯模型源代碼公開!機器翻譯再也不用英語當媒介了?

M2M-100借助(zhu)了(le)(le)Fairscale(一(yi)種用(yong)于大型(xing)模(mo)型(xing)訓練的PyTorch庫),來(lai)(lai)增加Transformer網(wang)絡(luo)中(zhong)的層數(shu)以及(ji)每層的寬度。基于Zero優化器、層內(nei)模(mo)型(xing)并行性和管(guan)道模(mo)型(xing)并行性,研究人員(yuan)建(jian)立通用(yong)的基礎架構來(lai)(lai)容(rong)納無法在(zai)單(dan)個GPU安裝的大型(xing)模(mo)型(xing),此外還引入(ru)了(le)(le)模(mo)型(xing)壓縮(suo)和深度自適應(ying)模(mo)型(xing),以用(yong)常規主干和一(yi)些語言特(te)定參數(shu)集來(lai)(lai)共同訓練模(mo)型(xing)。

多種策略的(de)組合(he)使模型(xing)的(de)容量(liang)(liang)增加了100倍,并(bing)能夠實(shi)現Facebook聲稱的(de)高精度語言服務。但僅將(jiang)模型(xing)擴(kuo)展到10億參數(shu)還不能滿足處理大量(liang)(liang)數(shu)據的(de)需要(yao),最后當將(jiang)模型(xing)規模密(mi)集擴(kuo)展到12億個參數(shu)時,才能得(de)到所有語言方向上1.2BLEU的(de)平均提升。

最后當(dang)模型參數(shu)達(da)154億(yi)時,M2M-100可以針對(dui)最多(duo)的(de)數(shu)據訓(xun)練額外(wai)的(de)模型容量。 “通過將(jiang)模型容量的(de)密集(ji)縮放(fang)與(yu)特定語言參數(shu)(總計30億(yi))相(xiang)結合,我們(men)已經提供了一個(ge)相(xiang)對(dui)完善的(de)不依賴英語的(de)互譯模型。”Fan說到。

結語:母語者質量評估,消除“偏見”在路上

縱使Facebook的(de)M2M-100模(mo)型已在很(hen)多方面進(jin)行(xing)了改進(jin),但依(yi)舊存在很(hen)多問題亟(ji)待解(jie)決。

在測(ce)試階段,會有母(mu)語(yu)者對(dui)不涉及英語(yu)的(de)20種語(yu)言對(dui)之間(jian)互譯質量進(jin)行評(ping)估(gu)。母(mu)語(yu)者對(dui)譯文整(zheng)體評(ping)價較高(gao),但他(ta)們也(ye)指(zhi)出M2M-100傾向于使用不符合(he)語(yu)境的(de)俚語(yu)逐詞翻(fan)譯,也(ye)會出現如缺少逗號等語(yu)法問題(ti),可能會導(dao)致歧義。

除翻譯語義的(de)(de)問(wen)題之外,Facebook研究人員也承認,在翻譯模型中,確實出現(xian)了(le)有(you)關性(xing)別偏見(jian)(jian)、種族偏見(jian)(jian)的(de)(de)歧(qi)視性(xing)字眼,但現(xian)如今沒有(you)任何一種機器(qi)學習算法(fa)能防止(zhi)偏見(jian)(jian)的(de)(de)產(chan)生,且這個問(wen)題在數(shu)據量少的(de)(de)小語種模型中更加(jia)明(ming)顯。

Angela Fan也表示他們(men)將進行更多的測試和(he)評估,致力于使這個模型更加“公平(ping)公正(zheng)”,但這個過程仍需要(yao)時間(jian)。

來源(yuan):VentureBeat、Facebook