智東西(公眾號:zhidxcom)
文 | 軒窗 王穎

智東西5月5日消息,人(ren)(ren)(ren)類(lei)(lei)(lei)在(zai)NLP領(ling)域的(de)研(yan)究已(yi)長達半世紀,現在(zai)AI終(zhong)于揚眉吐氣了!5月4日,在(zai)斯坦(tan)福大學的(de)會話問(wen)答(CoQA)挑戰賽中,AI的(de)會話能力已(yi)媲(pi)美人(ren)(ren)(ren)類(lei)(lei)(lei),并(bing)以0.6分優勢(shi)全(quan)面“碾(nian)壓(ya)”人(ren)(ren)(ren)類(lei)(lei)(lei)水平!也就是說,人(ren)(ren)(ren)類(lei)(lei)(lei)與這個模型(xing)互動更像是與真人(ren)(ren)(ren)之間的(de)交流。

CoQA挑戰賽通(tong)過(guo)理解(jie)文本段(duan)落,并回答對話中(zhong)出現的(de)一系列相互關聯的(de)問(wen)題,來衡(heng)量機(ji)器的(de)性能。此次,微軟(ruan)亞研院NLP團隊和(he)微軟(ruan)Redmond語音對話團隊聯手組成(cheng)黃金搭檔(dang)參賽。

在CoQA挑戰賽(sai)歷史上,他(ta)們是唯一(yi)一(yi)個在模型(xing)性(xing)能方面達(da)到人類水平的(de)(de)團隊!他(ta)們于2019年3月29日(ri)提交(jiao)的(de)(de)集(ji)合系(xi)統得分(fen)對應域內、域外(wai)和整體(ti)F1分(fen)別為89.9 / 88.0 / 89.4,而(er)同一(yi)組會(hui)話問題和答(da)案的(de)(de)人類表(biao)現則分(fen)別為89.4 / 87.4 / 88.8。

AI會話能力超越人類!CoQA挑戰賽微軟創新紀錄

從(cong)2018年至今(jin),人(ren)類在NLP領(ling)域不斷有好消息傳來。去年10月(yue)谷歌推出BERT語言(yan)模(mo)型在11項NLP任務(wu)中奪得(de)STOA結果。今(jin)年2月(yue),OpenAI展示了其訓(xun)練(lian)的(de)一個大規(gui)模(mo)的(de)無監督語言(yan)模(mo)型GPT-2,可以(yi)根據前文進行續寫,并且不需要(yao)特定訓(xun)練(lian)。

這(zhe)也說明(ming)了,當下NLP研發正(zheng)進入一個(ge)黃(huang)金(jin)時(shi)期!

一、微軟再度贏得斯坦福CoQA挑戰賽

CoQA是一個大規(gui)模的(de)會話(hua)式問(wen)答數據集,這些(xie)問(wen)答數據來(lai)自不(bu)同(tong)領域的(de)文章(zhang)中(zhong),機(ji)器學習通過(guo)從這些(xie)文章(zhang)中(zhong)提取問(wen)答數據進(jin)行會話(hua)問(wen)答。CoQA挑(tiao)戰的(de)目(mu)的(de),是為了(le)衡量機(ji)器對(dui)文本(ben)的(de)理解能力,檢驗機(ji)器在接近人類的(de)對(dui)話(hua)中(zhong)回答問(wen)題能力的(de)高低。

NLP團隊之(zhi)前使用斯(si)坦福SQuAD(問(wen)題(ti)答疑數據集(ji))在(zai)CoQA領域內(nei)數據集(ji)上F1得分超過(guo)80%的(de)(de)模(mo)型,達到(dao)80.7%,在(zai)對話(hua)系統模(mo)型性能挑戰賽中(zhong)刷新(xin)最佳性能紀錄。與SQuAD相(xiang)比(bi),CoQA中(zhong)的(de)(de)問(wen)題(ti)更具會話(hua)性,答案(an)(an)可以(yi)是自由(you)格式文本,以(yi)確保(bao)對話(hua)中(zhong)答案(an)(an)的(de)(de)自然(ran)性。

CoQA中的會話問(wen)(wen)(wen)題(ti)形式是模仿人(ren)(ren)類的對話,但一般都(dou)很短(duan)。進(jin)行第一個(ge)問(wen)(wen)(wen)題(ti)之后的每個(ge)問(wen)(wen)(wen)題(ti)都(dou)根(gen)據第一個(ge)問(wen)(wen)(wen)題(ti)來進(jin)行問(wen)(wen)(wen)答,這使(shi)得簡短(duan)問(wen)(wen)(wen)題(ti)對于機(ji)器解析更加困難。例如,假(jia)設您向(xiang)系統(tong)提(ti)問(wen)(wen)(wen),“誰是微軟的創始人(ren)(ren)?”當您提(ti)出后續問(wen)(wen)(wen)題(ti)“他什么(me)時(shi)候出生?”時(shi),機(ji)器解析需(xu)要(yao)判斷(duan)現在談(tan)論(lun)的仍然是同一主(zhu)題(ti)。

AI會話能力超越人類!CoQA挑戰賽微軟創新紀錄

根據CoQA排行榜,NLP和SDRG模型取(qu)得的成績再次刷新了(le)記錄,機器(qi)閱讀理(li)解已成功達(da)到(dao)人類水平。

這項成(cheng)就意(yi)味著(zhu)Bing等搜索引擎和Cortana等智能(neng)助手與人們的互動可以通過這種(zhong)模型(xing)以更自然的方式提供(gong)信(xin)息,就像人與人之間相互溝通一樣。

二、微軟模型如何“碾壓”人類?

為了(le)更好地測(ce)試現有(you)模(mo)型(xing)的(de)泛化能力,CoQA從(cong)七個不同的(de)領域(yu)收(shou)集數據(ju),兒童故事、文(wen)學、中(zhong)學和(he)高中(zhong)英語(yu)考(kao)試、新聞(wen)、維(wei)基百科、Reddit和(he)科學。其中(zhong)前五種類型(xing)的(de)文(wen)章(zhang)用于(yu)模(mo)型(xing)的(de)訓練、開發和(he)測(ce)試集,后兩種僅用于(yu)測(ce)試集。

CoQA使(shi)用F1(統計(ji)學中衡量(liang)二分(fen)(fen)(fen)類模(mo)型精確度的(de)(de)(de)(de)指(zhi)標)指(zhi)標來評(ping)估性能。F1評(ping)分(fen)(fen)(fen)衡量(liang)模(mo)型系(xi)統的(de)(de)(de)(de)實際問答效果和(he)預測情況之間的(de)(de)(de)(de)平均(jun)單詞(ci)重(zhong)疊。域(yu)內F1根據與訓練(lian)集(ji)相同(tong)的(de)(de)(de)(de)域(yu)的(de)(de)(de)(de)測試數據進行評(ping)分(fen)(fen)(fen);并對來自不(bu)同(tong)域(yu)的(de)(de)(de)(de)測試數據評(ping)分(fen)(fen)(fen)域(yu)外(wai)F1。總體(ti)F1是(shi)整個測試集(ji)的(de)(de)(de)(de)最終得(de)分(fen)(fen)(fen)。

微軟研究人員(yuan)使用了一種訓(xun)練(lian)模(mo)型(xing)的策略(lve),模(mo)型(xing)系統(tong)從幾(ji)個(ge)相關任(ren)務(wu)(wu)中學習,并將信息用于改進目標機器(qi)閱讀理解(MRC)任(ren)務(wu)(wu)。

AI會話能力超越人類!CoQA挑戰賽微軟創新紀錄

在(zai)這種(zhong)多(duo)階段、多(duo)任(ren)務(wu)的(de)微調(diao)(diao)方法中,研(yan)究人員(yuan)首先在(zai)多(duo)任(ren)務(wu)設置下(xia)從相關(guan)任(ren)務(wu)中學習MRC相關(guan)背景信息,然后在(zai)目標任(ren)務(wu)上微調(diao)(diao)模(mo)(mo)型,并使用語言建模(mo)(mo)在(zai)兩個(ge)階段中輔助完(wan)成任(ren)務(wu),以(yi)幫助減少會(hui)話(hua)式問答模(mo)(mo)型的(de)過度擬合。

NLP和SDRG的(de)(de)策略起(qi)到(dao)了(le)有效的(de)(de)作用(yong),他(ta)們的(de)(de)機器(qi)模型在CoQA挑戰賽中的(de)(de)強(qiang)大表現(xian)進一(yi)步證明了(le)這一(yi)點。

三、走過半世紀,人類在NLP領域取得十大里程碑

NLP是人(ren)工智(zhi)能領域的(de)一個重要子領域,同時(shi)也是一種非常吸引人(ren)的(de)人(ren)機(ji)交互方式,從50年代機(ji)器翻(fan)譯和人(ren)工智(zhi)能研究算(suan)起,NLP至(zhi)今有(you)長達半個世紀的(de)歷史(shi)了。

在過(guo)去的二十(shi)多(duo)年(nian)里,科學家們(men)利用統計(ji)機器學習(xi)方(fang)法,讓NLP技術(shu)不斷向前邁進。

近四年來(lai),深度學習(xi)則給NLP帶來(lai)了新的學習(xi)模(mo)式(shi)。其中(zhong)在單句翻譯、抽取式(shi)閱(yue)讀理解、語法檢查等任務上,更是(shi)達到了可比擬人類的水平。

細數半個世紀以來,人類在NLP領域有著十大里程碑,分別是:

1、1985復雜特征集

2、1966詞匯主義

3、1976統計語言模型

4、2001神經語言模型(Neural language models)

5、2008多任務學習(Multi-task learning)

6、2013詞嵌入

7、2013RNN/CNN用于NLP的神經網絡

8、2014序列到序列模型(Sequence-to-sequencemodels)

9、2015注意力機制和基于記憶的神經網絡

10、2018預訓練語言模型

從2018年至(zhi)今,人類在NLP領域不斷有好消(xiao)息傳(chuan)來(lai)。

去年10月谷歌推出BERT語(yu)言模型,通過在(zai)33億文(wen)本的(de)(de)語(yu)料上(shang)訓練語(yu)言模型,最終BERT在(zai)11項NLP任務中奪得STOA結果,在(zai)自(zi)然語(yu)言處(chu)理(li)學界以及工業界都引起了不小的(de)(de)熱議。

AI會話能力超越人類!CoQA挑戰賽微軟創新紀錄

▲OpenAI GPT-2編造的新聞

今年2月,OpenAI展示了其訓練的一個大規模的無監督語言模型GPT-2,具有來自800萬個網頁的15億數據集,其訓練目標就是基于前面給定的文本,從而預測接下來的文字。它可以生成連貫的文本段落,并進行閱讀理解、機器翻譯、問(wen)答和撰寫(xie)摘要,并(bing)且(qie)所(suo)以這(zhe)些AI能力都不(bu)需要特定任務的(de)訓(xun)練。

結語:NLP研發正迎來黃金時期

在此次(ci)比賽(sai)中(zhong),由微(wei)軟亞研院NLP團隊和(he)微(wei)軟Redmond語音對話團隊在比賽(sai)中(zhong)已經讓模(mo)型(xing)在性能方面達到(dao)人(ren)類水(shui)平,這也(ye)標志著微(wei)軟可以在搜(sou)索引擎(qing)和(he)語音助手等與人(ren)們強交互領域(yu)可以更(geng)自然(ran)地互動和(he)提供信息。

自然(ran)語言理解(jie)被譽為被譽為“人工(gong)智能皇冠上的明(ming)珠(zhu)”,其(qi)進步必將(jiang)會推動人工(gong)智能整體進展(zhan)。從目前來看(kan),隨著深度學習技術的應用(yong),人類在NLP領域正(zheng)不(bu)斷(duan)取得進步,更多有趣(qu)、驚人的AI在陸續(xu)出現,NLP研發也正(zheng)迎來又(you)一個黃金時(shi)期。