智東西(公眾號:zhidxcom)
編譯 | 趙迪
編輯 |?云鵬

智東西1月19日消息,據外媒報(bao)道,近來,AI語言處(chu)理(li)工(gong)具“tl;dr papers”在推特上得到大量學(xue)者推薦。“tl;dr papers”運用AI語言處(chu)理(li)領域(AI language processing)的(de)前沿技術,根據論文(wen)(wen)摘要總結論文(wen)(wen)觀點,能(neng)將難以理(li)解的(de)學(xue)術文(wen)(wen)章(zhang)提煉(lian)為簡潔通俗的(de)短句,增強(qiang)趣味性(xing),不僅便于(yu)讀者閱讀,也(ye)為教育科普提供了(le)新(xin)手段。同時(shi),它(ta)對文(wen)(wen)章(zhang)的(de)概(gai)括也(ye)能(neng)啟發研究人(ren)員從新(xin)角度(du)重新(xin)審視研究對象(xiang)。

英語俚語中(zhong)用縮寫“tl;dr”代表(biao)“Too Long;Didn’t Read”,意(yi)為(wei)“文章太(tai)長(chang),沒有(you)興(xing)趣看”。對(dui)于那(nei)些有(you)難度(du)、不想看的學術(shu)論(lun)文,“tl;dr papers”正好可以助(zhu)你一臂之力,它將長(chang)篇幅的文章濃縮至一句(ju)話(hua),讓你能夠快速(su)瀏覽文章內容。

目前,AI語言處理(li)工(gong)具在微(wei)軟、谷歌等主(zhu)流(liu)公司被(bei)廣泛應用(yong),但它(ta)們(men)對訓練數據的依賴(lai)性(xing)較高,不能自(zi)主(zhu)辨別不良信(xin)息,甚至會幫助(zhu)傳播(bo)這些信(xin)息。此(ci)外,AI語言處理(li)工(gong)具常(chang)產生違背基本常(chang)識的處理(li)結果,其準確(que)性(xing)還有待提高。

一、一句話概括高難度論文,新科普手段出現

“tl;dr papers”是由(you)亞什·達尼(Yash Dani)和辛迪·吳(wu)(Cindy Wu)在兩年前創建的(de)AI語言處(chu)理(li)網站,本意是協助(zhu)自己了(le)(le)解更(geng)多軟件開發知識。上(shang)(shang)周末,學(xue)(xue)(xue)者們(men)紛(fen)紛(fen)在推特上(shang)(shang)分享(xiang)“tl;dr papers”對其學(xue)(xue)(xue)術(shu)論文的(de)概括總結,熱度一夜飆升。“tl;dr papers”主要根據學(xue)(xue)(xue)術(shu)論文摘要進(jin)行概括,刪減(jian)了(le)(le)學(xue)(xue)(xue)術(shu)術(shu)語,用語簡(jian)潔,雖然忽(hu)略了(le)(le)概念之間的(de)細微差(cha)別,但(dan)整(zheng)體上(shang)(shang)總結準確(que),富有(you)趣味(wei)性,得到學(xue)(xue)(xue)者們(men)的(de)廣泛肯定(ding)。

澳大利亞國立大學(xue)全球女(nv)性領導力(li)(li)研究(jiu)所所長米歇爾?瑞恩(en)(Michelle Ryan)教授曾發表一篇關(guan)于“glass cliff”的文章,指出在(zai)組(zu)織面臨(lin)危(wei)機或經濟低迷時(shi)期,女(nv)性比男性更有可能(neng)被(bei)選中擔任領導角(jiao)色,這(zhe)本質上是一種性別歧視。“tl;dr papers”將(jiang)其概(gai)括為(wei)“很多女(nv)性被(bei)置于‘glass cliff’之(zhi)上,這(zhe)是一個糟糕的地方”,這(zhe)句(ju)總(zong)結句(ju)式簡單、意義明確,小(xiao)學(xue)生也能(neng)毫不費力(li)(li)地看懂。

一夜爆紅的AI語言處理工具,能一句話總結論文,但仍“難辨是非”

▲Ryan教授在推特上發文支持“tl;dr papers”

賓夕法尼(ni)亞大(da)學(xue)(xue)安納(na)伯格傳播學(xue)(xue)院的(de)博士生贊恩·格里(li)芬·塔利·庫珀(po)(Zane Griffin Talley Cooper)也用其概(gai)括了一(yi)篇(pian)有(you)關“數據(ju)外圍(data peripheries)”的(de)論(lun)文,原文內(nei)容(rong)是追溯大(da)數據(ju)基礎(chu)設施材料的(de)物理學(xue)(xue)歷史。這篇(pian)論(lun)文最后被總結為“大(da)數據(ju)存儲在硬(ying)盤(pan)驅(qu)動器(qi)上,硬(ying)盤(pan)驅(qu)動器(qi)由(you)非常小的(de)磁鐵制(zhi)成,磁鐵從(cong)地下開采(cai)出來。”庫珀(po)意識到(dao)(dao),表面(mian)上看(kan)“tl;dr papers”是用于娛樂(le),但(dan)實際上它還可以(yi)被應用到(dao)(dao)教學(xue)(xue)和研(yan)究中,比如幫助學(xue)(xue)生閱(yue)讀(du)復雜的(de)論(lun)文,為在線期刊(kan)生成簡化版摘要,方便公(gong)眾閱(yue)讀(du)。

二、看看機器如何理解,激發研究人員創造力

莫納(na)什大學(xue)新興(xing)技術研究(jiu)(jiu)實驗室(shi)的(de)(de)(de)高(gao)級研究(jiu)(jiu)員賈森·薩多夫斯基(Jathan Sadowski)對“tl;dr papers”很感興(xing)趣,將它看作研究(jiu)(jiu)人員創造力的(de)(de)(de)催化劑。他認為“tl;dr papers”提供的(de)(de)(de)總結往(wang)往(wang)具有“偶然(ran)的(de)(de)(de)智慧”,這也許(xu)是機(ji)器(qi)學(xue)習無法完全(quan)理解(jie)語言的(de)(de)(de)副產(chan)品,但機(ji)器(qi)提供的(de)(de)(de)這些(xie)視角能夠幫助(zhu)在自己的(de)(de)(de)領(ling)域(yu)挖掘甚深的(de)(de)(de)學(xue)者從更新奇(qi)的(de)(de)(de)角度看待(dai)自己的(de)(de)(de)研究(jiu)(jiu)對象。

薩多夫斯基(ji)認為(wei),像“tl;dr papers”這樣(yang)的AI語言(yan)處理工具(ju)可以挖(wa)掘自(zi)身作(zuo)為(wei)“創(chuang)(chuang)造力(li)催化劑”的定位。布(bu)萊恩·伊諾(Brian Eno)和(he)彼(bi)得·施密特(Peter Schmidt)曾(ceng)創(chuang)(chuang)造一組卡片(pian)“Oblique Strategies”,每張卡片(pian)上(shang)都有一個警句(ju)或(huo)評論,旨在通過鼓勵(li)橫向思維(wei)來幫助藝術家(jia)(尤其是音(yin)樂家(jia))打破創(chuang)(chuang)作(zuo)障礙。“tl;dr papers”也可以提供類(lei)似的服務(wu),激發學者開拓新的思維(wei)模式。事實上(shang),一些公司已經察覺到AI在這方面的潛力(li),推出(chu)了(le)AI創(chuang)(chuang)意寫作(zuo)助手。

一夜爆紅的AI語言處理工具,能一句話總結論文,但仍“難辨是非”

▲Oblique Strategies網站隨機生成的警句

三、囿于數據庫和統計方法,AI語言處理工具難辨是非

目前AI語(yu)言(yan)處理工(gong)具(ju)以訓(xun)練(lian)(lian)數據(ju)為基(ji)礎,而訓(xun)練(lian)(lian)數據(ju)通(tong)常只(zhi)是從互聯(lian)網上搜集的(de)大量(liang)文本,因此這些AI語(yu)言(yan)處理工(gong)具(ju)有(you)可能會(hui)強(qiang)調不良信息,比如重復(fu)涉及種族主義和(he)性別歧視的(de)污言(yan)穢語(yu),還(huan)可能以更(geng)微妙的(de)方(fang)式帶有(you)偏見。

AI語(yu)言處理工具(ju)的(de)不準確性也令(ling)人(ren)擔憂。這(zhe)些工具(ju)運(yun)用統計(ji)方法(fa)處理語(yu)言,對(dui)內容(rong)的(de)理解方式(shi)與人(ren)類不同(tong),這(zhe)可能會(hui)導致一些非常基本的(de)錯誤,甚(shen)至(zhi)可能危及生命。谷歌(ge)搜(sou)索曾(ceng)在回答“癲癇發作應(ying)對(dui)措施”問題時提供了誤導性的(de)醫療建議。去(qu)年12月,亞馬遜的(de)語(yu)音助手(shou)Alexa在一個(ge)孩(hai)子(zi)讓其隨機(ji)推薦一個(ge)挑戰時,引導孩(hai)子(zi)把手(shou)機(ji)充電(dian)器插到墻上插座的(de)一半,然(ran)后用一枚(mei)硬幣(bi)去(qu)觸碰暴露在外的(de)金屬(shu)頭。

一夜爆紅的AI語言處理工具,能一句話總結論文,但仍“難辨是非”

▲用戶發布(bu)了Alexa給出的誤導性信息截圖

這(zhe)些都說明了AI語言(yan)處(chu)理工具在結構模型上的弱點,即作為(wei)模型基礎的數(shu)據魚龍(long)混雜,模型采(cai)用的方法與人類理解語言(yan)的方式也存在差距。薩多夫(fu)斯基認為(wei),像這(zhe)樣的AI語言(yan)處(chu)理工具應(ying)該小心處(chu)理,讓(rang)它(ta)們盡量可以發揮正面作用。

結語:AI語言處理工具拓展應用范圍,但精確性還需加強

AI語言處理工(gong)(gong)具“tl;dr papers”對高難度學(xue)術論文(wen)進(jin)(jin)行了準確、簡潔的概(gai)括,使(shi)學(xue)術內容以更富趣味性(xing)的形式呈現在大(da)眾面(mian)前。這些概(gai)括不僅具有娛樂性(xing),還能(neng)(neng)夠促進(jin)(jin)知識科(ke)普,激發研(yan)究人員的創造力(li)(li),助力(li)(li)教學(xue)和研(yan)究工(gong)(gong)作,展現了人工(gong)(gong)智(zhi)能(neng)(neng)語言處理工(gong)(gong)具廣闊(kuo)的應用前景。

AI語言(yan)處(chu)理(li)工具長期采(cai)用以統計為主(zhu)的(de)(de)(de)經驗主(zhu)義方(fang)法(fa),這種與人類大相徑庭的(de)(de)(de)語言(yan)理(li)解方(fang)式幫助人們(men)(men)在(zai)計算機(ji)語言(yan)處(chu)理(li)上取得(de)了極大進步。未來,這種方(fang)法(fa)能否(fou)進一(yi)步消除人們(men)(men)對其(qi)錯(cuo)誤(wu)傾向性(xing)、準確(que)性(xing)的(de)(de)(de)擔憂,值得(de)期待。

來源(yuan):The Verge