
智東西(公眾號:zhidxcom)
編 |?王穎
導語:學術出版商Springer Nature與歌德大學開發新算法,使用機器學習技術集合大量文獻摘要,生成研究書籍。
智東西4月12日消息,近日學(xue)術出版商Springer Nature公布了(le)第一本使用機器(qi)學(xue)習生(sheng)成(cheng)的研(yan)究(jiu)書籍(ji)《鋰離(li)子電(dian)池: 機器(qi)生(sheng)成(cheng)的當前研(yan)究(jiu)摘(zhai)要》,它概述了(le)鋰離(li)子電(dian)池領域的最新研(yan)究(jiu)成(cheng)果。
Springer?Nature和法(fa)蘭(lan)克福的(de)(de)(de)歌德大學共同開(kai)發了機(ji)器學習算法(fa)Beta?Write,使用(yong)機(ji)器學習集成(cheng)相似的(de)(de)(de)聚類分析,將海量的(de)(de)(de)文獻連貫的(de)(de)(de)排列(lie)起來(lai),并創建出簡潔的(de)(de)(de)文章(zhang)摘要(yao),將論文摘要(yao)和原文鏈接生成(cheng)書籍(ji),幫助讀者(zhe)盡快獲取系列(lie)論文的(de)(de)(de)重要(yao)內容(rong),還(huan)有助于讀者(zhe)進(jin)一步閱讀原始文章(zhang)。
我們一起來看看AI寫(xie)書水平怎(zen)么樣(yang):
上圖原(yuan)文:隔膜的厚度和孔(kong)狀(zhuang)結構(gou)應(ying)該嚴格管控(kong),為了滿足這兩(liang)項功能(neng),機械(xie)強度和離(li)子導電率之間應(ying)達(da)到良好的平衡。孔(kong)狀(zhuang)結構(gou)和材(cai)料的多(duo)孔(kong)性對于電池中(zhong)分離(li)器的性能(neng)也至關重要。
一、什么是機器學習?
傳統的(de)(de)計算機(ji)編(bian)程(cheng)只能重復(fu)性(xing)的(de)(de)運(yun)行一種(zhong)程(cheng)序,只要(yao)(yao)不(bu)改變編(bian)程(cheng)信息,程(cheng)序運(yun)行就永遠不(bu)會發(fa)生(sheng)改變。而機(ji)器(qi)學(xue)習(xi)是從示例中(zhong)學(xue)習(xi)的(de)(de)軟件,不(bu)需要(yao)(yao)人為的(de)(de)編(bian)寫機(ji)器(qi)學(xue)習(xi)的(de)(de)運(yun)行程(cheng)序,通(tong)過提(ti)(ti)供大(da)量的(de)(de)相關數據(ju)來(lai)訓練(lian)它們(men),當訓練(lian)數據(ju)達到一定量的(de)(de)時候,機(ji)器(qi)學(xue)習(xi)算法就能自(zi)動(dong)通(tong)過數據(ju)中(zhong)的(de)(de)重復(fu)信息總結出答(da)案(an)。不(bu)斷的(de)(de)訓練(lian)也能不(bu)斷的(de)(de)提(ti)(ti)高機(ji)器(qi)學(xue)習(xi)的(de)(de)算法能力。
例如,你(ni)想教會機器算法“什么(me)(me)是(shi)貓(mao)”,就需要(yao)將(jiang)大量(liang)貓(mao)的(de)(de)圖片(pian)輸入算法中標記(ji)為(wei)“貓(mao)”,再將(jiang)一些(xie)錯誤的(de)(de)圖片(pian)標記(ji)為(wei)“不是(shi)貓(mao)”。大量(liang)的(de)(de)數據訓(xun)練后,機器算法就能通過這些(xie)數據中的(de)(de)重(zhong)復性信息來做出判斷,當你(ni)向程(cheng)序提出“什么(me)(me)是(shi)貓(mao)”的(de)(de)問題時,它(ta)將(jiang)向你(ni)展示正確答案。
二、機器學習如何生成書籍?
機器學(xue)習算法總(zong)結了2016年(nian)到2018年(nian)三年(nian)所發表的(de)(de)53000多(duo)篇(pian)關于鋰(li)電子(zi)電池的(de)(de)研究論文(wen),找出150多(duo)篇(pian)權威(wei)研究論文(wen),并(bing)將(jiang)這(zhe)些論文(wen)的(de)(de)摘要進行集合,同時(shi)將(jiang)引用的(de)(de)文(wen)章鏈接附在摘要后(hou),幫助(zhu)讀者進一步閱讀原始的(de)(de)文(wen)章。
提取海(hai)量(liang)文本中(zhong)高質量(liang)的(de)(de)(de)內(nei)容形(xing)成(cheng)連貫(guan)的(de)(de)(de)摘要(yao),對于人類科學家來(lai)說是一個巨大(da)(da)的(de)(de)(de)挑(tiao)戰,需要(yao)大(da)(da)量(liang)的(de)(de)(de)時間和精力閱(yue)讀成(cheng)千上(shang)(shang)萬(wan)的(de)(de)(de)論文。而(er)這本書中(zhong)的(de)(de)(de)摘要(yao)由機器學習通過算(suan)法完成(cheng),AI?的(de)(de)(de)自動掃(sao)描和總結輸出,讓(rang)科學家們把(ba)更(geng)多(duo)時間用(yong)在重(zhong)要(yao)的(de)(de)(de)研(yan)究上(shang)(shang)。
三、AI生成文本還存在許多問題
機(ji)器(qi)學習的(de)(de)(de)蓬勃發展極大地提高了計(ji)算(suan)機(ji)產生書面文(wen)字的(de)(de)(de)能力,但(dan)這些輸出仍然受到嚴重(zhong)限制。AI生成的(de)(de)(de)文(wen)本是根據(ju)(ju)數據(ju)(ju)形成的(de)(de)(de)統一的(de)(de)(de)公式化內容(rong),無法像(xiang)人(ren)(ren)類(lei)一樣創(chuang)造更具連(lian)貫性(xing)和平衡性(xing)的(de)(de)(de)內容(rong)。所以像(xiang)AI生成的(de)(de)(de)小說或詩歌等內容(rong)更傾向于是一種格式,而不是創(chuang)造令人(ren)(ren)信服并(bing)喜歡的(de)(de)(de)引人(ren)(ren)入勝的(de)(de)(de)閱讀體驗。
實(shi)際上(shang),當(dang)翻閱(yue)(yue)AI文(wen)本時,不難(nan)發現其中會有很多(duo)亂碼和不連貫的(de)(de)(de)句子(zi)。這項技(ji)術的(de)(de)(de)關(guan)鍵(jian)難(nan)度在于能否生(sheng)成適合人類閱(yue)(yue)讀(du)習慣,表意清晰的(de)(de)(de)AI文(wen)本。
卡(ka)內基梅隆大學(xue)人機交互研(yan)究的(de)副教授Jeff Bigham認為,把高質量的(de)文(wen)本連貫(guan)的(de)輸入系(xi)統(tong),再(zai)由系(xi)統(tong)生成具(ju)有(you)可讀(du)性的(de)摘要并不是困難(nan)的(de)事情,關(guan)鍵(jian)難(nan)點在于機器學(xue)習(xi)算法是否(fou)具(ju)備自(zi)動提煉摘要的(de)能力(li)。
此外,AI生成(cheng)(cheng)文本還涉及到倫理方面的(de)問(wen)題。比如:誰是機器(qi)生成(cheng)(cheng)內容的(de)創始人?算法的(de)開(kai)發者(zhe)能被(bei)視為生成(cheng)(cheng)作品的(de)作者(zhe)嗎?誰對機器(qi)生成(cheng)(cheng)的(de)內容負責?
機器學(xue)習算法發展到今天所做的(de)(de)更(geng)多的(de)(de)還是(shi)提出問題(ti),而不是(shi)解決問題(ti)。新技術出現帶來的(de)(de)是(shi)一(yi)系(xi)列(lie)新技術本身(shen)發展和(he)其(qi)他相關的(de)(de)引(yin)申問題(ti)。
目前(qian)機器學習算(suan)法(fa)已(yi)經成功地開(kai)發(fa)出了(le)第一個(ge)可以(yi)生成書籍的(de)(de)原型(xing),但(dan)(dan)它對大型(xing)文本(ben)語料庫(ku)的(de)(de)精煉摘要(yao)仍然(ran)不完善,解釋文本(ben)、句(ju)法(fa)和短語關聯有時看起來仍然(ran)很(hen)笨拙。雖然(ran)為了(le)凸顯機器生產內容這一技術(shu)的(de)(de)突破,研究人(ren)員不會手動潤色(se)或復制編輯任何文本(ben),但(dan)(dan)是(shi)這也同時表明了(le)機器學習還有很(hen)長的(de)(de)路(lu)要(yao)走。
目前,這(zhe)本書還(huan)有(you)需(xu)要優(you)化改(gai)進的(de)(de)地方,但這(zhe)是(shi)AI在(zai)自然(ran)的(de)(de)語(yu)言輸(shu)出(chu)方面新的(de)(de)嘗試,這(zhe)種不(bu)完美不(bu)能(neng)否定這(zhe)一技術在(zai)機器學習領域的(de)(de)新成就。
結語:無限算法或將改變世界
機器學習生成書籍的(de)(de)(de)技術(shu)會給(gei)我們(men)的(de)(de)(de)工(gong)(gong)作和生活(huo)(huo)帶(dai)來極大的(de)(de)(de)便利,如果你告訴(su)系統“將過去4年的(de)(de)(de)生物工(gong)(gong)程研究總(zong)結(jie)成一(yi)個(ge)50頁報告”幾分(fen)鐘后(hou)它(ta)(ta)就(jiu)會把準確的(de)(de)(de)內容發送給(gei)你。基于文(wen)本的(de)(de)(de)靈活(huo)(huo)性(xing),你甚至(zhi)可以使(shi)用西班牙語、韓語或其他任何語言向它(ta)(ta)發送請求。
機器學習給(gei)AI發(fa)展帶來了新的可(ke)能,AI技術的進步改變著我們的生(sheng)活,無(wu)限(xian)的算法也將(jiang)給(gei)世界帶來無(wu)限(xian)的可(ke)能。
原文來自(zi):TechCrunch、TheVergeA、SpringerNature