智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智(zhi)(zhi)(zhi)(zhi)(zhi)東(dong)西1月4日報道(dao),上周(zhou)四(si)(12月30日),在北京智(zhi)(zhi)(zhi)(zhi)(zhi)源(yuan)(yuan)人工(gong)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)研(yan)(yan)(yan)究(jiu)院(yuan)自然語言處理重大研(yan)(yan)(yan)究(jiu)方向前沿技術開放日上,北京智(zhi)(zhi)(zhi)(zhi)(zhi)源(yuan)(yuan)人工(gong)智(zhi)(zhi)(zhi)(zhi)(zhi)能(neng)研(yan)(yan)(yan)究(jiu)院(yuan)(以下簡稱(cheng)“智(zhi)(zhi)(zhi)(zhi)(zhi)源(yuan)(yuan)研(yan)(yan)(yan)究(jiu)院(yuan)”)發布大模型評測(ce)的(de)“命題”新方案——智(zhi)(zhi)(zhi)(zhi)(zhi)源(yuan)(yuan)指數(shu)。

NLP是智(zhi)源重(zhong)大(da)學(xue)(xue)(xue)術研究方向之(zhi)一(yi),由(you)清(qing)華大(da)學(xue)(xue)(xue)孫(sun)茂松教(jiao)(jiao)授任該方向首席(xi)科學(xue)(xue)(xue)家,北京語言大(da)學(xue)(xue)(xue)楊爾弘教(jiao)(jiao)授任項目經(jing)理,學(xue)(xue)(xue)者包(bao)括(kuo)李涓子、穗(sui)志(zhi)方、劉洋(yang)、萬小軍、何曉冬,青(qing)年科學(xue)(xue)(xue)家包(bao)括(kuo)劉知(zhi)遠(yuan)、韓先培、孫(sun)栩、嚴(yan)睿、張家俊(jun)、趙鑫、楊植(zhi)麟、李紀為等(deng)。

除(chu)了發布智源(yuan)指數外,本次技術開放(fang)日期間,24位自然語言處理(NLP)學術專家,20多(duo)項(xiang)前沿報告、10余項(xiang)最新研究成果“組(zu)團”亮相。

一、智源指數CUGE:面向大模型的多層次、多維度評測方案

據清華大學(xue)副教授、智源(yuan)青年科學(xue)家、智源(yuan)指(zhi)(zhi)數建設骨(gu)干成員劉(liu)知遠介紹(shao),智源(yuan)指(zhi)(zhi)數CUGE(全(quan)稱為Chinese Language Enderstanding and Generation Evaluation)是一個全(quan)面均衡的(de)機(ji)器中文語言能力(li)評測(ce)基準(zhun),在(zai)全(quan)面系統的(de)評測(ce)體系基礎上建立了(le)多層次、多維度(du)的(de)評測(ce)方案。

智源NLP重大研究方向發布“智源指數”,全面系統評測機器中文語言能力

CUGE網站鏈(lian)接:cuge.baai.ac.cn

技術(shu)報告鏈接:arxiv.org/pdf/2112.13610.pdf

代碼鏈接(jie):github.com/TsinghuaAI/CUGE

在基準框架上,不同于傳統將常用數據集扁平組織的方式,智源指數根據人類語言考試大綱和當前NLP研究現狀,以語言能力-任務-數據集的分層框架來選擇和組織數據集,涵蓋7種重要語言能力、17個主流NLP任務和19個代表性數據集全面均衡,避免“偏科選拔”

智源NLP重大研究方向發布“智源指數”,全面系統評測機器中文語言能力▲智源指數CUGE框架

在評分策略上,參考現有評測方案優缺點,智源指數構建了一個多層次的評測方案,能更好展現模型不同維度的模型語言智能差異:依托能力-任務-數據集層次(ci)性(xing)(xing)基準框架,提供(gong)不同層次(ci)的(de)模型(xing)性(xing)(xing)能評分,系統性(xing)(xing)大(da)大(da)加強。

智源指(zhi)數會提(ti)供一個參與者模型的(de)性能排行榜,該排行榜充(chong)分吸收了(le)國內外(wai)相(xiang)(xiang)關評(ping)測基準的(de)特點,構建出了(le)一個具有相(xiang)(xiang)應特色。

第一,排行榜基(ji)于能力(li)-任務-數據集(ji)體系,會給每一(yi)個數據集(ji)所對應的標簽,方(fang)便參與者篩選出感興趣的能力(li)或角度,進行相應的評測。

第二,基于(yu)標簽體系,支持參與者通過標簽篩選(xuan)的方式(shi)定(ding)制排行榜。同時官方也會提供若(ruo)干代(dai)表推薦套餐,如精(jing)簡(jian)榜等(deng),更(geng)加方便(bian)地讓參與者利用(yong)其(qi)平臺開展有針對性(xing)的能(neng)力評測。

第三,根據(ju)7種重要(yao)語言(yan)能(neng)力呈現雷達圖,直(zhi)觀反映不同(tong)模型在不同(tong)能(neng)力上提升的(de)效果。

第四,平臺(tai)同時會支持單數(shu)據(ju)集(ji)的(de)排行榜(bang)和評(ping)測(ce),更加有利于參與者(zhe)去追蹤數(shu)據(ju)集(ji)研究的(de)進展和動(dong)態。也就是(shi)說,任何一個單個數(shu)據(ju)集(ji),都可以看到相(xiang)關評(ping)測(ce)效果的(de)榜(bang)單。

智源NLP重大研究方向發布“智源指數”,全面系統評測機器中文語言能力

“我們希望以(yi)學術(shu)的(de)(de)視(shi)角(jiao)構建(jian)智源指數,讓它回歸我們本身構造這種(zhong)(zhong)評測基準的(de)(de)初心,不是變成刷榜的(de)(de)行(xing)為。”劉知遠認為,專門針(zhen)對榜做優化,并(bing)不意味(wei)著大(da)模型在應用場景中獲得很好的(de)(de)效果,這種(zhong)(zhong)行(xing)為沒有意義,反而會浪費非常大(da)的(de)(de)算力和時間。

智源指數會每年定期吸納新的優秀數據集加入到智源指數的計算中來,同時所有的提交者必須填寫Honor? Code并展示,不人工干預數(shu)據預訓練和測試過(guo)程。未來智(zhi)源(yuan)(yuan)也(ye)計(ji)劃依托智(zhi)源(yuan)(yuan)研(yan)究院、智(zhi)源(yuan)(yuan)社(she)區的力量(liang),提(ti)供(gong)用戶面向數(shu)據集和評測結果(guo)的反饋意見、討論機制(zhi),通過(guo)交(jiao)互(hu)交(jiao)流(liu)來去構建起中文高質量(liang)數(shu)據集社(she)區的機制(zhi),來推動中文的自(zi)然語言(yan)處理的發(fa)展。

為了更好地去支持智源指數的發展,智源研究院搭建了「智源指數工作委員會」,由孫茂松擔任主任,穗志(zhi)方(fang)和楊(yang)爾弘(hong)擔任副(fu)主任。目前,委員會單位(wei)已經吸納了國內在自然語(yu)言處理方(fang)面10余家優勢單位(wei),接(jie)近(jin)20個(ge)相關優勢研究組,去針對智源指數不斷進(jin)行改進(jin),力求更加科學、規范、高質量地推進(jin)中文自然語(yu)言處理技術的標準評測。

對此,清華大學教授、中國人工智(zhi)能學會理事長戴瓊海院(yuan)士評價說:“祝賀孫茂松(song)教授帶領智(zhi)源NLP學者(zhe)共(gong)同建立了(le)機器(qi)中文(wen)語言能力評測基準智(zhi)源指(zhi)數,這(zhe)對中文(wen)信息處(chu)理乃至我國人工智(zhi)能的(de)發展具有重要的(de)里程碑意(yi)義(yi)。”

二、穗志方:NLP評測中的問題與對策

在智源學者(zhe)成果報告會環節(jie),北京(jing)大學穗志方教授分享了NLP評測中的問題與對策。

他談(tan)到(dao)NLP評測中存在的(de)問題涉及評測的(de)規范性(xing)、效率、指標、周(zhou)期、數據集及任務等。

首先,評測缺乏一定規范性。這致(zhi)使(shi)評(ping)測(ce)的(de)(de)準入(ru)門檻非常低(di),評(ping)測(ce)數量(liang)過多而質(zhi)量(liang)參差不齊,研(yan)究者們往往采用(yong)對自己的(de)(de)模型最有利的(de)(de)數據集,并聲(sheng)稱(cheng)達到(dao)了(le)最好結果,這導(dao)致(zhi)后續研(yan)究者難(nan)以(yi)客觀地比較和超越,使(shi)得(de)公(gong)眾難(nan)以(yi)把握當(dang)前領域的(de)(de)真實研(yan)究水(shui)平。

第二,評測效率衰退。面對參數量越(yue)來越(yue)大的模型,大部分(fen)現有評(ping)測(ce)任務已(yi)經無法明(ming)顯區分(fen)人類水平和機器(qi)表現。大部分(fen)評(ping)測(ce)在短時(shi)間(jian)內失去(qu)了效力(li),這被稱之為評(ping)測(ce)效力(li)衰退。

第三,評測生命周期非常短。部分評測數據集提出后不久,最好的機器模型得分就超過了人類基準。評測系統過快失去效力,缺少生命力。?

NLP評測(ce)(ce)的(de)是語(yu)(yu)(yu)言(yan)(yan)能力還是語(yu)(yu)(yu)言(yan)(yan)表(biao)(biao)現(xian),這是一(yi)個比較深刻的(de)問(wen)題。周期(qi)短(duan)、效力衰(shuai)退僅僅是語(yu)(yu)(yu)言(yan)(yan)上的(de)一(yi)種表(biao)(biao)現(xian),語(yu)(yu)(yu)言(yan)(yan)能力如何去真正評估機器(qi)的(de)語(yu)(yu)(yu)言(yan)(yan)能力,我們(men)需要(yao)評測(ce)(ce)的(de)是機器(qi)的(de)語(yu)(yu)(yu)言(yan)(yan)能力,而不僅僅是表(biao)(biao)層的(de)一(yi)種行為(wei)臨時的(de)呈現(xian)。

另一個問題是通用的NLP評測。通用的NLP評(ping)測是(shi)否能(neng)(neng)夠完整、綜(zong)(zong)(zong)合(he)、系(xi)(xi)統(tong)的考察(cha)機(ji)器理解與語言處理的綜(zong)(zong)(zong)合(he)能(neng)(neng)力(li)?我們看到(dao)的是(shi)綜(zong)(zong)(zong)合(he)性(xing)匯總,綜(zong)(zong)(zong)合(he)性(xing)評(ping)測可能(neng)(neng)并不是(shi)綜(zong)(zong)(zong)合(he),只是(shi)簡單的數據聚合(he),各(ge)任務之間(jian)缺乏(fa)有機(ji)關聯,各(ge)個(ge)任務沒(mei)有真正結合(he)成一(yi)個(ge)系(xi)(xi)統(tong),缺乏(fa)一(yi)個(ge)系(xi)(xi)統(tong)性(xing)的體系(xi)(xi)。

評測(ce)技術單(dan)一,為什么機器模型在短期(qi)內(nei)可以(yi)達到比較高的(de)水(shui)平?有一部分原因(yin)(yin)是因(yin)(yin)為評測(ce)技術,僅(jin)僅(jin)依(yi)托(tuo)于固(gu)定的(de)訓練集(ji)、測(ce)試集(ji)和(he)開發集(ji),一成不變的(de)數據集(ji)很容易被(bei)機器模型學會、突破,導致(zhi)評測(ce)的(de)生命周期(qi)非常短。所(suo)以(yi),評測(ce)技術方(fang)面還有待(dai)進(jin)一步突破。

三、10余項豐碩成果智源NLP研究方向探索與落地并重

本次(ci)技術開放日中還進行了“自(zi)然語言處理評測中的(de)問(wen)題(ti)與對策”、“邁向通用連續(xu)型知識庫”、“文(wen)本復述生成”等研(yan)究成果的(de)階段(duan)性匯報(bao),內容涵蓋預訓練模型、知識計算(suan)、人機對話、文(wen)本生成等10余(yu)項重(zhong)點NLP科研(yan)問(wen)題(ti)。

在智源研究院的支持下,自然語言處理重大研究方向學者團隊積極探索自然語言處理新格局,通過大數據與富知識雙輪驅動,并通過與跨模態信息進行交互,顯著提升以自然語言為核心的中文語義理解與生成能力

智源NLP重大研究方向發布“智源指數”,全面系統評測機器中文語言能力

落地應用方面,清華大學教授、智源研究員李涓子團隊構建的“多模態北京旅游知識圖譜”可(ke)以為路徑規(gui)劃和景點信息查詢(xun)等(deng)功能(neng)提供數據支持(chi),為游客(ke)進行(xing)旅游行(xing)程的規(gui)劃。

京東集團副總裁、智源研究員何曉冬博士團隊針對大規模與訓練語言模型在長文本理解任務上的不足,通過從局部視角到全局視角的重復閱讀方法(Read-over-Read,RoR),提出了一種基于多視角的機器閱讀理解模型,顯著地提高了針對長文本的閱讀理解能力

多樣性文本復述方面,北京大學王選計算機(ji)研(yan)(yan)究(jiu)所(suo)研(yan)(yan)究(jiu)員、智源(yuan)研(yan)(yan)究(jiu)員萬小軍(jun)團隊的(de)(de)科研(yan)(yan)成果(guo)實現了兩個(ge)“業(ye)界首(shou)個(ge)”:成功構建了業(ye)界首(shou)個(ge)面向(xiang)學術(shu)(shu)文(wen)(wen)獻領(ling)域的(de)(de)文(wen)(wen)本(ben)復(fu)述(shu)數據(ju)集(ji)ParaSCI,提出了多樣化語句復(fu)述(shu)模(mo)型(xing)(xing)DivGAN,并提出業(ye)界首(shou)個(ge)篇(pian)章復(fu)述(shu)模(mo)型(xing)(xing)-CoRPG。該系列研(yan)(yan)究(jiu)分(fen)別為文(wen)(wen)本(ben)復(fu)述(shu)領(ling)域提供了基礎數據(ju)資源(yuan)、方法模(mo)型(xing)(xing)以及新的(de)(de)思路,從而推動文(wen)(wen)本(ben)復(fu)述(shu)技術(shu)(shu)的(de)(de)應用落地。

預訓練大模型方面,為突破預(yu)(yu)訓練語言模(mo)型(Pretrained Language Model, PLM)的(de)高(gao)計算成本、高(gao)設備(bei)需求、難應用適(shi)配等瓶頸問題,清華大學副教授、智(zhi)源青年科學家劉知(zhi)遠等提出了(le)面向PLM的(de)全流程(cheng)高(gao)效計算框(kuang)架, 并(bing)基于此框(kuang)架構建了(le)以(yi)中文為核心的(de)超(chao)大規模(mo)預(yu)(yu)訓練語言模(mo)型CPM-2,具有1980億參數,覆蓋多語言、兼顧(gu)語言理解和語言生(sheng)成的(de)功能,并(bing)研制(zhi)了(le)BMInf、OpenPrompt等配套開源工具。

趙鑫、韓先培、張家俊等7位青年科學家,也(ye)帶來關(guan)于預(yu)訓練(lian)模型、多模態語言等方面(mian)的(de)最新成(cheng)果分享,帶來新一代(dai)學者(zhe)的(de)前沿思考(kao)。

包括NLP方(fang)(fang)向(xiang)在內,智(zhi)源研(yan)究(jiu)院于2019年4月啟動(dong)的“智(zhi)源學(xue)者計劃”,目前(qian)已(yi)在人工智(zhi)能(neng)(neng)的數理基礎(chu)、人工智(zhi)能(neng)(neng)的認知神經基礎(chu)、機器學(xue)習、智(zhi)能(neng)(neng)信(xin)息檢索與挖掘(jue)、智(zhi)能(neng)(neng)體系(xi)架構與芯(xin)片等幾大研(yan)究(jiu)方(fang)(fang)向(xiang)匯聚了(le)近百位一流人工智(zhi)能(neng)(neng)學(xue)者,鼓勵支持學(xue)者進行自由探(tan)索。

目(mu)前,智源研究(jiu)院(yuan)堅持(chi)“自由探索+目(mu)標(biao)導向”并(bing)重(zhong),取得了“悟道”大模型(xing)等多項首發、原創級重(zhong)大成果,已累計支持(chi)——發表國(guo)際人工智能(neng)頂(ding)會頂(ding)刊論文1470余篇,申請(qing)中國(guo)專利82件,獲得發明(ming)專利授權49件,登(deng)記軟件著作權24項。

接(jie)下來,悟道大(da)(da)(da)模(mo)型(xing)仍將是(shi)(shi)智源研(yan)究(jiu)院(yuan)的(de)(de)助推研(yan)究(jiu)方向。在接(jie)受媒體采(cai)訪時,孫茂松教授提到(dao)認同(tong)大(da)(da)(da)模(mo)型(xing)發(fa)展(zhan)將進入冷(leng)靜期(qi)的(de)(de)判斷,大(da)(da)(da)模(mo)型(xing)發(fa)展(zhan)現在到(dao)了(le)(le)(le)兩萬億的(de)(de)參數,再往(wang)上(shang)發(fa)展(zhan),單(dan)純(chun)的(de)(de)規模(mo)擴大(da)(da)(da)有(you)(you)沒有(you)(you)意(yi)義,但是(shi)(shi)大(da)(da)(da)模(mo)型(xing)展(zhan)現出很多奇妙的(de)(de)、深(shen)刻的(de)(de)性質,下一步應該研(yan)究(jiu),如果把(ba)這(zhe)里面幾個(ge)(ge)問題搞清楚了(le)(le)(le),有(you)(you)可能讓大(da)(da)(da)模(mo)型(xing)作為一個(ge)(ge)引(yin)子,引(yin)出更深(shen)刻的(de)(de)模(mo)型(xing)上(shang)的(de)(de)問題,直著走差不多了(le)(le)(le),但是(shi)(shi)把(ba)大(da)(da)(da)模(mo)型(xing)消化透(tou),有(you)(you)可能會有(you)(you)比較大(da)(da)(da)的(de)(de)峰回路轉。

“奇妙的性質現在還沒有得(de)到很好(hao)的解釋(shi),這(zhe)(zhe)個(ge)東西搞(gao)明白了,對腦(nao)科學的研(yan)(yan)究(jiu)基(ji)本能覆蓋,”孫教(jiao)授(shou)說,“因為研(yan)(yan)究(jiu)人(ren)腦(nao)有很多(duo)限制(zhi),但是(shi)(shi)研(yan)(yan)究(jiu)神經網絡人(ren)工(gong)腦(nao),人(ren)工(gong)腦(nao)所有參數對我們都是(shi)(shi)透明的,檢測也是(shi)(shi)非常精準的,腦(nao)的研(yan)(yan)究(jiu)沒有這(zhe)(zhe)些好(hao)的條(tiao)件。這(zhe)(zhe)塊如果(guo)這(zhe)(zhe)個(ge)問題研(yan)(yan)究(jiu)透了,可(ke)能會有更深層(ceng)次的發展。”

結語:中文NLP評測任重道遠

正如(ru)戴瓊(qiong)海(hai)院士在演講中所言,如(ru)果(guo)說自然語言處(chu)理是(shi)人工智能(neng)皇冠上的(de)(de)一顆明珠,建立科學的(de)(de)評價(jia)標準就需(xu)要尋找這顆明珠的(de)(de)本身,如(ru)果(guo)方向錯(cuo)了走的(de)(de)越(yue)遠、偏離越(yue)多,很有可能(neng)找不到。

近十年里智能語(yu)言處理突飛(fei)猛進,特別是超大規模(mo)預訓練(lian)語(yu)言模(mo)型(xing)等技(ji)術的(de)(de)突破,英文(wen)語(yu)言能力(li)評價基(ji)準(zhun)發揮了至(zhi)關(guan)重要的(de)(de)指(zhi)引(yin)作用。他(ta)希望未來(lai)智源指(zhi)數(shu)能夠(gou)在(zai)各位學(xue)(xue)者、老師(shi)和(he)同(tong)學(xue)(xue)們的(de)(de)共同(tong)努力(li)下,不斷制定完善評價體系,團結更多研究(jiu)機構和(he)大學(xue)(xue)、學(xue)(xue)者、公司(si)、研究(jiu)人員,貢獻(xian)重要的(de)(de)力(li)量,也期待未來(lai)每年都能夠(gou)看到基(ji)于智源指(zhi)數(shu)的(de)(de)機器中(zhong)文(wen)語(yu)言能力(li)的(de)(de)進展(zhan)和(he)重要貢獻(xian)。