
智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
大(da)規模中文(wen)語(yu)言模型,又迎(ying)來(lai)了(le)新玩家。
近日,微信AI推出百億級參數規模的自研NLP大規模語言模型WeLM,能在零樣本及少樣本的情境下完成對話-采訪、閱讀理解、翻譯、改寫、續寫、多語言閱讀理解等NLP(自然語言處理)任務,具備記憶能力、自我糾正和檢查能力。?
目(mu)前(qian),WeLM已部(bu)(bu)署應(ying)用(yong)于(yu)微信(xin)視頻(pin)號的部(bu)(bu)分場景中,未來在進一步優化后(hou)還將應(ying)用(yong)于(yu)更多微信(xin)應(ying)用(yong)場景。
一、極強知識儲備,在14項中文NLP任務中表現超同類
WeLM可在(zai)零樣本(ben)(ben)(ben)及少(shao)樣本(ben)(ben)(ben)的情境下,完成多類NLP任(ren)務(wu)。以文本(ben)(ben)(ben)風格轉(zhuan)換(huan)(改寫)為例(li),盡管(guan)用戶給(gei)出的5個例(li)子和最后需要生成的例(li)子并沒有重(zhong)合(he)的風格轉(zhuan)換(huan)類型,但WeLM擁有出色的舉一反三(san)能力,通(tong)過學習少(shao)量的文本(ben)(ben)(ben)轉(zhuan)換(huan)例(li)子,即可達到(dao)對任(ren)意類型的文本(ben)(ben)(ben)轉(zhuan)換(huan)。
該模型還具有(you)尺寸(cun)合理的(de)優(you)勢,在與業界同級別的(de)CPM、華為Pangu和(he)百度Ernie3.0的(de)對比測試(shi)中,WeLM表現出極強的(de)知識儲(chu)備。
在(zai)14項中(zhong)文NLP任務上,WeLM的整體表現超出了(le)所有同(tong)(tong)大(da)小的模型,甚至能(neng)(neng)(neng)夠匹配比它大(da)25倍的模型。同(tong)(tong)時,在(zai)強大(da)的中(zhong)文理解(jie)和生成能(neng)(neng)(neng)力外(wai),WeLM還(huan)有出色的多語(yu)言理解(jie)能(neng)(neng)(neng)力,用戶的輸入可以在(zai)跨多語(yu)言(中(zhong)日(ri)英)絲滑切換。
從“微信AI推出のWeLM是(shi)一個(ge)language model thatいろいろなtaskをperformができる”這句(ju)混合(he)中(zhong)日(ri)英三(san)國(guo)語(yu)言文本的翻譯(yi)結果來看,WeLM的翻譯(yi)相較Google翻譯(yi)更為精準。
在進一步微調后,WeLM可以擁有更好的(de)零樣本學習能力,根據場景擁有更好的(de)表現。
二、自回歸模型路線,全量數據10TB
WeLM的相(xiang)關技術(shu)論文《WeLM: A Well-Read Pre-trained Language Model for Chinese》已發布于(yu)論文預印本網站arXiv。
論文鏈接:
據介紹,在純Encoder(Bert)、純Decoder(GPT) 以及Encoder-Decode(T5) 結構等主流NLP模型(xing)路(lu)徑的選擇上,WeLM和GPT3、Google PaLM一樣,選擇了自(zi)回(hui)歸模型(xing)的路(lu)線。
同時,考慮到不同的用(yong)(yong)戶(hu)對于模型效果(guo)和推(tui)理延遲會有(you)考量或(huo)者(zhe)取舍(trade-off),微信AI的WeLM訓練了1.3B、2.7B以及10B三個版(ban)本的模型,滿足(zu)不同用(yong)(yong)戶(hu)的調用(yong)(yong)需(xu)求。
同時(shi),在訓練(lian)數(shu)(shu)據上,微信AI團隊希望(wang)構建(jian)一個足夠(gou)(gou)豐富(fu)、足夠(gou)(gou)干凈(jing)、足夠(gou)(gou)公平的(de)數(shu)(shu)據集,為此研究團隊從Common Crawl下(xia)載了近兩年的(de)中(zhong)文網頁數(shu)(shu)據,和(he)大量的(de)書籍、新(xin)聞。
為了(le)(le)增強(qiang)專業能力(li),微(wei)信(xin)AI團隊還在數(shu)(shu)據(ju)集補(bu)充(chong)了(le)(le)知識密集的(de)(de)論(lun)壇數(shu)(shu)據(ju)和一(yi)些學術(shu)論(lun)文,搜集完成(cheng)后的(de)(de)全(quan)量數(shu)(shu)據(ju)10TB,其中(zhong)包含(han)了(le)(le)750G的(de)(de)英文數(shu)(shu)據(ju),并保留了(le)(le)部(bu)分日韓文。
隨后,通過規則(ze)過濾和額外(wai)訓練的二分類fasttext模型,以及對測(ce)評相關數據(ju)的去除,數據(ju)集最終處理完的數據(ju)量(liang)為(wei)262B tokens。
為了更好(hao)的(de)(de)(de)平衡(heng)各個數(shu)據源(yuan)的(de)(de)(de)比(bi)重(zhong),微信AI團隊也對數(shu)據進行不(bu)同比(bi)重(zhong)的(de)(de)(de)采樣,最終,整體數(shu)據集的(de)(de)(de)Topic分布相比(bi)Common Crawl更加(jia)平滑。
結語:落地且實用才是硬道理
為了(le)(le)推動(dong)WeLM落(luo)地應用,微信(xin)AI團隊還發(fa)布(bu)了(le)(le)一(yi)個(ge)供(gong)用戶體驗(yan)的(de)交互式網頁(ye)PlayGround,并開放了(le)(le)用于訪問WeLM的(de)API接口。用戶可通過(guo)調整配置(zhi)以實現更貼(tie)近的(de)文本生成效果。
體(ti)驗申(shen)請API接口:
除了通過(guo)交互式(shi)網頁PlayGround進(jin)行體驗外,想開發者也可以通過(guo)//welm.weixin.qq.com/docs/api/填寫問卷獲得WeLM的API Token并調用相應(ying)接口,將WeLM部署在自己的應(ying)用上。
未來,微信AI還將針對WeLM進行(xing)進一步(bu)的(de)微調優(you)化,進一步(bu)提升(sheng)其在新任務上的(de)泛化效果,并吸取更多(duo)開發者、用戶的(de)意見和建議,將該模型早日打磨成為真正能落地且實(shi)用的(de)工具。