
▲頭圖由AI生成
智東西(公眾號:zhidxcom)
編輯 | ZeR0
智東西10月30日報道,今日,昆侖萬維正式發布國內首個全面開(kai)源百(bai)億級(ji)大語言模型「天工」Skywork-13B系(xi)列,600GB、150B Tokens的高質量中文開(kai)源數據集,并全面開(kai)放商用。
也就是說,開發者無需額外申請,即可將大模型進行商業用途,而且開源得足夠徹底,沒有對行業、公司規模、用戶等方面的任何限制。
2008年(nian)成立、從(cong)游(you)戲(xi)起家的(de)昆侖萬維,近年(nian)已逐漸構建(jian)了(le)AGI與AIGC、海外信(xin)息分發與元宇宙、投資(zi)三大業務板塊,業務覆蓋全(quan)球一百(bai)多個(ge)國(guo)家和地區,全(quan)球平(ping)均月(yue)活躍用戶近4億。
昆侖萬維「天工」Skywork-13B系列擁有130億參數,包含Skywork-13B-Base、Skywork-13B-Math兩個大模型,在CEVAL、GSM8K等多個權威評測與基準測試上都展現了同等規模模型的最佳效果,在中文科技、金融、政務等領域表現均高于其他開源模型。
除模型開源外,Skywork-13B系列大模型還將開源600GB、150B Tokens的高質量中文語料數據集Skypile/Chinese-Web-Text-150B,這是目前最大的中文開(kai)源數(shu)據集之一。
Skywork-13B下載(zai)地(di)址:
//modelscope.cn/organization/skywork
//github.com/SkyworkAI/Skywork
一、130億參數、兩大模型、150B中文數據集,全面開放商用!
昆侖萬維(wei)「天工(gong)」Skywork-13B系列包括(kuo)兩大模型及150B高質量中文數據集。
其中,Skywork-13B-Base模型是基礎模(mo)型(xing)(xing),由3.2萬(wan)億個多語言高質量數據訓練而成,在CEVAL、CMMLU、MMLU、GSM8K等評測(ce)與基準測(ce)試上都展現了(le)同等規模(mo)模(mo)型(xing)(xing)的最(zui)佳效果。
Skywork-13B-Math模型,顧名思義,經過專門(men)的數學能力(li)強化訓練,在GSM8K等(deng)數據集上取得(de)了同(tong)等(deng)規模模型的最佳效果。
Skypile/Chinese-Web-Text-150B數據集,是(shi)根據(ju)(ju)昆侖萬維經過(guo)精心(xin)過(guo)濾的數(shu)據(ju)(ju)處理流程(cheng)從中(zhong)(zhong)文網頁(ye)中(zhong)(zhong)篩選出的高質量數(shu)據(ju)(ju)。本次開源數(shu)據(ju)(ju)集大小約為600GB,包含約1500億個token,是(shi)目前最大的開源中(zhong)(zhong)文數(shu)據(ju)(ju)集之一。
除此之外,Skywork-13B系列還公開了模型中使用的評估方法、數據配比研究和訓練基礎設施調優方案等。
為了更加精細化利用(yong)(yong)數(shu)(shu)據,Skywork-13B系列采用(yong)(yong)兩(liang)階段訓練(lian)方(fang)法,第(di)(di)一階段使用(yong)(yong)通用(yong)(yong)語料進行模(mo)型通用(yong)(yong)能(neng)力學習(xi),第(di)(di)二(er)部(bu)分加入STEM(科(ke)學,技術,工程,數(shu)(shu)學)相關數(shu)(shu)據進一步增強模(mo)型的推理能(neng)力、數(shu)(shu)學能(neng)力、問題解(jie)決能(neng)力。
昆(kun)侖萬(wan)維希(xi)望這些開源內容(rong)能(neng)夠進一步啟發社區對(dui)于大型模(mo)型預訓練(lian)的認知(zhi),并(bing)推動(dong)人(ren)工(gong)智能(neng)通用智能(neng)(AGI)的實現。
二、五大特點:評測得分超越Llama 2,無需申請即可商用
昆侖萬維(wei)「天工」Skywork-13B系列(lie)大模(mo)型(xing)在(zai)CEVAL、GSM8K等(deng)多個(ge)權威評測(ce)與基準測(ce)試上都展現(xian)了(le)同(tong)等(deng)規(gui)模(mo)模(mo)型(xing)的最佳效果,其(qi)中文能(neng)力尤為出色,在(zai)中文科(ke)技、金融、政務等(deng)領域表現(xian)均高(gao)于其(qi)他開源模(mo)型(xing)。
昆侖萬維將該系列大模型的特點總結為五個“最”:
1)最強參數表現:根據截至10月(yue)25日的數據,Skywork-13B系列模型在(zai)CEVAL、CMMLU、MMLU、GSM8K等(deng)(deng)權威評估基(ji)準中全面超越Llama-2-13B等(deng)(deng)開源大模型,在(zai)同等(deng)(deng)規(gui)模大模型間取得最佳效果。
與Llama-2-13B相比(bi),天工Skywork-13B模(mo)(mo)型采用相對(dui)(dui)更加瘦長的(de)網(wang)絡結構,層數(shu)為(wei)52層,同時將FFN Dim和(he)(he)Hidden Dim縮小到(dao)12288和(he)(he)4608,從而保證模(mo)(mo)型參數(shu)量和(he)(he)原始(shi)Llama-13B模(mo)(mo)型相當。據昆侖萬維(wei)前期實驗對(dui)(dui)比(bi),相對(dui)(dui)瘦長的(de)網(wang)絡結構在(zai)大Batch Size訓練下可以取得更好的(de)泛化(hua)效果(guo)。
2)最多訓練數據:擁有(you)130億(yi)參(can)數(shu)、3.2萬億(yi)高質(zhi)量多語言訓練(lian)數(shu)據,模型的(de)生成能(neng)(neng)力、創作能(neng)(neng)力和(he)數(shu)學(xue)推理(li)能(neng)(neng)力提升明顯。
3)最強中文語言建模能力:中文(wen)(wen)語(yu)言建模能力、中文(wen)(wen)文(wen)(wen)創能力出色,在科技(ji)、金融(rong)、政務、企業(ye)服務、文(wen)(wen)創、游戲(xi)等領域的中文(wen)(wen)文(wen)(wen)本(ben)創作評測中表現均高于(yu)業(ye)內其他開(kai)源模型。
如圖用(yong)領域數據困惑(huo)度(du)來(lai)(lai)衡量(liang)(liang)語(yu)(yu)言模(mo)(mo)型(xing)跨(kua)領域的(de)(de)語(yu)(yu)言建模(mo)(mo)能力(li)。評(ping)估(gu)一個基礎大模(mo)(mo)型(xing)的(de)(de)重要(yao)方式是評(ping)估(gu)其在各(ge)領域上生成文章的(de)(de)概率,困惑(huo)度(du)通過評(ping)估(gu)模(mo)(mo)型(xing)預(yu)測(ce)下一個詞的(de)(de)平均可(ke)選(xuan)數量(liang)(liang)來(lai)(lai)衡量(liang)(liang)一個語(yu)(yu)言模(mo)(mo)型(xing)的(de)(de)好壞。困惑(huo)度(du)越低(di),意(yi)味(wei)著語(yu)(yu)言模(mo)(mo)型(xing)生成高質量(liang)(liang)文本內(nei)容(rong)的(de)(de)能力(li)越強。
4)最大中文開源數據集之一:將(jiang)配套開(kai)(kai)源(yuan)600GB、150B Tokens的高(gao)質(zhi)量中文(wen)語料數據(ju)集Skypile/Chinese-Web-Text-150B。開(kai)(kai)發(fa)者可以最大程度地借(jie)鑒技術報告中大模(mo)型預訓練(lian)的過程和經驗,深度定制模(mo)型參(can)數,有針對性(xing)的進行訓練(lian)與優(you)化(hua)。
5)最有誠意的開源商用:全面開放商(shang)用許(xu)可,將(jiang)授權(quan)流程做(zuo)到極簡(jian),取消對行業、公司規(gui)模(mo)、用戶等方(fang)面的限制,用戶在(zai)下(xia)載(zai)模(mo)型(xing)(xing)并(bing)同(tong)意(yi)并(bing)遵守(shou)《Skywork模(mo)型(xing)(xing)社區許(xu)可協(xie)議(yi)》后(hou),無需再次申(shen)請授權(quan),即可將(jiang)大模(mo)型(xing)(xing)進行商(shang)業用途。
目前(qian)開源(yuan)社區(qu)中(zhong)的中(zhong)文大模(mo)型多數并非(fei)是完全(quan)可商用(yong),用(yong)戶(hu)通(tong)常需要進行復雜的商用(yong)授(shou)權(quan)申請(qing)流程,有些情況會對公司規模(mo)、所在行業、用(yong)戶(hu)數等維度有明確規定不給予(yu)商業授(shou)權(quan)。
昆侖萬維希望(wang)用戶(hu)能夠(gou)更便(bian)捷地(di)探(tan)索(suo)Skywork-13B系列(lie)大模型技術(shu)能力,探(tan)索(suo)在(zai)不同場景(jing)下(xia)的商業(ye)(ye)化應用,以幫助更多(duo)對中文(wen)大模型感(gan)興趣的用戶(hu)和企業(ye)(ye)在(zai)行(xing)業(ye)(ye)中不斷(duan)探(tan)索(suo)和進步。
三、形成六大AI業務矩陣,以All in AGI與AIGC為戰略重心
昆侖萬維成立于2008年(nian),從游戲起家,2015年(nian)在深(shen)交所(suo)上市(shi),2020年(nian)便已開始布局AIGC領域,正全面構(gou)建(jian)多元化的業務生(sheng)態。
至今,昆侖萬維已積累近三年的相關工程研發經驗,并建立了行業領先的預訓練數據深度處理能力,在AI領域已形成AI大模型、AI搜索、AI游戲、AI音樂、AI動漫、AI社交六大AI業務矩陣。
All in AGI與AIGC是昆侖萬維的戰略。
據了解,昆侖萬(wan)(wan)維董事長兼CEO方漢是(shi)很(hen)早參與到開源(yuan)生態建設的開源(yuan)老兵,也是(shi)中文Linux開源(yuan)最早的推動(dong)者之一,因(yin)此開源(yuan)精神(shen)和AIGC技(ji)術發展的結合將會貫穿于昆侖萬(wan)(wan)維戰略之中。
今年以來,昆(kun)侖萬維一路快馬加鞭(bian),釋出(chu)從基礎大模(mo)型到(dao)AIGC產品的一系列進展:
4月17日,昆侖萬維(wei)發(fa)布自研千億級(ji)大(da)語言模型「天工3.5」,并啟動邀請測試。該模型具備文案創作(zuo)、知識問答、代碼編程、邏輯推演(yan)、梳理推算等多元AI生成能力。
5月19日,北(bei)京市(shi)經濟和信息化局公布第一批(pi)《北(bei)京市(shi)通用(yong)人工智能產(chan)業(ye)創新伙伴(ban)(ban)計劃成員(yuan)名單》,昆侖萬維成為第一批(pi)模型伙伴(ban)(ban)和投資伙伴(ban)(ban)。
8月(yue)23日,昆侖萬維發(fa)布國內第一款AI搜(sou)(sou)索(suo)產品——天(tian)工AI搜(sou)(sou)索(suo),并開啟內測申請。天(tian)工AI搜(sou)(sou)索(suo)通過人性化(hua)、智能化(hua)的(de)方式全面提升用(yong)(yong)戶(hu)(hu)的(de)搜(sou)(sou)索(suo)體(ti)驗,并集成AI對話、AI寫(xie)作等(deng)常用(yong)(yong)功(gong)能,幫(bang)助用(yong)(yong)戶(hu)(hu)提高中文搜(sou)(sou)索(suo)體(ti)驗和工作效率。
9月1日,計算機視覺和機器學(xue)習(xi)領域的國際頂(ding)級專家(jia)顏水成教授正(zheng)式加盟(meng)昆侖(lun)萬維,與昆侖(lun)萬維創始人周(zhou)亞輝一起(qi)出任(ren)天工智能(neng)聯席(xi)CEO,并兼任(ren)昆侖(lun)萬維2050全球研(yan)(yan)究(jiu)院(yuan)院(yuan)長,負責(ze)前沿技術的研(yan)(yan)究(jiu)。
9月(yue)5日,昆侖萬維天工大模(mo)型在騰訊優圖實驗室聯合(he)(he)廈門大學(xue)開展(zhan)的多模(mo)態大語言模(mo)型測(ce)評MME中,綜合(he)(he)得分排名(ming)第(di)一。
9月17日(ri),昆侖萬(wan)維通過信通院(yuan)“可信AI”評估,并被(bei)評選為(wei)人工智(zhi)能(neng)實(shi)驗室副組長單位。
9月25日,昆(kun)侖萬(wan)維正式(shi)控股AI大(da)算力(li)芯片企(qi)業艾捷科芯,布局(ju)AI芯片。
10月26日,天工大模型獲得由北京算(suan)法交易(yi)服務中心頒發的“算(suan)法模型認(ren)證證書”,昆侖萬維成為北京算(suan)法交易(yi)服務中心首(shou)批認(ren)證企業。
今天,天工Skywork-13B系列大模型的開(kai)源,標志著昆侖(lun)萬維持續投資AGI生(sheng)態的決心。
結語:推動開源生態繁榮,加速AI技術落地
蓬勃(bo)發展的(de)(de)(de)開(kai)源生態建設是(shi)構建AI和(he)應(ying)用(yong)融合的(de)(de)(de)重要一(yi)環。持續降低模(mo)型(xing)的(de)(de)(de)研發門檻、使(shi)用(yong)成(cheng)本、最大化的(de)(de)(de)共享技(ji)術能力(li)和(he)經驗(yan),有助于加速AI應(ying)用(yong)普及,促使(shi)更多的(de)(de)(de)企業和(he)開(kai)發者們參與到(dao)AI引領的(de)(de)(de)科技(ji)變(bian)革中。
昆(kun)侖萬維表(biao)示Skywork-13B系列大模型的(de)開(kai)源(yuan)將為大模型的(de)場景應用(yong)和開(kai)源(yuan)社(she)區發展提供最(zui)佳的(de)技(ji)(ji)術支持(chi),加速開(kai)源(yuan)生態(tai)繁(fan)榮,進而(er)降低大模型商(shang)業門檻,推動AI技(ji)(ji)術落(luo)地千行百業。