
智東西(公眾號:zhidxcom)
作者 | 香草
編輯 | 漠影
智東(dong)西(xi)9月25日報道,今(jin)天,阿里云舉辦了一(yi)場大模(mo)型(xing)開源發布會,正式發布通(tong)義千問140億參數模(mo)型(xing)Qwen-14B及對(dui)話模(mo)型(xing)Qwen-14B-Chat,開源免費。
繼開源社區口碑之作Qwen-7B之后,Qwen-14B有望成為下一個炸場式的存在。據介紹,Qwen-14B在眾多同尺寸開源模型中突出重圍,在MMLU、C-Eval、GSM8K、MATH、GaoKao-Bench等12個權威測評集上都取得了最優成績,超越所有測評中的SOTA大模型。部分能力相比Llama 2的34B、70B模型也并不遜色。
▲Qwen-14B模型在12個權威榜單上(shang)超越SOTA大(da)模型
Qwen-14B在“易用性(xing)”方面下了很大(da)功夫。通(tong)義千問團隊升(sheng)級了Qwen模型對接(jie)外部系(xi)統(tong)的(de)能力,開(kai)發(fa)者可以(yi)通(tong)過簡(jian)單的(de)操作實現復(fu)雜(za)(za)的(de)插件調用,也(ye)可以(yi)基于Qwen系(xi)列基座模型快速開(kai)發(fa)Agent等AI系(xi)統(tong),利用Qwen的(de)理(li)解和(he)規劃能力完成復(fu)雜(za)(za)的(de)任務。同時,Qwen-7B也(ye)實現了全面升(sheng)級,核心指標(biao)最高提(ti)升(sheng)22.5%。
▲阿(a)里(li)云智能CTO周靖(jing)人在發布會上(shang)發布Qwen-14B
就在上個月,阿里云破天荒地成為國內首個步入大模型開源陣營的大廠。開源通用模型Qwen-7B、對話模型Qwen-7B-Chat等。短短一個多月,Qwen-7B等模型的下載量就突破了100萬,開源社區出現了50多個相關衍生模型,且有多家月活過億的企業向通義千問團隊申請使用。浙(zhe)江(jiang)大學(xue)等的智海(hai)-三樂教育(yu)垂直大模(mo)型(xing)、浙(zhe)江(jiang)有鹿(lu)機器人的智能清潔機器人等均基于Qwen-7B打(da)造。
開源,顯(xian)然不是(shi)阿(a)里(li)云(yun)一時(shi)興(xing)趣的決定。阿(a)里(li)云(yun)智(zhi)能CTO周靖人在發布會上表明,阿(a)里(li)云(yun)會堅(jian)持擁(yong)抱開源開放的決心,“讓(rang)算力更普惠,讓(rang)AI更普及(ji)”。
Qwen-14B-Chat體驗地址:
//modelscope.cn/studios/qwen/Qwen-14B-Chat-Demo/summary/
一、“反向推理”沒有難倒Qwen-14B,怎么做到的?
Qwen-14B是(shi)一款(kuan)支持多種語言(yan)的高(gao)性能開源(yuan)模(mo)型,相比(bi)同(tong)類模(mo)型使用了更多的高(gao)質量(liang)數(shu)(shu)據,整體(ti)訓練數(shu)(shu)據超(chao)過3萬億Tokens,使得模(mo)型具備更強大的推理、認知、規劃和記(ji)憶(yi)能力,最大支持8k的上下文窗口長度。
與Qwen-7B相比,Qwen-14B模型進一步(bu)增(zeng)強了(le)Agent能力,在使用復雜工(gong)具時(shi)的可靠性有了(le)顯著提升。例(li)如,Qwen-14B可以熟(shu)練地使用Code Interpreter(代碼(ma)解釋(shi)器)工(gong)具執(zhi)(zhi)行Python代碼(ma),進行復雜的數學計算、數據(ju)分(fen)析和數據(ju)圖表繪制等(deng)工(gong)作。此外,Qwen-14B的規劃和記憶能力也得到了(le)提升,在執(zhi)(zhi)行多文檔問答和長文寫作等(deng)任務時(shi)表現更加可靠。
有趣的是,當(dang)智東西向Qwen-7B-Chat聊天機器人提出一(yi)個(ge)涉及到“反向推(tui)理”的問題時(shi),Qwen-7B-Chat給(gei)出了準確的回答。近日,來自英(ying)國前沿AI工作組、Apollo Research、紐約大學、牛(niu)津等機構的一(yi)項研究表(biao)明,大模(mo)型(xing)在(zai)從(cong)“A是B”推(tui)理出“B是A”的問題上(shang)(shang)(shang)存在(zai)困境,在(zai)519個(ge)關于明星的事實中,預訓練(lian)大模(mo)型(xing)可(ke)以(yi)在(zai)一(yi)個(ge)方(fang)向上(shang)(shang)(shang)復(fu)現,但在(zai)另一(yi)個(ge)方(fang)向上(shang)(shang)(shang)卻不能。
▲Qwen-7B-Chat聊天機器人(ren)對“反向推理”問題的回答
那么,Qwen-14B是如何做到的(de)呢?
首先,在數據集構建方面,通(tong)義千問(wen)研發團(tuan)隊(dui)使用了3萬億Tokens的(de)(de)大規模預(yu)訓(xun)練數(shu)據(ju)(ju)集,覆蓋了各個領域和千行百業的(de)(de)知識,包(bao)含多個語種的(de)(de)語言、代(dai)碼數(shu)據(ju)(ju)等。在此基(ji)礎之上,研發團(tuan)隊(dui)做了較為精細(xi)的(de)(de)數(shu)據(ju)(ju)處理,包(bao)括大規模數(shu)據(ju)(ju)去重、垃圾文本過濾、以及提升(sheng)高質量數(shu)據(ju)(ju)比(bi)例(li)等。
其次,在模型結構方面,通義(yi)千問研發團隊做了(le)一系列(lie)前(qian)期實驗,用來(lai)驗證(zheng)模型(xing)結構(gou)設(she)計對效果的(de)(de)(de)影(ying)響。整體(ti)而言(yan),Google的(de)(de)(de)PaLM、Meta的(de)(de)(de)Llama模型(xing)中(zhong),大多數(shu)的(de)(de)(de)技術選擇都是效果較(jiao)好的(de)(de)(de),包括(kuo)SwiGLU的(de)(de)(de)激活函數(shu)設(she)計、ROPE的(de)(de)(de)位置(zhi)編碼等(deng),這(zhe)些(xie)技術在Qwen的(de)(de)(de)結構(gou)設(she)計中(zhong)均得到采用。
通義千問團(tuan)隊針(zhen)對詞(ci)表做了專門優(you)化,詞(ci)表大小(xiao)超過15萬(wan),具有較好的(de)編碼效(xiao)率(lv)。相比其(qi)他Tokenizer(分詞(ci)器),能用更少的(de)Token表示更多的(de)信息,通過節省Token的(de)數量(liang)來(lai)實現更低的(de)成(cheng)本。
此外,通義千問團隊重點針(zhen)對長序列(lie)(lie)數據建模(mo)做(zuo)了(le)優化,采用當前最有效(xiao)的(de)策略,包括但(dan)不限于(yu)Dynamic NTK、Log-N Attention Scaling、Window Attention等,并做(zuo)了(le)一些細節的(de)調整以(yi)保證長序列(lie)(lie)數據上模(mo)型表(biao)現效(xiao)果(guo)更穩定(ding)。目前,Qwen-14B模(mo)型能(neng)夠適配并取(qu)得穩定(ding)表(biao)現的(de)序列(lie)(lie)長度(du)達到(dao)了(le)8192。
通(tong)義千問研發團隊(dui)表示(shi),大(da)模(mo)型訓練其實(shi)沒有太多(duo)復雜的(de)(de)(de)技巧,更(geng)(geng)多(duo)的(de)(de)(de)是(shi)通(tong)過大(da)量(liang)嘗試與迭代(dai),找(zhao)到更(geng)(geng)好的(de)(de)(de)訓練參數,達到訓練穩(wen)定(ding)性、訓練效(xiao)果和訓練效(xiao)率的(de)(de)(de)最優(you)(you)平衡,包括但不限于優(you)(you)化器的(de)(de)(de)配置、模(mo)型并行的(de)(de)(de)配置等。
最后,在外接工具的能力方面,研發團隊(dui)主要做了兩方(fang)面的(de)(de)優化。一是在(zai)微調樣本方(fang)面,通(tong)過(guo)建立更全面的(de)(de)自動評(ping)估基準,主動發現了之前(qian)Qwen表現不穩定的(de)(de)情(qing)況,并針對性地使用Self-Instruct自我指導方(fang)法擴充了高質量的(de)(de)微調樣本。二是提升了底座預訓練模型(xing)的(de)(de)能(neng)力,從而增強了模型(xing)的(de)(de)理解和代碼能(neng)力。因(yin)此,Qwen-14B的(de)(de)表現明顯(xian)優于(yu)Qwen-7B。
目前,Qwen-14B及對話模(mo)型Qwen-14B-Chat已上線(xian)魔搭社(she)區,供全(quan)社(she)會免費使用(yong)。除(chu)了從魔搭社(she)區直接下(xia)載模(mo)型,用(yong)戶還可(ke)通過阿里(li)云靈積(ji)平臺(DashScope)訪問調用(yong)Qwen-14B和(he)Qwen-14B-Chat,體驗阿里(li)云提(ti)供的包括模(mo)型訓練、推理(li)、部署、精(jing)調等(deng)在內的全(quan)方位服務(wu)。
二、開發者用腳投票,通義千問跑出落地加速度
8月3日(ri),阿里云開源通義(yi)(yi)千(qian)問(wen)70億參數模(mo)型(xing)Qwen-7B和對話模(mo)型(xing)Qwen-7B-Chat,兩款模(mo)型(xing)均開源、免費。在多個權威(wei)測評中(zhong),通義(yi)(yi)千(qian)問(wen)7B模(mo)型(xing)取得了超越國內外同等尺(chi)寸模(mo)型(xing)的效果(guo)。
海量開(kai)發者的反饋驗證(zheng)了Benchmark的測評結論(lun)。據(ju)介紹(shao),Qwen-7B在(zai)魔搭(da)以外的開(kai)源社(she)區也廣受歡迎(ying),先后沖上(shang)Hugging Face、GitHub等社(she)區的Trending(趨勢)榜(bang)單,在(zai)英文世(shi)界大模型占據(ju)統治地位的海外開(kai)源社(she)區也刷遍存(cun)在(zai)感。
▲Qwen-7B沖上GitHub的Trending榜單
開發者用腳投票,一個多月間累計下載了100多萬次Qwen-7B等模型,開源社區先后出現50多款基于Qwen的新模型,通義千問團隊也已收到多家月活超1億的企業申請使用授權。
目前,開源社區多個知名工具和框架都集成了Qwen,如支持用大模(mo)型(xing)搭建WebUI、API以及微(wei)調(diao)的工具(ju)FastChat,量(liang)化(hua)模(mo)型(xing)框(kuang)(kuang)架(jia)AutoGPTQ,大模(mo)型(xing)部(bu)署和推理框(kuang)(kuang)架(jia)LMDeploy,大模(mo)型(xing)微(wei)調(diao)框(kuang)(kuang)架(jia)XTuner等等。
還有大量開發者基于Qwen開發了自己的模型和應用,如(ru)個人開(kai)(kai)發者開(kai)(kai)發的LLaMA-Efficient-Tuning、Firefly和OpenAI.mini等項目,均(jun)支持(chi)或使用(yong)了Qwen模(mo)型(xing)。
▲量化模(mo)型框架AutoGPTQ集成(cheng)了通義(yi)千問Qwen模(mo)型
在開源舉措(cuo)加持下,通(tong)義千問大模型跑(pao)出了落地應用的(de)加速度,接入通(tong)義千問的(de)應用機構(gou)涵蓋互聯網和(he)傳統行業(ye)、學界(jie)和(he)工業(ye)界(jie)、頭部(bu)企業(ye)和(he)初創公司等,包括阿(a)里(li)系的(de)淘寶(bao)、釘(ding)釘(ding)、未(wei)來精(jing)靈(原天貓(mao)精(jing)靈),三(san)方的(de)浙江大學和(he)高等教育出版社(she)、浙江有(you)鹿機器(qi)人(ren)科技有(you)限公司等。
▲周靖(jing)人在發布會(hui)上介紹Qwen-7B的落地情況
阿(a)里(li)云(yun)在發(fa)布會上(shang)展示了多個通(tong)義千問(wen)應用(yong)案(an)例,讓“大(da)(da)模(mo)型(xing)落地”變(bian)得可(ke)(ke)(ke)知(zhi)可(ke)(ke)(ke)感。比(bi)如,浙(zhe)江(jiang)大(da)(da)學聯合高等教(jiao)(jiao)育(yu)出版社(she)和阿(a)里(li)云(yun),基(ji)于Qwen-7B訓(xun)練(lian)了智海(hai)-三樂教(jiao)(jiao)育(yu)垂(chui)直大(da)(da)模(mo)型(xing),已(yi)在阿(a)里(li)云(yun)靈積平臺上(shang)線服務,開發(fa)者僅需一行(xing)代碼即可(ke)(ke)(ke)使用(yong)。該模(mo)型(xing)已(yi)在全國12所高校(xiao)應用(yong),可(ke)(ke)(ke)提供智能(neng)問(wen)答、試題生成、教(jiao)(jiao)學評(ping)估等能(neng)力(li)。
初創企業浙江(jiang)有(you)鹿機(ji)器人(ren)科技(ji)有(you)限公司,則把Qwen-7B集(ji)成(cheng)(cheng)到機(ji)器人(ren)身上,開始面(mian)向“具身智(zhi)能”的(de)(de)新探(tan)索。在(zai)路(lu)面(mian)清潔(jie)(jie)機(ji)器人(ren)AI130中,有(you)鹿通過(guo)集(ji)成(cheng)(cheng)Qwen-7B,讓機(ji)器人(ren)能使用自(zi)然語言(yan)和用戶(hu)進(jin)行實時交互,理解用戶(hu)提出(chu)的(de)(de)需求,比(bi)如“去(qu)清理一(yi)下5號樓邊上的(de)(de)可(ke)樂瓶”,機(ji)器人(ren)能自(zi)動對(dui)用戶(hu)的(de)(de)高(gao)(gao)層指令進(jin)行分析和拆(chai)解,通過(guo)高(gao)(gao)層的(de)(de)邏輯(ji)分析和任務(wu)規(gui)劃,完成(cheng)(cheng)清潔(jie)(jie)任務(wu)。
三、“一花獨放不是春”,全面擁抱開源開放
阿里(li)云稱,百(bai)模(mo)大戰(zhan)(zhan)中,很多人(ren)看(kan)到“大戰(zhan)(zhan)”,而(er)阿里(li)云看(kan)到“百(bai)模(mo)”。
阿里云副(fu)總(zong)裁、公眾與客戶溝通部(bu)(bu)總(zong)經理張啟對記者說:“一花獨放不是(shi)(shi)春(chun),百花齊放春(chun)滿園。不管是(shi)(shi)閉(bi)源大(da)(da)(da)模(mo)(mo)型(xing)(xing)的(de)還(huan)(huan)是(shi)(shi)開(kai)源大(da)(da)(da)模(mo)(mo)型(xing)(xing),自研(yan)大(da)(da)(da)模(mo)(mo)型(xing)(xing)還(huan)(huan)是(shi)(shi)第(di)三(san)方大(da)(da)(da)模(mo)(mo)型(xing)(xing),大(da)(da)(da)規(gui)模(mo)(mo)參數模(mo)(mo)型(xing)(xing)還(huan)(huan)是(shi)(shi)小(xiao)規(gui)模(mo)(mo)參數模(mo)(mo)型(xing)(xing),通用大(da)(da)(da)模(mo)(mo)型(xing)(xing)還(huan)(huan)是(shi)(shi)行業、企業專(zhuan)屬大(da)(da)(da)模(mo)(mo)型(xing)(xing),阿里云全部(bu)(bu)歡迎(ying)和支持(chi)(chi),共同建設一個最大(da)(da)(da)的(de)大(da)(da)(da)模(mo)(mo)型(xing)(xing)自由市場。我們希望所有(you)大(da)(da)(da)模(mo)(mo)型(xing)(xing)都能跑(pao)在阿里云上,跑(pao)得更(geng)快、更(geng)便(bian)宜、更(geng)安全。也因為(wei)此,阿里云率(lv)先開(kai)源7B、14B模(mo)(mo)型(xing)(xing),并將持(chi)(chi)續開(kai)源開(kai)放,為(wei)開(kai)源社區貢獻(xian)力量。”
這(zhe)解釋了阿里(li)云的(de)另類路(lu)線(xian):造生(sheng)態。回顧大模型興(xing)起以來(lai)阿里(li)云的(de)種(zhong)種(zhong)舉措,從理論(lun)到實踐,阿里(li)云都在(zai)做(zuo)同一件事(shi)。
2022年,阿里云在業界首提MaaS(Model as a Service,模型即服務)理念,為(wei)新一(yi)(yi)輪AI浪(lang)潮下的(de)(de)大(da)模(mo)型生態建(jian)設提供了(le)理論依據(ju)和(he)最佳(jia)實踐(jian)。MaaS理念的(de)(de)內核(he),在于提出(chu)一(yi)(yi)種全(quan)新的(de)(de)、以AI模(mo)型為(wei)核(he)心的(de)(de)開(kai)(kai)(kai)發(fa)范式。阿(a)里云據(ju)此搭(da)建(jian)了(le)一(yi)(yi)套(tao)以AI模(mo)型為(wei)核(he)心的(de)(de)云計算技術和(he)服務架(jia)構,并(bing)將這套(tao)能力向(xiang)大(da)模(mo)型初(chu)創企業和(he)開(kai)(kai)(kai)發(fa)者全(quan)面開(kai)(kai)(kai)放。不到一(yi)(yi)年時間,大(da)模(mo)型行業已是“言必(bi)稱MaaS”。
▲周靖人在(zai)發布(bu)會上介紹阿里云(yun)的MaaS理念
2023年7月,阿里云宣布將把促進中國大模型生態的繁榮作為首要目標,向大(da)模型創業(ye)公(gong)司提供全方(fang)位的服務,包括最強大(da)的智能算力(li)和開發工(gong)具,并在資金和商業(ye)化探索(suo)方(fang)面提供充(chong)分支(zhi)持。
根據本次發布會分享,提供底層算力服務,阿(a)里云(yun)有(you)幾重獨有(you)優勢(shi):
在基礎設施層(ceng),阿里云擁(yong)有國內(nei)最強的智(zhi)能(neng)算(suan)力儲備(bei),其靈駿智(zhi)算(suan)集(ji)群可支持最大十萬卡GPU規模,承載多個萬億參數大模型(xing)同時(shi)在線訓練。
在AI平(ping)臺層,阿里(li)云機器學習平(ping)臺PAI提供AI開發全流程(cheng)的工(gong)程(cheng)能力(li),可將大模型(xing)(xing)(xing)訓練時間(jian)縮(suo)短10倍;一站式(shi)模型(xing)(xing)(xing)服(fu)務(wu)平(ping)臺靈(ling)積擁(yong)有自動化的模型(xing)(xing)(xing)上云統一工(gong)具(ju)鏈路,支(zhi)持模型(xing)(xing)(xing)自主接入(ru)并自動獲(huo)取平(ping)臺的強大服(fu)務(wu)能力(li)。靈(ling)積平(ping)臺現已托管通義千問、Stable Diffusion、ChatGLM-v2、百川、姜子(zi)牙等(deng)大模型(xing)(xing)(xing)。
在開發(fa)者生態(tai)層(ceng),阿里云牽頭建設了中國的(de)AI開源(yuan)第一門(men)戶——魔搭(da)社(she)區(qu)ModelScope。魔搭(da)社(she)區(qu)秉(bing)承(cheng)“模型(xing)即(ji)服務”的(de)創新(xin)理(li)念,聚(ju)集了由30多家(jia)頂尖AI機構(gou)貢(gong)獻的(de)1200多個(ge)優(you)質AI模型(xing),并將(jiang)AI模型(xing)變為(wei)直接(jie)可用(yong)的(de)服務,為(wei)開發(fa)者提供一站式的(de)模型(xing)體驗、下載、推理(li)、調優(you)、定制等服務。
▲周靖人(ren)在(zai)發布會上介紹魔(mo)搭社區(qu)
魔搭社區的模型貢獻者基本覆蓋國內大模型賽道核心玩家,大模型企業不約而同將魔搭作為自研模型開源首發第一站。9月,百川智能的(de)Baichuan 2系列模(mo)(mo)型、上(shang)海(hai)人工智能實驗室(shi)的(de)書生(sheng)(sheng)·浦語(yu)(yu)20B模(mo)(mo)型、智譜AI的(de)MathGLM等模(mo)(mo)型均在魔搭開源首發。其中(zhong),書生(sheng)(sheng)·浦語(yu)(yu)系列模(mo)(mo)型與魔搭社區達成生(sheng)(sheng)態合作,表示(shi)將共同推動中(zhong)國大模(mo)(mo)型生(sheng)(sheng)態建設。
模型供給的豐富,帶來了開發者的匯聚,“找大模型上魔搭”已經成為開發者的共同心智。上線不到一年時間,社區已經聚集230萬AI開發者,模型累計下載量突破8500萬。
在阿(a)里(li)云暢想的“大模型(xing)自(zi)由市場”中,通義千問只是“百(bai)模”之一(yi)。而開(kai)源(yuan)開(kai)放(fang),正是阿(a)里(li)云知行合(he)一(yi),開(kai)展大模型(xing)生(sheng)態(tai)建設的“最佳實踐(jian)”。
開源生態對促進通用大模型的技術普惠與應用落地至關重要。大模型訓(xun)練成本高,絕大部分(fen)中小企業和(he)開發者(zhe)難以承受。大模型開源,能夠(gou)將頭(tou)部企業的大模型能力以更低成本、更快(kuai)速度推向中小企業和(he)開發者(zhe),加快(kuai)推進大模型生態(tai)建設,孕育(yu)大模型應用(yong)創新。
從(cong)更宏觀的(de)(de)(de)(de)視角(jiao)看,AI大模(mo)(mo)型(xing)的(de)(de)(de)(de)競(jing)爭(zheng)(zheng)不僅(jin)是(shi)公(gong)(gong)司(si)之(zhi)間、研究團隊(dui)之(zhi)間的(de)(de)(de)(de)競(jing)爭(zheng)(zheng),更是(shi)生(sheng)(sheng)態(tai)與生(sheng)(sheng)態(tai)之(zhi)間的(de)(de)(de)(de)競(jing)爭(zheng)(zheng)。如果說“公(gong)(gong)共云+AI”的(de)(de)(de)(de)系統能力是(shi)大模(mo)(mo)型(xing)競(jing)爭(zheng)(zheng)的(de)(de)(de)(de)入場券,那技術(shu)和(he)產(chan)業(ye)生(sheng)(sheng)態(tai)就是(shi)全球大模(mo)(mo)型(xing)競(jing)爭(zheng)(zheng)的(de)(de)(de)(de)主戰場。產(chan)業(ye)生(sheng)(sheng)態(tai)是(shi)構筑商業(ye)閉環和(he)競(jing)爭(zheng)(zheng)壁壘的(de)(de)(de)(de)關鍵,越早將大模(mo)(mo)型(xing)推向市場,越多吸納用戶(hu)的(de)(de)(de)(de)反饋來反哺(bu)大模(mo)(mo)型(xing),越能實現“模(mo)(mo)型(xing)越強、應(ying)(ying)用越多,應(ying)(ying)用越多、模(mo)(mo)型(xing)越強”的(de)(de)(de)(de)“飛(fei)輪(lun)效應(ying)(ying)”。
最終,受益的是每一個開發者、中小企(qi)業,以(yi)及整個大模型行業。