
智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西11月5日報道,今日,騰訊宣布開源MoE大語言模型混元Large、騰訊混元3D生成模型Hunyuan3D-1.0正式開(kai)源,并全(quan)面披露騰訊混元的全(quan)系列多尺寸模型、C端應用、B端應用版圖。
騰訊稱混元Large是業界參數規模最大、效果最好的開源MoE大語言模型,采用(yong)7T訓練(lian)tokens,總(zong)參數量389B,激活參數量52B,上下文長度(du)高達256K,技術報(bao)告也(ye)同步發布。
混(hun)元-Large包(bao)括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8。
與有(you)相似激活(huo)參數量(liang)的(de)業界開(kai)源模(mo)型Llama3.1-405B、Mixtral-8x22B等(deng)相比(bi),在多學科綜合評測集(ji)、中英文NLP任(ren)務、代碼、數學等(deng)9大維度,混(hun)元Large實現(xian)全面領(ling)先。
混元Large包含高質量合成數據、專家特定的學習率縮放、KV緩存壓縮、長上下文處理能力、廣泛的基礎測試等主要技(ji)術創新,具體可參見技(ji)術報告。
騰訊混元3D生成大模型則是業界首個同時支持文字、圖像生成3D的開源大模型,不僅在定量(liang)指(zhi)標上達到(dao)開源(yuan)模(mo)型(xing)的(de)先進(jin)水平,而且輕量(liang)版生成高(gao)質量(liang)3D資產只(zhi)需10秒(miao)(miao),標準版也(ye)將(jiang)文/圖生成3D資產的(de)耗時縮至45秒(miao)(miao)內。
兩(liang)個(ge)模型(xing)均屬騰訊自(zi)研(yan),均已經在騰訊業務場(chang)景中落(luo)地應(ying)用(yong),經過(guo)實(shi)踐的檢(jian)驗(yan),是面向實(shi)用(yong)場(chang)景的應(ying)用(yong)級大模型(xing)。
新開源模型支持企業及開發者精調、部署(shu)等(deng)不同場景的(de)使(shi)用(yong)需求,可在HuggingFace、Github等(deng)技術社(she)區直接(jie)(jie)下載,免(mian)費可商(shang)用(yong)。騰訊云TI平(ping)臺和高性能(neng)應用(yong)服務HAI也開放接(jie)(jie)入這兩個模型,為模型的(de)精調、API調用(yong)及私有(you)化部署(shu)提供一站式服務。
混元Large Hugging Face地址://huggingface.co/tencent/Tencent-Hunyuan-Large
混元Large GitHub地址://github.com/Tencent/Tencent-Hunyuan-Large
混元3D生成模型GitHub地址://github.com/Tencent/Hunyuan3D-1
混元3D生成模型Hugging Face地址://huggingface.co/tencent/Hunyuan3D-1
一、最大開源MoE大語言模型:六大關鍵技術,將開源企業卷軸數據集
MoE即混合專家模(mo)型(xing)(xing),是目前國(guo)內外主流的大模(mo)型(xing)(xing)結(jie)構。據騰(teng)訊機器學習技術總監、混元算法負(fu)(fu)責人康戰(zhan)輝分享,相(xiang)(xiang)較密集模(mo)型(xing)(xing),MoE模(mo)型(xing)(xing)在相(xiang)(xiang)同(tong)成本(ben)下效果更優,在相(xiang)(xiang)同(tong)規(gui)模(mo)下訓練(lian)/推理成本(ben)更低,而且容量大,可訓練(lian)更多(duo)數據。當(dang)前MoE的挑戰(zhan)有訓練(lian)穩定性差、專家負(fu)(fu)載不(bu)均衡等。
一些應對方案包括:1)Scaling Law探索,設計基于中小模型簇的MoE Scaling Law實驗機制,探索最優的模型參數設置;2)路由機制,探索高效的專家路由策略;3)訓練穩定性,涉及特有的訓練schedule,loss收斂更(geng)快(kuai)更(geng)穩定。
混元Large模型有六大關鍵技術:
1、MoE Scaling Law探索:混元(yuan)團隊投入大(da)量(liang)成(cheng)本,全面探索了專家(jia)個數(shu)、激活參數(shu)量(liang)和訓練tokens量(liang)的(de)Scaling Law。在MoE Scaling Law的(de)指(zhi)導下(xia),混元(yuan)-Large在算(suan)力預算(suan)內合理選擇模型最(zui)佳激活參數(shu)量(liang)以及訓練token數(shu)。
2、路由和訓練策略:1)共享專家路由策略,共享專家負責處理共享的通用能力和知識,特殊專家負責處理任務相關的特殊能力;2)回收路由策略,有效激活每個專家的能力,使每個專家保持相對均衡的負載,充分利用訓練數據,保證模型的訓練穩定性和收斂速度;3)專家特定學習率適配策略,根據學(xue)習率(lv)(lv)和(he)Batch size的縮放(fang)原則,為不同專家適配不同的最佳學(xue)習率(lv)(lv),以提高模型訓(xun)練效率(lv)(lv)。
3、高質量的合成數據:混(hun)元團隊在(zai)天(tian)然文(wen)本語料庫的(de)基礎上,利用混(hun)元內(nei)部系列大(da)語言(yan)模型(xing)構建了覆蓋數(shu)十個類目的(de)高質量、高多樣性、大(da)量級的(de)中(zhong)(zhong)英文(wen)合成數(shu)據,顯(xian)著(zhu)提(ti)升模型(xing)效果(guo)(guo),其中(zhong)(zhong)數(shu)學(xue)和代碼效果(guo)(guo)提(ti)升超(chao)過10%。
4、長文能力優化:針對長文領域測評數據集缺乏、方法不夠客觀等問題,騰訊混元Large基于公開數據,自研企鵝卷軸(PenguinScrolls)數據集,覆蓋各種深度閱讀理解、長文推理任務。為了填補行業真實長文評測集不足,騰訊混元即將開源企鵝卷軸評測集。
騰訊混元Large模型(xing)專項提升(sheng)的長(chang)文(wen)能力(li)已應用到騰訊AI助手騰訊元寶上,最大支持256K上下文(wen),相當于一(yi)本《三(san)國演義》的長(chang)度,可一(yi)次性(xing)處理(li)上傳最多(duo)10個文(wen)檔(dang),并(bing)能一(yi)次性(xing)解析多(duo)個微信(xin)公眾號鏈(lian)接、網址,使騰訊元寶具備獨有的深度解析能力(li)。
5、推理加速優化:為了提高推理效率進行(xing)KV Cache壓(ya)(ya)縮(suo)(suo),使用Grouped-Query Attention (GQA)和(he)Cross-Layer Attention (CLA)兩種KV cache壓(ya)(ya)縮(suo)(suo)策略(lve),從head/layer兩個維度聯合(he)壓(ya)(ya)縮(suo)(suo)KV Cache,并引入(ru)量化技術(shu),進一步提升壓(ya)(ya)縮(suo)(suo)比,最(zui)終(zhong)將模型的KV Cache壓(ya)(ya)縮(suo)(suo)為MHA的5%,大幅提升推理性(xing)能。
6、Post-train優化:針對SFT難獲取高質量數學(xue)(xue)、代碼(ma)等(deng)(deng)數據的(de)問(wen)(wen)題,構建百萬量級合成數據,分門別類提升數學(xue)(xue)、邏輯推理(li)、代碼(ma)等(deng)(deng)能(neng)力;針對RLHF泛化(hua)(hua)性弱(ruo)的(de)問(wen)(wen)題,在(zai)離線(xian)DPO的(de)基礎上引入(ru)了二階(jie)段在(zai)線(xian)強化(hua)(hua)策略,實現整體效(xiao)果處(chu)于業界(jie)頭部水平,文本創作、知識問(wen)(wen)答、數理(li)邏輯及(ji)代碼(ma)能(neng)力相較競品(pin)有一定(ding)優勢。
二、業界首個同時支持文字、圖像生成的開源3D生成大模型
無論(lun)是(shi)游戲創(chuang)作,還是(shi)工業設計(ji)、建筑設計(ji)等專業建模,抑(yi)或是(shi)一些社交(jiao)娛(yu)樂、電商、數(shu)字孿生、PCG/UGC創(chuang)作領域,都會用到3D。
傳統3D資產制作(zuo)存在建模(mo)(mo)門檻(jian)高、制作(zuo)周期長、制作(zuo)成(cheng)本高等痛點,單(dan)模(mo)(mo)型制作(zuo)平均要1~7天、成(cheng)本耗費百萬到上萬元。騰(teng)訊混元3D生成(cheng)大模(mo)(mo)型則能將單(dan)個(ge)3D模(mo)(mo)型制作(zuo)成(cheng)本降(jiang)低至不到1元。
騰訊混元(yuan)3D生(sheng)成大模(mo)型(xing)(xing)首批開源模(mo)型(xing)(xing)包含輕量版和(he)標(biao)準版,輕量版僅需10秒即可(ke)生(sheng)成高質量3D資產,已在技術社區(qu)公開發(fa)布,包含模(mo)型(xing)(xing)權重、推(tui)理代碼、模(mo)型(xing)(xing)算法(fa)等(deng)完整模(mo)型(xing)(xing),可(ke)供(gong)開發(fa)者、研究者等(deng)各(ge)類用(yong)戶免費(fei)使用(yong)。
本次開源的(de)是1.0版本,后續還會有更完(wan)善(shan)、更先(xian)進的(de)模型陸續發布(bu)。
3D生成是一個較新的(de)領(ling)域,今年(nian)學術界(jie)(jie)相關論文開(kai)始涌(yong)現(xian),工業界(jie)(jie)3D模型的(de)效果越來(lai)越好,但大(da)多(duo)數是閉源。
此次騰訊混(hun)元開源的3D生(sheng)成大模型(xing)Hunyuan3D-1.0 ,解決(jue)了(le)現有的3D生(sheng)成模型(xing)在生(sheng)成速(su)度、泛化能力(li)、生(sheng)成質量上存在不足的問題,可以幫(bang)助3D創作者和藝術家自動化生(sheng)產3D資(zi)產。
該模型可重建各類尺度物體(ti),大到建筑,小到工具花草。
Hunyuan3D-1.0采用DiT架構,與混元(yuan)DiT生(sheng)圖(tu)聯合(he),支(zhi)持(chi)原生(sheng)中(zhong)文,支(zhi)持(chi)風格定制(zhi)。
其技術架構引入多(duo)視(shi)圖擴散,借助二(er)維數據優勢提(ti)升(sheng)3D泛化性,改進點(dian)包括(kuo):
1、持續擴展數據規模、類目、質量、渲染方式,提升泛化(hua)性(xing)。
2、精細度(du)提升:升級時空(kong)自適應CFG引(yin)導方式(shi),針對不同(tong)去噪步數、不同(tong)視角,設置不同(tong)權重,平(ping)衡可(ke)控性(xing)與多樣(yang)性(xing),不犧牲生成質量且提升生成清晰度(du)。
3、輸入(ru)角(jiao)度(du)魯棒性:兼容(rong)任意(yi)輸入(ru)視角(jiao),通過學習到的俯(fu)仰角(jiao)度(du)矯(jiao)正,提升多視圖準確性與(yu)一(yi)致(zhi)性。特(te)征平面超高特(te)征分辨率和(he)引入(ru)任意(yi)視角(jiao)的輸入(ru)圖進一(yi)步提升了3D生成(cheng)精(jing)度(du)。
經過(guo)定性、定量多(duo)個維度的(de)評估,Hunyuan3D-1.0兼顧(gu)快(kuai)速和高質量生成,已(yi)達到開源模型的(de)先進水平。
在(zai)兩個公開(kai)的3D數(shu)據(ju)集(ji)GSO與OmniObject3D上,騰(teng)訊混元(yuan)Hunyuan3D-1.0效(xiao)果優(you)于主流開(kai)源模(mo)型,整體能(neng)力屬于國際(ji)領先水平。
從(cong)定性角度評估,Hunyuan3D-1.0與行業領先的開(kai)源模型的3D生成效果表現(xian)對比(bi)也顯示出(chu)較高(gao)水平,包括幾(ji)何(he)細節、紋(wen)理(li)細節、紋(wen)理(li)-幾(ji)何(he)一致性、3D合理(li)性、指(zhi)令遵循等(deng)評價維度。
從生(sheng)(sheng)成(cheng)結果可視(shi)化(hua)來看,Hunyuan3D-1.0能(neng)夠更加(jia)真實地恢復出(chu)3D資產的幾(ji)何形狀(zhuang)和(he)紋理(li)細節,泛化(hua)能(neng)力(li)出(chu)色(se)。其文(wen)生(sheng)(sheng)3D能(neng)力(li)支持在45秒內基于(yu)(yu)文(wen)本生(sheng)(sheng)成(cheng)3D資產,圖生(sheng)(sheng)3D能(neng)力(li)支持在30秒內基于(yu)(yu)文(wen)本生(sheng)(sheng)成(cheng)3D資產。
文生/圖(tu)生3D內網接(jie)口(kou)已上線(xian)。
根據演示,混元(yuan)3D能(neng)夠根據提示詞快(kuai)速生(sheng)成一個萬圣節(jie)的南(nan)瓜(gua)燈,還能(neng)將其更改成樂高風格,操作很方便。
應(ying)用(yong)方面,3D生(sheng)成相(xiang)關技術已經開始應(ying)用(yong)于UGC 3D創作、商品素材合成、游戲3D資(zi)產生(sheng)成等(deng)騰訊(xun)業(ye)務中。
此前,騰訊元寶(bao)App上(shang)線了“3D角色夢(meng)工廠”玩法,支持(chi)個性(xing)化的UGC 3D人物生成。只(zhi)需上(shang)傳一張照片,就(jiu)能生成個人專屬3D角色,將3D個性(xing)定制建模費用降到0.2元。這(zhe)有助于玩具(ju)制作、3D打(da)印(yin)等(deng)行業的技術(shu)革新(xin)。
騰(teng)(teng)訊地圖基于騰(teng)(teng)訊混(hun)元(yuan)3D大模型,發布了(le)自定義3D導(dao)航(hang)車標功能(neng)。用戶上傳(chuan)一(yi)張圖,就(jiu)能(neng)生成個(ge)性化的(de)3D導(dao)航(hang)車標,比傳(chuan)統(tong)3D車標重建方案提速91%。
后(hou)續,混元3D模型團隊將持續探索(suo)多視圖生(sheng)(sheng)成(cheng)、3D擴(kuo)散模型、自回歸生(sheng)(sheng)成(cheng)等3D生(sheng)(sheng)成(cheng)路線(xian),最終目標(biao)落(luo)地3D管線(xian)。
三、騰訊混元這一年:升級高性能MoE模型,發布原生大模型應用
康戰輝回顧了騰訊混元大模型過去一年多的發展。他談道,騰訊混元不急于為了開源而開源,在內部業務打磨好后再開源,開源模型與公司內應用模型同宗同源。
模(mo)型(xing)效(xiao)果持(chi)續提(ti)升(sheng),建(jian)立在(zai)全棧(zhan)自主可控的(de)能力。騰訊(xun)混元Large模(mo)型(xing)的(de)訓練和(he)推理均基于騰訊(xun)Angel機器學習(xi)平臺。
其中,針對(dui)MoE模(mo)型通信(xin)效率問題,Angel訓練(lian)加速框(kuang)架(jia)(jia)AngelPTM實現了多(duo)項技術優化,性能是主(zhu)流開源框(kuang)架(jia)(jia)DeepSpeed的(de)2.6倍;針對(dui)模(mo)型推理加速,騰訊Angel機(ji)器學(xue)習(xi)平臺和(he)騰訊云(yun)智能聯(lian)合研發AngelHCF-vLLM框(kuang)架(jia)(jia),在最大(da)限(xian)度保障精度的(de)條(tiao)件下,可節省(sheng)50%以上顯存(cun),相比于(yu)業(ye)界(jie)主(zhu)流的(de)框(kuang)架(jia)(jia)BF16吞吐提升1倍以上。
騰訊混元模型包括領域模型和通用模型,有1B、3B、7B、13B、70B等不同尺寸,覆蓋六大BG多場景業務。
騰訊混(hun)元(yuan)大模型(xing)PaaS平臺開放(fang)支持(chi)包含混(hun)元(yuan)Large模型(xing)在內的十余種混(hun)元(yuan)API服(fu)務(wu)調用,可滿足文(wen)生(sheng)文(wen)、圖(tu)生(sheng)文(wen)、文(wen)生(sheng)圖(tu)等不同模態以(yi)及角(jiao)色扮演、FunctionCall、代(dai)碼等不同專(zhuan)項的模型(xing)需求。
2024年年初(chu),騰訊(xun)混元(yuan)就宣布在國內率先采用MoE架構模(mo)(mo)型,總(zong)體性(xing)能(neng)比上(shang)一(yi)代密集模(mo)(mo)型提(ti)升50%。此后,騰訊(xun)混元(yuan)推出基(ji)于MoE架構的多(duo)模(mo)(mo)態理解大模(mo)(mo)型以及基(ji)礎(chu)模(mo)(mo)型”混元(yuan)Turbo”,在性(xing)能(neng)、效(xiao)果(guo)、速度等多(duo)個領域表(biao)現優越,第三方測評居國內大模(mo)(mo)型第一(yi)。
相比同構MoE騰(teng)訊混元(yuan)Pro,今(jin)年(nian)9月發布的異構MoE混元(yuan)Turbo將推理效率提升(sheng)1倍以(yi)上,成本下(xia)降50%,解碼速度快20%。
多(duo)模(mo)態(tai)理解(jie)大(da)模(mo)型(xing)混元(yuan)-V也在持(chi)續升級,解(jie)鎖文字、圖像、3D、視頻等更(geng)多(duo)模(mo)態(tai),今年8月在SuperCLUE-V多(duo)模(mo)態(tai)理解(jie)評(ping)測基(ji)準總榜中排名第(di)一(yi)。
文(wen)(wen)生(sheng)(sheng)圖(tu)方(fang)面(mian),今年(nian)5月,騰訊混元全(quan)面(mian)開(kai)源業界(jie)首個中文(wen)(wen)原(yuan)生(sheng)(sheng)DiT架構文(wen)(wen)生(sheng)(sheng)圖(tu)大模(mo)型(xing),評測結果國內領(ling)先。還有今天宣(xuan)布開(kai)源的文(wen)(wen)/圖(tu)生(sheng)(sheng)3D模(mo)型(xing),單張圖(tu)30秒可(ke)生(sheng)(sheng)成3D模(mo)型(xing),效率與質(zhi)量均在業內領(ling)先。
混元已全面接入騰訊業務,并通過騰訊云向合作生態進行賦能。騰訊內部有超過700個業務接入混元。
面向C端,微信讀書的AI大綱、AI問書功能,騰訊元寶的AI搜索、AI閱讀、AI角色對話等功能,都接入了騰訊混元的能力。
混元(yuan)原生大模(mo)型(xing)應用騰訊元(yuan)寶(bao)的AI搜索會(hui)提供可溯源(yuan)引文,引文數量多、時間(jian)新(xin)、信源(yuan)優質;通過(guo)延伸閱(yue)讀,來滿足用戶對周(zhou)邊信息的獲取需求,還會(hui)列關聯問(wen)題,以(yi)引導追問(wen)學習。
其AI閱讀(du)(du)功能(neng)具(ju)有(you)(you)強大的文(wen)檔(dang)(dang)處理能(neng)力,可處理多格式、多文(wen)件(jian)、長記(ji)憶文(wen)檔(dang)(dang);AI精讀(du)(du)支持圖文(wen)輸出、知識圖譜總(zong)結、延伸閱讀(du)(du)推(tui)薦,有(you)(you)助于(yu)提升學(xue)習深度和廣度。
此外,騰(teng)訊元寶提供了角(jiao)色對話(hua)、劇情互動、劇照cos等更多(duo)玩法。例如(ru)智(zhi)能(neng)體應用(yong)AI角(jiao)色對話(hua)成為(wei)了騰(teng)訊視頻劇集宣發(fa)的新亮點,長相思(si)AI角(jiao)色對話(hua)的總熱(re)(re)度(du)達到(dao)近2億(yi),“相柳(liu)”單角(jiao)色熱(re)(re)度(du)打(da)到(dao)1.7億(yi),人均(jun)對話(hua)prompt數為(wei)167.3,衍生角(jiao)色“毛球”的對話(hua)率超過90%。
面向B端,騰訊旗下SaaS協作產品全面接入混元,包括騰訊文檔、騰訊會議、企業微信等。
混元大模型還幫助騰訊廣告多場(chang)景提效(xiao),比如生(sheng)成創意爆量素材、輔助內容商(shang)業(ye)價值理解、廣告推薦結果(guo)生(sheng)成。
結語:堅定擁抱開源,預告多款后續模型
隨著自研(yan)大模(mo)型技術強大的和(he)應用實踐經驗的豐富,開源已成為騰(teng)訊混元大模(mo)型的一個戰略選擇。
據康戰輝分享,混元未來的模型開源戰略是“擁抱開源,自主可控,堅持協同”。
騰訊在今(jin)年5月開(kai)源(yuan)業界首個(ge)原(yuan)生(sheng)中(zhong)文(wen)(wen)DiT圖生(sheng)文(wen)(wen)大(da)(da)模(mo)(mo)型(xing)(xing)混(hun)元(yuan)(yuan)DiT,今(jin)日又(you)開(kai)源(yuan)混(hun)元(yuan)(yuan)Large大(da)(da)語言(yan)模(mo)(mo)型(xing)(xing),并將(jiang)陸(lu)續開(kai)源(yuan)混(hun)元(yuan)(yuan)AnglePTM和AngelHCF等大(da)(da)模(mo)(mo)型(xing)(xing)工程框架,未來還將(jiang)陸(lu)續推出(chu)混(hun)元(yuan)(yuan)-M、混(hun)元(yuan)(yuan)S等模(mo)(mo)型(xing)(xing)。
全面(mian)(mian)開(kai)源的(de)(de)混元3D生(sheng)成模型(xing),面(mian)(mian)向(xiang)企業、個(ge)人開(kai)發者(zhe)(zhe)提供(gong)商用(yong)品質(zhi)的(de)(de)3D開(kai)源模型(xing),可直接部署,降(jiang)低3D資(zi)產(chan)的(de)(de)生(sheng)產(chan)周期、成本(ben);面(mian)(mian)向(xiang)科研學者(zhe)(zhe)提供(gong)更大的(de)(de)3D基礎模型(xing),以加速新(xin)方法(fa)研究探索。未(wei)來(lai)混元3D原生(sheng)大模型(xing)、混元3D自回歸(gui)大模型(xing)等更多開(kai)源模型(xing)將(jiang)陸續上線。
騰訊混(hun)元計劃后續推(tui)出更(geng)多模態、更(geng)多尺(chi)寸的開源模型,將更(geng)多經過騰訊業(ye)務場景(jing)打磨和檢驗的模型開源,促進大(da)模型技術進步和行業(ye)生態繁榮。