智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西5月15日報道,騰訊文生圖負責人蘆清林周二宣布騰訊混元文生圖大模型全面開源

該模型已在Hugging Face平臺及Github上發布,包含模型權重、推理代碼、模型算法等完整模型,與騰訊混元文生圖產品最新版本完全一致,基于騰訊海量應用場景訓練,可供企業與個人開發者免費商用

騰訊混元文生圖大模型全面開源!Sora同架構,更懂中文,可免費商用

這是業內首個中文原生DiT架構文生圖開源模型,支持中英文雙語輸入及理解,參數量15億

跟其他業界開源模型對比,混元DiT在多個維度上無短板,并在美學和清晰度維度上具有一定優勢。其綜合指標在所有開源和閉源算法中排名第三,實現開源版本中的SOTA。

騰訊混元文生圖大模型全面開源!Sora同架構,更懂中文,可免費商用

評測(ce)數據顯(xian)示,騰訊混元(yuan)文生圖模(mo)型(xing)效果遠超開源的(de)Stable Diffusion模(mo)型(xing)及其他開源文生圖模(mo)型(xing),是目(mu)前效果最好的(de)開源文生圖模(mo)型(xing);整體能力屬于(yu)國際領(ling)先水(shui)平(ping)。

騰訊混元文生圖大模型全面開源!Sora同架構,更懂中文,可免費商用

升級后的混(hun)元(yuan)文(wen)生(sheng)圖(tu)大模(mo)型(xing)采(cai)用了與Sora、Stable Diffusion 3一致的DiT架構,可支持文(wen)生(sheng)圖(tu),也可作為視頻等多模(mo)態視覺生(sheng)成的基礎。

混元文生圖整體模型主要由3個部分組成:a)多模態大語言模型,支持用戶文本改寫以及多輪繪畫;b)雙語文本編碼器,構建中英文雙語CLIP理解文本,同時具備雙語生成能力;c)生成模型,從U-Net升(sheng)級為(wei)DiT,采用隱空間(jian)模型,生成多分辨率的(de)圖像,確保圖像整(zheng)體的(de)穩(wen)定結構。

GitHub項目頁面建議使用具(ju)有(you)32GB內存(cun)的GPU運行模型,以獲得(de)更好(hao)的生成(cheng)質量。

騰訊混元文生圖大模型全面開源!Sora同架構,更懂中文,可免費商用

在蘆清林看來,此(ci)前開(kai)(kai)源與閉源文生(sheng)圖模型(xing)的(de)差距逐(zhu)漸拉大,他希(xi)望(wang)騰訊混元(yuan)文生(sheng)圖大模型(xing)的(de)開(kai)(kai)源后(hou)能夠將差距縮(suo)小。

騰(teng)訊(xun)混元已面(mian)向社(she)會全面(mian)開(kai)(kai)放,企業級用(yong)戶或開(kai)(kai)發(fa)者可通過騰(teng)訊(xun)云(yun)使用(yong)騰(teng)訊(xun)混元大模型,個(ge)人用(yong)戶可通過網(wang)頁端(duan)與(yu)小(xiao)程序體現騰(teng)訊(xun)混元的能力。

官網:

代碼:

模型:

論文:

一、更懂中文的開源文生圖大模型:基于DiT架構,多輪對話能力增強

過去,視覺(jue)生成(cheng)擴散(san)模(mo)型主要(yao)基(ji)于U-Net架(jia)構,但隨著參數量提(ti)升(sheng),基(ji)于Transformer架(jia)構的(de)擴散(san)模(mo)型(DiT)展現出了更好(hao)的(de)擴展性(xing)。

U-Net只懂圖(tu)片(pian),遇到難(nan)題(ti)易卡(ka)殼,而(er)Transfomer能懂不(bu)同模(mo)態(tai)信息,參(can)數(shu)/數(shu)據(ju)量(liang)越多越厲害。DiT是結合擴散(san)模(mo)型和Transformer架(jia)構(gou)的(de)創新技術,有(you)高擴展和低損(sun)失的(de)優勢,更(geng)易擴展,有(you)助(zhu)于提升模(mo)型的(de)生成質量(liang)及效率。

騰訊混元文生圖大模型全面開源!Sora同架構,更懂中文,可免費商用

該(gai)架構通過Transformer block堆(dui)疊,可極大(da)提(ti)升(sheng)模(mo)型性能,并最大(da)程(cheng)度緩解U-Net下采(cai)樣(yang)引入(ru)的信息壓縮,提(ti)升(sheng)圖像生成精(jing)度和創造力。

據騰訊(xun)文生圖負責(ze)人蘆清(qing)林分(fen)享,在原始(shi)DiT架構之上,混元DiT有(you)三大升級:

一是強大建模能力,將文生圖架構從自研U-Net架構升級(ji)為(wei)更大(da)參數的(de)DiT模型,提升圖像(xiang)質(zhi)量和擴展能力(li),讓DiT架構具備(bei)了長文本(ben)理解能力(li),支(zhi)持最長256個字符的(de)圖片生成指令;同時利用(yong)多模態大(da)語言模型,對簡單/抽象的(de)用(yong)戶指令文本(ben)進行強化,轉寫成更豐富(fu)/具象的(de)畫面文本(ben)描述(shu),最終提升文生圖的(de)生成效果。

二是增加中文原生的理解能力,自(zi)主訓練(lian)中文(wen)(wen)原(yuan)生文(wen)(wen)本編碼器,讓中文(wen)(wen)語義理解能力更(geng)強,對中文(wen)(wen)新概念學習速度更(geng)快,對中文(wen)(wen)認(ren)知更(geng)深(shen)刻,同(tong)(tong)時讓模型更(geng)細(xi)致地分辨不同(tong)(tong)粒度文(wen)(wen)本信息。

三是增強多輪對話能力,與(yu)自研(yan)大語言模型結合,讓模型具(ju)備上下(xia)文連貫的(de)理解能力(li),同(tong)時(shi)通(tong)過(guo)技(ji)術手段控制同(tong)一(yi)話(hua)題與(yu)主體下(xia)圖片主體的(de)一(yi)致性。

騰訊混元文生圖大模型全面開源!Sora同架構,更懂中文,可免費商用

1、升級一:核心算子升級,從UNet升級到DiT

學術界去年(nian)提出基礎DiT架(jia)構,混元DiT在此之上進一(yi)步升級,有更(geng)強語義(yi)編碼,針對(dui)更(geng)長、更(geng)復雜的文本(ben)能理解得更(geng)準確,原生中英雙語支持,尺(chi)寸(cun)更(geng)易擴展。

騰訊混元文生圖大模型全面開源!Sora同架構,更懂中文,可免費商用

混元DiT架(jia)構(gou)(gou)具(ju)備更穩(wen)定(ding)的(de)(de)訓(xun)練(lian)過(guo)程(cheng),通過(guo)優化模型結構(gou)(gou),支持(chi)數十億(yi)參數和1024分(fen)辨率(lv)的(de)(de)模型穩(wen)定(ding)訓(xun)練(lian)。它還擁有(you)更好的(de)(de)生態兼容性(xing),可靈活支持(chi)ControlNet、LoRA、IP-Adapter、Photomaker等Stable Diffusion社區的(de)(de)插件。

同時,該架構支持輸出多(duo)(duo)分(fen)辨率(lv)圖(tu)像,提升不同分(fen)辨率(lv)生成圖(tu)像的質量,包括1:1、4:3、2:4、16:9、9:16等多(duo)(duo)種分(fen)辨率(lv),支持768~1280分(fen)辨率(lv)圖(tu)像生成。

2、升級二:語言編碼器升級-支持原生中文理解能力

混元(yuan)文(wen)生(sheng)(sheng)圖是首個中文(wen)原生(sheng)(sheng)的(de)DiT模型,具(ju)備中英文(wen)雙語理解(jie)及生(sheng)(sheng)成(cheng)能力,在古詩(shi)詞、俚語、傳統建筑、中華美食(shi)等(deng)中國元(yuan)素生(sheng)(sheng)成(cheng)上表現出色。

通(tong)過語言(yan)編(bian)碼器(qi)升級,混元DiT架構對中文(wen)的(de)認(ren)知更加(jia)深刻(ke),相比(bi)核心數據(ju)集以英文(wen)為主的(de)Stable Diffusion等(deng)主流開源模型,能更好理解(jie)中國的(de)語言(yan)、美食、文(wen)化(hua)、習俗、地標(biao)等(deng)。

比如在(zai)生(sheng)成昆曲藝術(shu)(shu)家(jia)表演的圖像時,混元文(wen)生(sheng)圖在(zai)理(li)解(jie)昆曲藝術(shu)(shu)方(fang)面明(ming)顯比其他國外主流文(wen)生(sheng)圖模型(xing)更準確。

騰訊混元文生圖大模型全面開源!Sora同架構,更懂中文,可免費商用

升級的混(hun)元文生(sheng)圖能更(geng)細(xi)(xi)致(zhi)地分辨不同(tong)信息。其訓(xun)練方式是把數據做成正負樣本,對比學習損失,讓模(mo)型學會(hui)什(shen)么(me)是對、什(shen)么(me)是錯,做到理(li)解(jie)和(he)表達更(geng)細(xi)(xi)致(zhi)的屬性。

比如輸(shu)入一段(duan)涉及大量細(xi)節(jie)描(miao)述(shu)的文字(zi),混元文生圖(tu)能夠精細(xi)理解文字(zi)要求,生成(cheng)符合(he)各種(zhong)細(xi)節(jie)的圖(tu)像。

騰訊混元文生圖大模型全面開源!Sora同架構,更懂中文,可免費商用

3、升級點3:多輪繪圖和對話能力增強

混(hun)元文生(sheng)圖(tu)在算法層(ceng)面創新實現(xian)了多(duo)輪生(sheng)圖(tu)和對話(hua)能力,可在一張初始生(sheng)成圖(tu)片的(de)基礎上通(tong)過自然語言描述進行(xing)調整(zheng),達到更滿意的(de)效果。

騰訊混元文生圖大模型全面開源!Sora同架構,更懂中文,可免費商用

比如(ru)起(qi)初(chu)輸入指令“生成(cheng)(cheng)(cheng)一朵長(chang)在森林(lin)中的白(bai)色玫瑰”,再要求(qiu)(qiu)“改成(cheng)(cheng)(cheng)百合花”、“改成(cheng)(cheng)(cheng)粉(fen)色”、“改成(cheng)(cheng)(cheng)動漫風格”;起(qi)初(chu)輸入指令“畫一只色彩斑(ban)斕的折紙小狐貍(li)折紙”,再要求(qiu)(qiu)“把(ba)背景換成(cheng)(cheng)(cheng)沙漠”、“把(ba)狐貍(li)換成(cheng)(cheng)(cheng)小狗”。

騰訊混元文生圖大模型全面開源!Sora同架構,更懂中文,可免費商用

模型交(jiao)互難度進(jin)(jin)一(yi)步(bu)降低,用戶無需進(jin)(jin)行復雜生(sheng)圖提示詞指令編寫(xie)。混元(yuan)文生(sheng)圖能實(shi)現多輪(lun)圖文指令理解,支持多輪(lun)交(jiao)互式圖片編輯生(sheng)成,支持十輪(lun)以上的對話。

騰訊混元文生圖大模型全面開源!Sora同架構,更懂中文,可免費商用

二、去年7月投入DiT研發,從零開始訓練,全鏈路自研

騰訊混元團隊認為基于Transformer架構(gou)的擴(kuo)散模型(如DiT)具有更大的可擴(kuo)展(zhan)性(xing),很可能成(cheng)(cheng)為文(wen)生(sheng)圖、生(sheng)視頻、生(sheng)3D等(deng)多模態視覺生(sheng)成(cheng)(cheng)的統一架構(gou)。

2023年7月(yue)起(qi),業界研究DiT的(de)團隊還不多,當時混元文(wen)生(sheng)圖就明確了基(ji)于DiT架構的(de)模型方向,并(bing)啟動了長達半年的(de)研發、優化、打(da)磨。今(jin)年年初(chu),混元文(wen)生(sheng)圖大模型已(yi)全(quan)面升級為DiT架構,并(bing)在(zai)多個評測維度超(chao)越(yue)了基(ji)于U-Net的(de)文(wen)生(sheng)圖模型。

數據顯(xian)示,在(zai)通用場景(jing)下,基于DiT視(shi)覺生(sheng)(sheng)成模型的文生(sheng)(sheng)圖效果,相比前代(dai)視(shi)覺生(sheng)(sheng)成整體效果提升(sheng)20%,畫面真實感、質感與細節、空間構(gou)圖等全面提升(sheng),并在(zai)細粒度、多輪對話(hua)等場景(jing)下效果提升(sheng)明顯(xian)。

騰訊混元文生圖大模型全面開源!Sora同架構,更懂中文,可免費商用

這里面存在極大(da)難點:首(shou)先,Transformer架構本身并不具(ju)備用戶語言生圖(tu)能力(li);其次,DiT本身對算力(li)和數據(ju)量要求極高,文生圖(tu)領域缺乏高質(zhi)量的圖(tu)片描述與圖(tu)像(xiang)樣(yang)本訓練數據(ju)。

騰訊混元(yuan)團隊(dui)在算法(fa)層(ceng)面優化(hua)了模型的長文(wen)本理解能力,能夠支持最多(duo)(duo)256個(ge)字符的內(nei)容輸入(ru)(業界(jie)主流是77個(ge)),從(cong)零開(kai)始訓(xun)練(lian),做到(dao)全鏈路自研(yan)(yan),在模型算法(fa)、訓(xun)練(lian)數據(ju)集與工(gong)程加(jia)速多(duo)(duo)個(ge)層(ceng)面進行了系(xi)統化(hua)的創(chuang)新研(yan)(yan)發。

針對文生(sheng)圖訓練數(shu)(shu)據缺乏、普遍(bian)質(zhi)量不高的(de)問題,騰訊混元(yuan)團隊通過(guo)優(you)化圖片描述能(neng)力、樣本(ben)評估(gu)機制(zhi)等提升文生(sheng)圖訓練數(shu)(shu)據的(de)規模(mo)(mo)和質(zhi)量,同時利用多模(mo)(mo)態大語言模(mo)(mo)型強化與豐富用戶指令文本(ben),從而提升最(zui)終文生(sheng)圖效果。

混元文生圖大模型基于騰訊自研的Angel機器學習平臺進行訓練,大幅提升了訓練效率。為了更好地提升模型訓練與運行效率,提升算力資源利用率,團隊為該模型構建專屬工程加速工具庫

三、開源領域自主可控,填補中文原生DiT文生圖架構空白

為什么選擇在(zai)這個(ge)節(jie)點(dian)開(kai)(kai)源(yuan)(yuan)?在(zai)媒體交流環節(jie),蘆清(qing)林談(tan)到這主要出于兩點(dian)考慮(lv),一是(shi)在(zai)業界投入DiT研發的時間早,經歷長時間的打磨,成(cheng)熟度達到開(kai)(kai)源(yuan)(yuan)條件;二是(shi)看到業界需要開(kai)(kai)源(yuan)(yuan)中文(wen)原生(sheng)DiT文(wen)生(sheng)圖模型。

過去業界文生圖大多(duo)基于Stable Diffusion,開源社(she)區有數量(liang)龐大的開發者和創作者,基于Stable Diffusion精調出了豐富(fu)的垂(chui)直場景模型(xing),同時(shi)衍(yan)生出大量(liang)國(guo)內外模型(xing)分享(xiang)與流通社(she)區。

主要(yao)的(de)文生(sheng)圖(tu)(tu)開源社(she)區依(yi)然主要(yao)基于(yu)U-Net架(jia)構模型進行開發,仍未有比(bi)較先(xian)進的(de)DiT架(jia)構充分開源。而無論Stable Diffusion 3還是Sora都采用DiT架(jia)構來構建下一代圖(tu)(tu)像/視頻生(sheng)成能(neng)力。開源社(she)區缺乏先(xian)進/成熟(shu)的(de)DiT架(jia)構開源利用,業界也難(nan)以快速吸(xi)收學術界大模型前沿(yan)技術。

中文(wen)(wen)原生的(de)DiT文(wen)(wen)生圖架構(gou)同樣是(shi)缺失的(de)。在中文(wen)(wen)場(chang)景,很多團隊(dui)基于(yu)翻譯(yi)+英文(wen)(wen)開源(yuan)Stable Diffusion模(mo)型,導致在中文(wen)(wen)特有的(de)場(chang)景、人物、事物上(shang)表現比較差。

還(huan)有一些團隊基于(yu)少量的(de)中(zhong)文數(shu)據(ju)在(zai)一些特殊的(de)場景做了(le)微調,讓模型去適(shi)配某個特殊的(de)領域或(huo)者風格。但(dan)直接(jie)用英文預訓練的(de)模型+中(zhong)文小(xiao)數(shu)據(ju)微調也存在(zai)對中(zhong)文理解(jie)不足和不通用的(de)問題。

即使國外有些論(lun)文(wen)(wen)公開,這些架構(gou)更多偏(pian)英文(wen)(wen),對中(zhong)(zhong)(zhong)文(wen)(wen)理解差,而且沒(mei)在大眾(zhong)中(zhong)(zhong)(zhong)做驗證(zheng),在中(zhong)(zhong)(zhong)文(wen)(wen)應用場景受限(xian)。由(you)中(zhong)(zhong)(zhong)文(wen)(wen)翻(fan)譯成(cheng)英文(wen)(wen)可能會導(dao)致出圖有歧義,比如中(zhong)(zhong)(zhong)文(wen)(wen)“一只很熱(re)的(de)狗在餐廳”翻(fan)譯成(cheng)英文(wen)(wen)“A very hot dog in the restaurant”就變味了,會生成(cheng)“一盤(pan)熱(re)狗(hot dog)”圖。

騰訊混元文生圖大模型全面開源!Sora同架構,更懂中文,可免費商用

而(er)開源(yuan)DiT研發(fa)成(cheng)果,意(yi)味著全球個(ge)人(ren)和企業開發(fa)者都能直接都能直接用上了最先進的架(jia)構,不用自(zi)己(ji)重新研發(fa)和訓練,大大降低了AI使用門檻(jian),也節省了人(ren)力物力。

基(ji)于騰訊此次(ci)開源(yuan)的(de)文生圖(tu)模(mo)型(xing),開發者及(ji)企業無需(xu)重頭訓(xun)練,即可直接用(yong)于推理,并可基(ji)于混元文生圖(tu)打造專屬的(de)AI繪畫應用(yong)及(ji)服務,能夠節約大量人力(li)及(ji)算力(li)。透明公(gong)開的(de)算法也讓模(mo)型(xing)的(de)安全性和可靠性得到(dao)保(bao)障。

基(ji)于開(kai)(kai)放的混元文生圖基(ji)礎模型,還(huan)有利于在以Stable Diffusion等為(wei)主的英文開(kai)(kai)源(yuan)社區之外豐富以中(zhong)(zhong)文為(wei)主的文生圖開(kai)(kai)源(yuan)生態,形(xing)成更多樣的原生插件,推動(dong)中(zhong)(zhong)文文生圖技(ji)術研發和應(ying)用。

騰(teng)訊(xun)(xun)(xun)已開源超170個(ge)優質項(xiang)目,均來(lai)源于(yu)騰(teng)訊(xun)(xun)(xun)真實業(ye)務場景,覆蓋微信、騰(teng)訊(xun)(xun)(xun)云、騰(teng)訊(xun)(xun)(xun)游戲、騰(teng)訊(xun)(xun)(xun)AI、騰(teng)訊(xun)(xun)(xun)安全(quan)等核心(xin)業(ye)務板塊(kuai),目前在Github上(shang)已累計獲得(de)超47萬(wan)開發者關(guan)注及點贊。

結語:全面開源,惠及行業,已在探索更大參數量的模型

此(ci)前(qian)的開(kai)源(yuan)生態、數(shu)據集(ji)均以英文(wen)為主(zhu),建(jian)設中文(wen)原(yuan)生的文(wen)生圖(tu)(tu)開(kai)源(yuan)模(mo)型、中文(wen)的文(wen)生圖(tu)(tu)開(kai)源(yuan)生態,是十(shi)分必要(yao)的。

此次把最新一代模型(xing)完整開源出來,騰(teng)訊混元團(tuan)隊希望與行(xing)業(ye)共(gong)享在文(wen)生(sheng)圖領(ling)域(yu)的實踐(jian)經驗(yan)和(he)研究成果,豐富中文(wen)文(wen)生(sheng)圖開源生(sheng)態(tai),共(gong)建下一代視覺(jue)生(sheng)成開源生(sheng)態(tai),推動大(da)模型(xing)行(xing)業(ye)加速發展。

蘆清林分享(xiang)說,混(hun)元文生圖的(de)后續優化方向(xiang)包括提升技術能力和在更廣泛的(de)場(chang)景中(zhong)應用。

騰(teng)(teng)訊(xun)(xun)混元(yuan)文(wen)生(sheng)(sheng)圖能力(li)已廣泛被用于(yu)(yu)素材(cai)創(chuang)作、商品合成、游(you)戲(xi)出圖等多(duo)項業務及(ji)場景中。今年初,騰(teng)(teng)訊(xun)(xun)廣告基于(yu)(yu)騰(teng)(teng)訊(xun)(xun)混元(yuan)大模型發布了一站式AI廣告創(chuang)意平(ping)臺騰(teng)(teng)訊(xun)(xun)廣告妙思。《央視(shi)新(xin)聞》《新(xin)華日(ri)報》等20余家(jia)媒體也已經將騰(teng)(teng)訊(xun)(xun)混元(yuan)文(wen)生(sheng)(sheng)圖用于(yu)(yu)新(xin)聞內容生(sheng)(sheng)產(chan)。

據蘆(lu)清(qing)林透露(lu),目(mu)前混元文生圖大模(mo)型的參數(shu)規模(mo)是15億,同(tong)時團隊已經在探索參數(shu)量更大的模(mo)型。他坦言(yan)模(mo)型在寫中文文字(zi)的效果上還(huan)沒做到非常(chang)成(cheng)熟,等做好后也會拿出來分享。