智東西(公眾號:zhidxcom
作者 | 香草
編輯 | 李水青

智東西3月6日報道(dao),昨天(tian)下午,明星創(chuang)企Stability AI發布Stable Diffusion 3(SD3)論(lun)文,首度(du)披露其最強文生圖大模型背后的技(ji)術細節,并放出(chu)更多新(xin)鮮(xian)的生成示例。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

▲Stable Diffusion 3模型(xing)技術原理(li)論文

與OpenAI近期爆火的文生視頻模型Sora一樣,SD3采用了擴散Transformer架構DiT,并在其基礎上進行改進。新架構名為MMDiT,其(qi)主要突破點在(zai)于對文字、圖像兩種(zhong)模態的(de)數據使用了兩組獨立(li)的(de)權重,并(bing)通過注意力機制進行連接,這使得信(xin)息可以在(zai)文本和(he)圖像之間流動,大大提(ti)升了模型的(de)語義理解和(he)文字渲染能力。

在SD3放出的示(shi)例圖中,包(bao)含文(wen)字渲(xuan)染部分(fen)的圖像(xiang)(xiang)占(zhan)了(le)很(hen)大(da)比例。下圖的提(ti)示(shi)詞分(fen)別為:漂亮的像(xiang)(xiang)素藝術,畫(hua)面(mian)是一(yi)個(ge)(ge)魔法師和懸浮文(wen)字“Achievement unlocked: Diffusion models can spell now”(成(cheng)就已解鎖:擴(kuo)散(san)模型可以拼(pin)寫(xie)了(le));青蛙坐在20世紀50年(nian)代的一(yi)家(jia)餐館里,穿著皮夾克,頭戴禮帽,桌(zhuo)上有(you)一(yi)個(ge)(ge)巨大(da)的漢(han)堡和一(yi)個(ge)(ge)寫(xie)著“froggy fridays”(青蛙星期(qi)五)的小牌子(zi)。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

▲SD3生成圖像示例

目前,SD3還(huan)未開放(fang)訪問權限,但Stability AI承諾未來將公開實驗(yan)數據、代碼和模(mo)型權重(zhong)。不得不說,Stability AI真的是將開源貫徹(che)到底,可謂是真正意(yi)義上的“Open”AI。

體驗申請地址:

//stability.ai/stablediffusion3

論文地址:

//stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

一、文字渲染完勝Midjourney,語義理解平均勝率超六成

Stability AI從視覺效果語義理解文字渲染三個方(fang)面將SD3的(de)性能與主流文(wen)生圖模型(xing)進行(xing)比較(jiao),包括閉源模型(xing)DALL-E 3、Midjourney V6以及自家的(de)開源模型(xing)SDXL、SDXL Turbo、Stable Cascade等。其中(zhong)根據目前披露的(de)示例來看,SD3的(de)文(wen)字渲染僅支(zhi)(zhi)持英文(wen),暫(zan)不支(zhi)(zhi)持中(zhong)文(wen)等其他語言。

根據人類反饋結果,SD3最大參數規模的8B模型在視覺效果上,幾乎勝過所有市面上的模型,語義理解能力平(ping)均(jun)勝率超60%,文字渲染能力則“遙遙領先”,在與Midjourney V6等6款模型的比較上勝率超80%,對DALL-E 3的勝率也接近70%

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

▲SD3-8B模型與主流(liu)文生(sheng)圖模型相(xiang)比的勝(sheng)率

當(dang)然,人(ren)類評估帶(dai)有一定的主(zhu)觀色彩(cai)和偶然性。論文(wen)中,Stability AI還(huan)放(fang)出了(le)測(ce)評基準的比較(jiao)結果。

在用于評(ping)估(gu)文本到圖像對(dui)齊的測評(ping)基準GenEval上,深(shen)度參(can)數為38、經過DPO(直接偏好優化)的SD3模型取得多(duo)個任(ren)務上的最佳成(cheng)績。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

▲SD3在(zai)GenEval基(ji)準上與(yu)其他主流模型的對比

Stability AI在論文(wen)中放(fang)出了更多(duo)新(xin)鮮的文(wen)生圖示例,讓我們一起來感受一下“最強(qiang)(qiang)文(wen)生圖大模型(xing)”有多(duo)強(qiang)(qiang)吧。

1、文字渲染能力:精準拼寫英文單詞,自動適配畫面背景

提示詞1:一(yi)幅由流動的色彩和風格組成的美麗畫作,上面寫著“The SD3 research paper is here!”(SD3研究論文(wen)來了!),背景是(shi)斑(ban)(ban)斑(ban)(ban)點(dian)(dian)點(dian)(dian)的水滴和飛(fei)濺的顏料。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

提示詞2:一只穿著西裝(zhuang)、戴著帽子的(de)熊站在森林(lin)中(zhong)的(de)一條河里(li),舉著“I can’t bear it”(我無法忍受)的(de)牌子。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

提示詞3:一只面帶微笑的(de)卡通(tong)狗(gou)坐在(zai)桌旁,手端(duan)咖啡(fei)杯(bei),房(fang)間里火光沖天。這(zhe)只狗(gou)向自己保證:“This is fine.”(不會有事的(de)。)

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

提示詞4:一(yi)(yi)副美麗(li)的油畫(hua),畫(hua)面(mian)是午后的河中有一(yi)(yi)艘蒸汽(qi)船(chuan)。在河的一(yi)(yi)側是一(yi)(yi)座大型的磚砌建筑,頂部有一(yi)(yi)個標志,上面(mian)寫著(zhu)“SD3”。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

2、語義理解能力:完美呈現細節描述,想象力Max

提示詞5:半(ban)透明的(de)豬(zhu),里面是一(yi)頭更小的(de)豬(zhu)。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

提示詞6:一(yi)只奶酪做的螃(pang)蟹在餐盤(pan)上。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

提示詞7:一個穿著運動(dong)鞋的(de)長腿可(ke)愛大(da)眼擬人化(hua)芝士(shi)漢堡,在裝飾簡(jian)樸的(de)客廳(ting)沙發上休息(xi)的(de)電影劇(ju)照。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

提示詞8:一只袋(dai)鼠拿(na)著啤(pi)酒(jiu),戴(dai)著滑雪鏡,熱情(qing)地(di)唱著愚蠢的歌(ge)。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

3、視覺美學能力:駕馭不同畫風,色彩明亮鮮艷

提示詞9:這幅細致的(de)筆墨畫描繪了一艘巨大復雜的(de)外星太空(kong)船,位于荒郊(jiao)野外的(de)一個(ge)農場上(shang)空(kong)。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

提示詞10:分形(xing)(xing)主題餐廳(ting)柜臺后的擬(ni)人分形(xing)(xing)人。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

提示詞11:黑暗(an)的高對(dui)比度效(xiao)果(guo)圖(tu),迷幻的生(sheng)命(ming)之樹照亮了神(shen)秘洞(dong)穴中的塵埃(ai)。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

提示詞12:傾斜移位(wei)航拍,傍晚木(mu)桌上由壽司(si)組成(cheng)的可愛城(cheng)市。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

二、基于Sora同款架構DiT,文本、圖像采用兩組獨立權重

那么(me),如此(ci)強(qiang)大(da)的(de)文字(zi)理解(jie)、渲染和(he)視覺效果,SD3是怎么(me)做到(dao)的(de)?

作者提出一種新架構MMDiT(Multimodal Diffusion Transformer),它建立在DiT的(de)基礎上——沒錯,就是(shi)Sora采(cai)用的(de)那(nei)個DiT模型。其中,“MM”指的(de)是(shi)它處理多模態(tai)信息的(de)能力。

下(xia)圖是MMDiT的(de)(de)整(zheng)體架構示意圖。與之前版本(ben)的(de)(de)SD模型一(yi)樣,SD3使用(yong)預訓練模型來推導(dao)合適(shi)的(de)(de)文本(ben)、圖像提示。

不同之處在于,MMDiT對文本和圖像兩種模態使用了兩組獨立的權重,并在圖像和文本標記之間實現雙向信息流,從而提高(gao)了文本理解和拼寫能力。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

▲MMDiT架構示意圖

具體來(lai)說,SD3使(shi)用(yong)預(yu)訓練的(de)自編(bian)碼器(qi),將(jiang)RGB圖(tu)像映射(she)到(dao)一個低維的(de)潛在(zai)空間;在(zai)文本(ben)編(bian)碼上(shang),采用(yong)三種不(bu)同(tong)的(de)文本(ben)嵌入(ru)器(qi)來(lai)編(bian)碼文本(ben)表示,包括兩個CLIP模型和T5。

隨后(hou),SD3通過添加位置編碼,將(jiang)圖(tu)像(xiang)(xiang)的(de)潛在像(xiang)(xiang)素表示的(de)2*2補丁(Patch)扁平化(hua)為補丁編碼序(xu)列,構造了一(yi)個由文本(ben)嵌入和圖(tu)像(xiang)(xiang)輸入組成的(de)序(xu)列。

在(zai)將(jiang)該補丁編(bian)碼和文本編(bian)碼嵌入到一個(ge)共同維度后,SD3將(jiang)這(zhe)兩(liang)個(ge)序列連接(jie)起來,按照DiT的方法應用調制(zhi)注意力和MLP(多層感知(zhi)機(ji))序列。

如下圖(b)所示(shi),SD3為每種(zhong)(zhong)模態(tai)設置(zhi)了(le)獨立(li)的(de)Transformer,但(dan)在注意力操作時,將兩種(zhong)(zhong)模態(tai)的(de)序列(lie)結合(he)在一起。這樣一來,兩種(zhong)(zhong)表征都能在各自的(de)空間內(nei)工作,同時也將另一種(zhong)(zhong)空間考慮(lv)在內(nei)。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

▲MMDiT模型(xing)完整架構

SD3采用的(de)(de)是整(zheng)流(Rectified Flow,RF)公(gong)式,它的(de)(de)前向過程更簡單(dan),采樣速度更快。為了證明改進的(de)(de)RF方(fang)法的(de)(de)優(you)越性,作者在2個數據集上(shang)訓練了61種(zhong)不(bu)同(tong)的(de)(de)公(gong)式,包括各(ge)種(zhong)擴(kuo)散(san)目標、損失函(han)數以(yi)及不(bu)同(tong)的(de)(de)時間步采樣。

數據(ju)方面,作者使用開源模(mo)型(xing)CogVLM生成(cheng)(cheng)了合(he)成(cheng)(cheng)標(biao)(biao)(biao)記,最(zui)終(zhong)的數據(ju)集(ji)中有(you)50%原始標(biao)(biao)(biao)記和50%合(he)成(cheng)(cheng)標(biao)(biao)(biao)記,這(zhe)些(xie)更加具有(you)描述性(xing)的合(he)成(cheng)(cheng)標(biao)(biao)(biao)記極大(da)地提升了模(mo)型(xing)的性(xing)能。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

▲使用合成數據對(dui)模型(xing)訓練的提(ti)升

模型訓練方面,Stability AI稱早期未優化的推理測試是在消費級硬件上進行的,其最大的80億參數SD3模型適用于24GB顯存的英偉達RTX 4090,使用50個采樣步長生成分辨率為1024*1024的圖像耗時34秒。此外,SD3將發布多種規模的版本,從8億到80億參數不等,以進一步消除硬件障礙。

三、生成式AI成果連發,圖像視頻音頻3D語言全面布局

就在同一天,Stability AI還與3D重建平臺Tripo AI合作推出了TripoSR,可在一秒(miao)內從單張(zhang)圖像(xiang)生成高質量的3D模型(xing)。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

▲TripoSR輸(shu)入(ru)輸(shu)出示(shi)例

據介紹,TripoSR支持較低(di)的(de)推理預(yu)算,即使沒有(you)GPU也能(neng)運行。該模(mo)型基于Adobe的(de)三維重建模(mo)型LRM構建,主要針(zhen)對(dui)娛樂、游戲(xi)、工業設(she)計(ji)等行業需求。

在(zai)英(ying)偉達A100上進行測試(shi)時,TripoSR能(neng)在(zai)0.5秒生成草稿質(zhi)量的三維紋理網格,優于OpenLRM等(deng)其他開源圖生3D模型(xing)。

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

▲TripoSR與OpenLRM等三維重建模型的比較

開源(yuan)地址:

//github.com/VAST-AI-Research/TripoSR

密集的產品或模型發布并不是心血來潮,而是這家生成式AI獨角獸的常態。僅僅2024年以來,它便在短短兩個多月內連發5款新模型(xing)(xing)。除了昨(zuo)天的(de)SD3和TripoSR,還有文生圖模型(xing)(xing)Stable Cascade、語音模型(xing)(xing)Stable LM 2 1.6B、代碼模型(xing)(xing)Stable Code 3B。

成立5年來,Stability AI在(zai)圖(tu)像、視頻、音頻、3D和語(yu)言五個領域(yu)全方位布局生(sheng)成式AI,形成了(le)(le)強大的“Stable家族”。最(zui)重(zhong)要(yao)的是(shi),它一直秉(bing)持著自己開源開放的原則,幾乎所有模型都(dou)支持下載(zai)并發(fa)布了(le)(le)技(ji)術論文。據其官網數據,Stability AI在(zai)托(tuo)管平臺(tai)Discord已(yi)擁有27萬用戶,基(ji)于其API(應用程序接(jie)口)生(sheng)成的圖(tu)像超(chao)過(guo)4億張。

但同時(shi),開源也是一(yi)把雙(shuang)刃(ren)劍,尤其是對于一(yi)家技術是主要競爭力(li)的大模型(xing)公(gong)司而言——更(geng)不用說模型(xing)訓練有(you)多“燒錢”了。

2023年(nian)11月,Stability AI被(bei)曝由于(yu)財(cai)務(wu)狀況(kuang)壓力巨大正在尋求出售。幾乎同時,Stability AI宣布將推(tui)出會員(yuan)模(mo)式(shi),其CEO在社交平(ping)臺X上提到“最近幾周(zhou)的情況(kuang)表明,商業模(mo)式(shi)的一致性在AI中非常重(zhong)要”。12月,Stability AI正式(shi)推(tui)出三種等級的會員(yuan)制度,其中專業級月費(fei)20美(mei)元(yuan),可商用(yong)全套核(he)心模(mo)型。

結語:文生圖開源社區再添一員巨將

Stability AI最近頗有(you)種“AI界(jie)汪峰”的感(gan)覺。

先是(shi)2月22日,推出超(chao)強新版本文(wen)生圖模型(xing)Stable Diffusion 3,卻被谷(gu)歌的開源大模型(xing)Gemma搶(qiang)了(le)(le)風頭。又(you)在昨天,開源圖生3D新模型(xing)TripoSR,結果撞上OpenAI最(zui)強競爭對(dui)手Anthropic發(fa)布(bu)Claude 3,見證了(le)(le)GPT-4時(shi)代的“終(zhong)結”。或許是(shi)咽(yan)不下這口(kou)氣(qi),Stability AI在同一天又(you)發(fa)布(bu)了(le)(le)這篇SD3論文(wen),不僅披露了(le)(le)背(bei)后的MMDiT詳細架構,還承諾SD3將全(quan)面開源。

在(zai)生成式(shi)AI的(de)浪潮中(zhong),Stability AI堅持為(wei)開(kai)源社(she)區添磚加(jia)瓦,為(wei)研究(jiu)人員(yuan)和(he)開(kai)發(fa)者提供(gong)了寶貴的(de)資源。在(zai)技術(shu)論文(wen)中(zhong),我們不僅看到了該模型(xing)的(de)強大能力,也(ye)看到了Stability AI對其開(kai)源精(jing)神的(de)信守(shou)承諾。

雖然Stability AI公司(si)內(nei)部管理、CEO的(de)處事風格等一(yi)直(zhi)存在(zai)爭(zheng)議,還被福布斯預(yu)告今年將會倒閉(bi),但隨(sui)著(zhu)其一(yi)次(ci)次(ci)推動技術(shu)的(de)邊界,也向我們證明了在(zai)科技領域(yu),技術(shu)才是最(zui)重要的(de)“護城河”。

在(zai)SD3的預告(gao)中(zhong),Stability AI還暗(an)示其可能(neng)會具備(bei)視頻生成能(neng)力。未來(lai)我們(men)期待看(kan)到SD3等開源模型迸發出更多(duo)潛力,造福更多(duo)用戶和開發者。