智東西(公眾號:zhidxcom
作者?|?香草
編輯?|?李水青

最強開(kai)源文生圖模型一(yi)夜易主!

智東西8月2日報道,昨日晚間,開源文生圖模型霸主Stable Diffusion原班人馬,宣布推出全新的圖像生成模型FLUX.1

FLUX.1包含專業版、開發者版、快速版三種模型(xing),其中前兩(liang)款(kuan)模型(xing)擊敗(bai)SD3-Ultra等主(zhu)流模型(xing),較小(xiao)規模的FLUX.1[schnell]也超(chao)越了Midjourney v6.0、DALL·E 3等更(geng)大的模型(xing)。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲FLUX.1 ELO分數與主流(liu)模型對(dui)比

FLUX.1在文字生成、復雜指令遵循人手生成上(shang)(shang)具備優(you)勢。以下是(shi)其最強的(de)專業版(ban)模型FLUX.1[pro]生成圖像示例,可以看到即使是(shi)生成大(da)段的(de)文字、多個(ge)人物(wu),也沒有(you)出現字符、人手(shou)等細(xi)節(jie)上(shang)(shang)的(de)錯(cuo)誤(wu)。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲FLUX.1[pro]生成圖像示例(li)

FLUX.1現已在開源平臺Replicate上可用,以下是我用提示詞“世界上最小的黑森林蛋糕,手指大小,被黑森林的樹木包圍”,在三款模型上生成的圖像,用時分別為17.5s、12.2s、1.5s

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲三款模型生成對比

FLUX.1同時開放了API(應用程序接口),按圖像張數定價,三款模型的價格依次為每張圖片0.055美元、0.03美元、0.003美元(約合(he)人民(min)幣(bi)0.4元(yuan)、0.22元(yuan)、0.022元(yuan))。

FLUX.1背后的公司名為Black Forest Labs(黑森林實驗室),由Stable Diffusion原班人馬、多位Stability AI前研究員成立。與Stability AI類似,黑森林致力于研發優質多模態模型并開源,目前已完成3100萬美元(約(yue)合(he)人民幣2.25億元)的種(zhong)子輪融資(zi)。

黑森林還預告不久之后將發布SOTA(當前技術指標第一)視頻模型。從其放出的Demo來看(kan),無(wu)論是(shi)流暢度、穩(wen)定(ding)性(xing)還是(shi)物理模擬(ni)都達到第一(yi)梯隊水平,該公司(si)或許會成為視頻(pin)生成領(ling)域的一(yi)匹黑馬(ma)。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲視頻生成模型預告

三款模型試用地(di)址:

//replicate.com/black-forest-labs/flux-pro

//replicate.com/black-forest-labs/flux-dev

//replicate.com/black-forest-labs/flux-schnell

一、擅長生成文字、人手,三種模型規模秒級生成

FLUX.1在視覺質量、圖像細節和輸出多樣性等方面性能優越,其具有三大特點:文字生成、復雜構圖、人手描繪

文字的生成在圖像、視頻生成中非常重要,許多模型容易混淆看起來相似的字母。FLUX.1可以處理重復字母的棘手單詞,例如生成一個黑森林Flux Schnell蛋糕

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲黑森林Flux Schnell蛋糕(gao)

在構圖方面,FLUX.1擅長按照圖像中事物應該位于哪里等復雜指示進行操作。例如,FLUX.1完美地演繹了這段提示詞:三個魔法巫師站在一張黃色桌子上,每個巫師都拿著一個標志。左邊,一個穿著黑色長袍的巫師拿著一個寫著“AI”的標志;中間,一個穿著紅色長袍的女巫拿著一個寫著“is”的標志;在右邊,一個穿著藍色長袍的巫師拿著一個寫著“cool”的標志。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲復雜構圖

人手一直(zhi)是多模(mo)態生(sheng)成模(mo)型的重災區(qu)。FLUX.1生(sheng)成的人手圖像雖然還不夠完美(mei),但實現了(le)很大的進步。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲人手

FLUX.1共有專業版、開發者版、快速版三種版本。

其中,FLUX.1[pro]是最先進的(de)(de)一個版本,具有頂(ding)級的(de)(de)即時跟蹤(zong)、視覺質量、圖像細節和輸出多樣性,面向(xiang)專業(ye)用戶(hu)提供定制的(de)(de)企業(ye)解(jie)決方(fang)案。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲FLUX.1[pro]生成圖(tu)像示例(li)

FLUX.1[dev]面向非商業應用,它從FLUX.1[pro]提煉而來,具(ju)有(you)相(xiang)似(si)的質量(liang)和能(neng)力,同(tong)時比(bi)相(xiang)同(tong)尺寸的標(biao)準模型更高效(xiao)。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲FLUX.1[dev]生(sheng)成(cheng)圖像(xiang)示例

FLUX.1[schnell]是三(san)款模(mo)型中最快的,專為本地開發和(he)個(ge)人使用而(er)定制(zhi),并根據(ju)Apache 2.0標(biao)準許可公開提供(gong)。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲FLUX.1[schnell]生(sheng)成圖(tu)像示例

FLUX.1現已在開源平臺Replicate上可用,只需一行代碼即可在云端運行,用戶也可以下載模型權重并以編程方式運行。FLUX.1的API也同步開放,三款模型的價格依次為每張圖片0.055美元、0.03美元、0.003美元(約合人民幣0.4元(yuan)、0.22元(yuan)、0.022元(yuan))。

二、擊敗MJ V6DALL·E 3,技術報告即將發布

性能方面,FLUX.1經過特別微(wei)調,在預訓練中(zhong)保留(liu)了整個(ge)輸出(chu)多(duo)樣性,在指令遵(zun)守、視覺質量、尺(chi)寸/長寬變化(hua)等(deng)多(duo)個(ge)方面樹立了新標準(zhun)。

其中FLUX.1[pro]和[dev]兩款模型(xing),在(zai)5項測評標準中都超過(guo)了Midjourney v6.0、DALL·E 3和SD3-Ultra等熱門模型(xing)。

FLUX.1[schnell]作(zuo)為輕(qing)量級模型,不(bu)僅優(you)于同類競(jing)爭對手,還優(you)于Midjourney v6.0、DALL·E 3等(deng)強大的非(fei)蒸(zheng)餾(liu)模型。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲FLUX.1性能(neng)與主(zhu)流模型對比

此外,所有FLUX.1模型均支持0.1和2.0百萬像素(su)的多種寬高比和分辨(bian)率。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲寬高比(bi)/分辨率變化

如此(ci)強大的性能是怎么做到的?

在模型架構(gou)上,FLUX.1采用基于多模態(tai)和并行擴散Transformer模塊的混(hun)合架構(gou),并將其擴展到12B參數。

團隊通(tong)過(guo)建(jian)立流匹配(Flow Matching)來(lai)改進最先進的(de)擴(kuo)散模(mo)型,并通(tong)過(guo)結合旋轉位置嵌入(Rotary Position Embedding)和(he)并行注意力層(ceng),來(lai)提高模(mo)型性能(neng)和(he)硬件效率。更詳細的(de)技術報告將在不久后發布。

三、SD原班人馬,2.25種子輪,要發SOTA視頻模型

黑森林(lin)實(shi)驗室由Stable Diffusion的創始(shi)團隊成(cheng)立(li),該團隊此前的工作還包括高質量圖像生(sheng)成(cheng)模型VQGAN、視頻生(sheng)成(cheng)模型Stable Video Diffusion等。

Stable Diffusion最初的5位作者中,4位曾加入Stability AI并持(chi)續開發SD后續版本的成(cheng)員,包(bao)括Robin Rombach、Andreas Blattmann、Dominik Lorenz以及Patrick Esser,都在黑森林(lin)實驗室的創始(shi)團(tuan)隊中。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲Stable Diffusion作者(zhe)、黑(hei)森林實(shi)驗室(shi)創始(shi)團隊

該團隊稱(cheng),其核心信念是開發(fa)廣泛(fan)可訪問(wen)的模型,促進研究(jiu)界(jie)和學術(shu)界(jie)的創新(xin)和協(xie)作,并(bing)提(ti)高模型透明度。

黑森林實驗室宣布已完成3100萬美元(約合人民幣2.25億元)的種子輪融資,由知名(ming)風投機構(gou)a16z(Andreessen Horowitz)領投,VR制造商Oculus的(de)CEO Brendan Iribe、創企(qi)孵化器YC的(de)CEO陳嘉興(Garry Tan)、英偉達(da)研究員Timo Aila等專家(jia)及AI公司跟投,還收到(dao)了來(lai)自General Catalyst等一線基金的(de)后續投資(zi)。

該(gai)團隊(dui)的(de)顧問委(wei)員會,包括在(zai)內(nei)容創作行業擁有豐(feng)富經驗的(de)前迪士尼總裁Michael Ovitz,以及(ji)神經風格轉(zhuan)換的(de)先驅Matthias Bethge教授。

剛剛創業的AI大神安德烈·卡帕西(Andrej Karpathy)為黑森林團(tuan)隊送上祝福,并稱“開源的FLUX.1圖像生成模(mo)型看起來非(fei)常(chang)強(qiang)大”。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲卡帕西評論

創始團隊的前領導——Stability AI前CEO埃馬德·莫斯塔克(Emad Mostaque)也發來賀電,還說“之前能(neng)與他(ta)們合(he)作(zuo)是我的榮幸,我相信他(ta)們會繼(ji)續在生成每一個(ge)像素的旅程中突破界限”。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲莫斯塔克評論

在下一步的工作上,黑森林預告將發布一款SOTA文生視頻模型,“讓(rang)所有人都能將文本轉為視頻”。該模型將建立在(zai)FLUX.1的(de)基礎上,“以高清和(he)前所未有的(de)速度實現精確創(chuang)作和(he)編輯(ji)”。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲視頻生成模型預告

結語:多模態大模型領域黑馬涌現

在眾多(duo)大廠、創企狂卷文(wen)生(sheng)視(shi)頻之際,文(wen)生(sheng)圖領(ling)域(yu)突(tu)然迎來黑馬。“橫空(kong)出世”的(de)FLUX.1的(de)不僅展現出卓越的(de)性(xing)能,在文(wen)字生(sheng)成、復(fu)雜(za)構圖、人(ren)手描繪等(deng)方面突(tu)破難關,還以多(duo)樣化的(de)版本滿足不同用戶的(de)需求(qiu)。

黑(hei)森(sen)林實驗室憑借著Stable Diffusion原班人馬的(de)(de)強大(da)(da)實力,獲得了豐(feng)厚的(de)(de)種子輪融資,也吸引了眾多行(xing)業大(da)(da)咖的(de)(de)關注與支持。其后續將發布(bu)的(de)(de)視(shi)頻模型,又將為(wei)文生視(shi)頻領域注入新的(de)(de)活(huo)力。