最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

智東西（公眾號：zhidxcom）
作者?|?香草
編輯?|?李水青

最強開(kai)源文生圖模型一(yi)夜易主！

智東西8月2日報道，昨日晚間，開源文生圖模型霸主Stable Diffusion原班人馬，宣布推出全新的圖像生成模型FLUX.1。

FLUX.1包含專業版、開發者版、快速版三種模型(xing)，其中前兩(liang)款(kuan)模型(xing)擊敗(bai)SD3-Ultra等主(zhu)流模型(xing)，較小(xiao)規模的FLUX.1[schnell]也超(chao)越了Midjourney v6.0、DALL·E 3等更(geng)大的模型(xing)。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲FLUX.1 ELO分數與主流(liu)模型對(dui)比

FLUX.1在文字生成、復雜指令遵循和人手生成上(shang)(shang)具備優(you)勢。以下是(shi)其最強的(de)專業版(ban)模型FLUX.1[pro]生成圖像示例，可以看到即使是(shi)生成大(da)段的(de)文字、多個(ge)人物(wu)，也沒有(you)出現字符、人手(shou)等細(xi)節(jie)上(shang)(shang)的(de)錯(cuo)誤(wu)。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲FLUX.1[pro]生成圖像示例(li)

FLUX.1現已在開源平臺Replicate上可用，以下是我用提示詞“世界上最小的黑森林蛋糕，手指大小，被黑森林的樹木包圍”，在三款模型上生成的圖像，用時分別為17.5s、12.2s、1.5s。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲三款模型生成對比

FLUX.1同時開放了API（應用程序接口），按圖像張數定價，三款模型的價格依次為每張圖片0.055美元、0.03美元、0.003美元（約合(he)人民(min)幣(bi)0.4元(yuan)、0.22元(yuan)、0.022元(yuan)）。

FLUX.1背后的公司名為Black Forest Labs（黑森林實驗室），由Stable Diffusion原班人馬、多位Stability AI前研究員成立。與Stability AI類似，黑森林致力于研發優質多模態模型并開源，目前已完成3100萬美元（約(yue)合(he)人民幣2.25億元）的種(zhong)子輪融資(zi)。

黑森林還預告不久之后將發布SOTA（當前技術指標第一）視頻模型。從其放出的Demo來看(kan)，無(wu)論是(shi)流暢度、穩(wen)定(ding)性(xing)還是(shi)物理模擬(ni)都達到第一(yi)梯隊水平，該公司(si)或許會成為視頻(pin)生成領(ling)域的一(yi)匹黑馬(ma)。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲視頻生成模型預告

三款模型試用地(di)址：

//replicate.com/black-forest-labs/flux-pro

//replicate.com/black-forest-labs/flux-dev

//replicate.com/black-forest-labs/flux-schnell

一、擅長生成文字、人手，三種模型規模秒級生成

FLUX.1在視覺質量、圖像細節和輸出多樣性等方面性能優越，其具有三大特點：文字生成、復雜構圖、人手描繪。

文字的生成在圖像、視頻生成中非常重要，許多模型容易混淆看起來相似的字母。FLUX.1可以處理重復字母的棘手單詞，例如生成一個黑森林Flux Schnell蛋糕：

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲黑森林Flux Schnell蛋糕(gao)

在構圖方面，FLUX.1擅長按照圖像中事物應該位于哪里等復雜指示進行操作。例如，FLUX.1完美地演繹了這段提示詞：三個魔法巫師站在一張黃色桌子上，每個巫師都拿著一個標志。左邊，一個穿著黑色長袍的巫師拿著一個寫著“AI”的標志；中間，一個穿著紅色長袍的女巫拿著一個寫著“is”的標志；在右邊，一個穿著藍色長袍的巫師拿著一個寫著“cool”的標志。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲復雜構圖

人手一直(zhi)是多模(mo)態生(sheng)成模(mo)型的重災區(qu)。FLUX.1生(sheng)成的人手圖像雖然還不夠完美(mei)，但實現了(le)很大的進步。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲人手

FLUX.1共有專業版、開發者版、快速版三種版本。

其中，FLUX.1[pro]是最先進的(de)(de)一個版本，具有頂(ding)級的(de)(de)即時跟蹤(zong)、視覺質量、圖像細節和輸出多樣性，面向(xiang)專業(ye)用戶(hu)提供定制的(de)(de)企業(ye)解(jie)決方(fang)案。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲FLUX.1[pro]生成圖(tu)像示例(li)

FLUX.1[dev]面向非商業應用，它從FLUX.1[pro]提煉而來，具(ju)有(you)相(xiang)似(si)的質量(liang)和能(neng)力，同(tong)時比(bi)相(xiang)同(tong)尺寸的標(biao)準模型更高效(xiao)。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲FLUX.1[dev]生(sheng)成(cheng)圖像(xiang)示例

FLUX.1[schnell]是三(san)款模(mo)型中最快的，專為本地開發和(he)個(ge)人使用而(er)定制(zhi)，并根據(ju)Apache 2.0標(biao)準許可公開提供(gong)。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲FLUX.1[schnell]生(sheng)成圖(tu)像示例

FLUX.1現已在開源平臺Replicate上可用，只需一行代碼即可在云端運行，用戶也可以下載模型權重并以編程方式運行。FLUX.1的API也同步開放，三款模型的價格依次為每張圖片0.055美元、0.03美元、0.003美元（約合人民幣0.4元(yuan)、0.22元(yuan)、0.022元(yuan)）。

二、擊敗MJ V6、DALL·E 3，技術報告即將發布

性能方面，FLUX.1經過特別微(wei)調，在預訓練中(zhong)保留(liu)了整個(ge)輸出(chu)多(duo)樣性，在指令遵(zun)守、視覺質量、尺(chi)寸/長寬變化(hua)等(deng)多(duo)個(ge)方面樹立了新標準(zhun)。

其中FLUX.1[pro]和[dev]兩款模型(xing)，在(zai)5項測評標準中都超過(guo)了Midjourney v6.0、DALL·E 3和SD3-Ultra等熱門模型(xing)。

FLUX.1[schnell]作(zuo)為輕(qing)量級模型，不(bu)僅優(you)于同類競(jing)爭對手，還優(you)于Midjourney v6.0、DALL·E 3等(deng)強大的非(fei)蒸(zheng)餾(liu)模型。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲FLUX.1性能(neng)與主(zhu)流模型對比

此外，所有FLUX.1模型均支持0.1和2.0百萬像素(su)的多種寬高比和分辨(bian)率。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲寬高比(bi)/分辨率變化

如此(ci)強大的性能是怎么做到的？

在模型架構(gou)上，FLUX.1采用基于多模態(tai)和并行擴散Transformer模塊的混(hun)合架構(gou)，并將其擴展到12B參數。

團隊通(tong)過(guo)建(jian)立流匹配（Flow Matching）來(lai)改進最先進的(de)擴(kuo)散模(mo)型，并通(tong)過(guo)結合旋轉位置嵌入（Rotary Position Embedding）和(he)并行注意力層(ceng)，來(lai)提高模(mo)型性能(neng)和(he)硬件效率。更詳細的(de)技術報告將在不久后發布。

三、SD原班人馬，2.25億種子輪，要發SOTA視頻模型

黑森林(lin)實(shi)驗室由Stable Diffusion的創始(shi)團隊成(cheng)立(li)，該團隊此前的工作還包括高質量圖像生(sheng)成(cheng)模型VQGAN、視頻生(sheng)成(cheng)模型Stable Video Diffusion等。

Stable Diffusion最初的5位作者中，4位曾加入Stability AI并持(chi)續開發SD后續版本的成(cheng)員，包(bao)括Robin Rombach、Andreas Blattmann、Dominik Lorenz以及Patrick Esser，都在黑森林(lin)實驗室的創始(shi)團(tuan)隊中。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲Stable Diffusion作者(zhe)、黑(hei)森林實(shi)驗室(shi)創始(shi)團隊

該團隊稱(cheng)，其核心信念是開發(fa)廣泛(fan)可訪問(wen)的模型，促進研究(jiu)界(jie)和學術(shu)界(jie)的創新(xin)和協(xie)作，并(bing)提(ti)高模型透明度。

黑森林實驗室宣布已完成3100萬美元（約合人民幣2.25億元）的種子輪融資，由知名(ming)風投機構(gou)a16z（Andreessen Horowitz）領投，VR制造商Oculus的(de)CEO Brendan Iribe、創企(qi)孵化器YC的(de)CEO陳嘉興（Garry Tan）、英偉達(da)研究員Timo Aila等專家(jia)及AI公司跟投，還收到(dao)了來(lai)自General Catalyst等一線基金的(de)后續投資(zi)。

該(gai)團隊(dui)的(de)顧問委(wei)員會，包括在(zai)內(nei)容創作行業擁有豐(feng)富經驗的(de)前迪士尼總裁Michael Ovitz，以及(ji)神經風格轉(zhuan)換的(de)先驅Matthias Bethge教授。

剛剛創業的AI大神安德烈·卡帕西（Andrej Karpathy）為黑森林團(tuan)隊送上祝福，并稱“開源的FLUX.1圖像生成模(mo)型看起來非(fei)常(chang)強(qiang)大”。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲卡帕西評論

創始團隊的前領導——Stability AI前CEO埃馬德·莫斯塔克（Emad Mostaque）也發來賀電，還說“之前能(neng)與他(ta)們合(he)作(zuo)是我的榮幸，我相信他(ta)們會繼(ji)續在生成每一個(ge)像素的旅程中突破界限”。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲莫斯塔克評論

在下一步的工作上，黑森林預告將發布一款SOTA文生視頻模型，“讓(rang)所有人都能將文本轉為視頻”。該模型將建立在(zai)FLUX.1的(de)基礎上，“以高清和(he)前所未有的(de)速度實現精確創(chuang)作和(he)編輯(ji)”。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲視頻生成模型預告

結語：多模態大模型領域黑馬涌現

在眾多(duo)大廠、創企狂卷文(wen)生(sheng)視(shi)頻之際，文(wen)生(sheng)圖領(ling)域(yu)突(tu)然迎來黑馬。“橫空(kong)出世”的(de)FLUX.1的(de)不僅展現出卓越的(de)性(xing)能，在文(wen)字生(sheng)成、復(fu)雜(za)構圖、人(ren)手描繪等(deng)方面突(tu)破難關，還以多(duo)樣化的(de)版本滿足不同用戶的(de)需求(qiu)。

黑(hei)森(sen)林實驗室憑借著Stable Diffusion原班人馬的(de)(de)強大(da)(da)實力，獲得了豐(feng)厚的(de)(de)種子輪融資，也吸引了眾多行(xing)業大(da)(da)咖的(de)(de)關注與支持。其后續將發布(bu)的(de)(de)視(shi)頻模型，又將為(wei)文生視(shi)頻領域注入新的(de)(de)活(huo)力。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、擅長生成文字、人手，三種模型規模秒級生成

二、擊敗MJ V6、DALL·E 3，技術報告即將發布

三、SD原班人馬，2.25億種子輪，要發SOTA視頻模型

結語：多模態大模型領域黑馬涌現

相關推薦