
智東西AI前瞻(公眾號:zhidxcomAI)
作者|江宇
編輯|漠影
智東西AI前瞻9月9日報道,今日,字節跳動Seed團隊正式發布新一代圖像創作模型Seedream 4.0(即夢圖片4.0模型)。
作為該系列迭代以來的一次整合升級,Seedream 4.0在一套模型架構中集成了文生圖、圖像編輯、草圖控圖、風格遷移等多種能力,并支持最高4K分辨率圖像生成,現已(yi)接入即夢、豆包等平(ping)臺。
這一版(ban)本的(de)(de)發布,恰(qia)逢(feng)Google圖(tu)像(xiang)生(sheng)成(cheng)模型(xing)Nano Banana(Gemini 2.5 Flash Image)在社交媒體刷屏走紅之際。相比(bi)之下,Seedream 4.0也帶來了完整的(de)(de)多模態創作能(neng)力,不(bu)僅(jin)支持自定義圖(tu)像(xiang)比(bi)例、多圖(tu)融合與(yu)復(fu)雜(za)結構推理,在中文文字生(sheng)成(cheng)、圖(tu)像(xiang)清晰(xi)度(du)與(yu)任務一致性等關鍵能(neng)力上(shang),具備鮮明(ming)優(you)勢。
在(zai)Seed團(tuan)隊構建的(de)評測體系中,Seedream 4.0在(zai)文生圖與(yu)圖像(xiang)編輯(ji)兩項(xiang)任務(wu)的(de)綜合Elo評分,已超越(yue)Nano Banana(Gemini 2.5 Flash Image)。
智東西(xi)先試了試用它給VOGUE二(er)十周年群(qun)像(xiang)封面改風格。在豆包(bao)對話頁面點擊“豆包(bao)P圖”,上(shang)傳照片,默認模(mo)型便是即夢(meng)4.0,輸入(ru)文字描述,等待(dai)近(jin)30秒,豆包(bao)就能(neng)一次性(xing)生成2張符合描述的圖片。
我(wo)們讓它生成了復古(gu)港(gang)風、未來賽博(bo)朋(peng)克、洛可可宮廷風、Y2K千禧辣妹風、極簡現代攝(she)影風和古(gu)風等風格(ge)(ge)。從生圖(tu)效果來看,模(mo)型在整體風格(ge)(ge)還原(yuan)上表現較(jiao)好,無論是(shi)背景(jing)氛圍、光影色調,還是(shi)人(ren)(ren)物造型,都能做到較(jiao)統一的風格(ge)(ge)轉換(huan),不足之處是(shi)人(ren)(ren)臉五官特(te)征出(chu)現變形,人(ren)(ren)名欄(lan)也(ye)變模(mo)糊。
▲豆包修改的VOGUE二十周年群像封面 (點擊鏈接可查看原圖)
在(zai)初步體驗的基礎上(shang)(shang),智東西進一步參(can)考Seedream 4.0官(guan)方提出的八類基礎能力場景,設計了一組Prompt,并將(jiang)同(tong)一任務(wu)同(tong)步交由Nano Banana執行,圍繞(rao)精準編(bian)輯、控(kong)圖(tu)生(sheng)(sheng)成、手(shou)辦建模(mo)、多圖(tu)輸出、中文排版等(deng)維度,觀察兩款模(mo)型在(zai)生(sheng)(sheng)成效(xiao)果上(shang)(shang)的差異。
一、八種玩法實測,Seedream 4.0和Nano Banana短兵相接
Seed團隊(dui)給出了Seedream 4.0的八類基礎玩法,官方(fang)將(jiang)其歸納為:精準編輯、靈活(huo)參考(kao)、控圖(tu)(tu)生成(cheng)、上下(xia)文推理、多圖(tu)(tu)融合、多圖(tu)(tu)輸(shu)出、文字渲染和自適應畫布。
智東(dong)西圍繞每(mei)類能力,設置了實(shi)戰Prompt,并(bing)同步用Nano Banana跑同一任(ren)務,來看誰的(de)生(sheng)成更穩定、畫面更自然、任(ren)務理解力更強(qiang)。
以下體驗均為真實測(ce)試結果,歡迎讀(du)者(zhe)復制(zhi)指令自行復現。
1、中文寫實圖生成+精準編輯(Precise Editing)
Prompt:一個亞洲面(mian)孔女孩坐在江(jiang)邊看(kan)書,身(shen)邊放著(zhu)咖啡(fei)和一本(ben)筆記本(ben),黃昏時分水面(mian)反光,構圖為(wei)3:2橫圖,風格為(wei)寫(xie)實攝影。
補(bu)充指令(ling)1:發色為(wei)粉色。
補充指(zhi)令2:背景為圖書館。
▲Seedream 4.0
▲Nano Banana
補充(chong)指(zhi)令1:發色(se)為粉色(se)。
▲Seedream 4.0
▲Nano Banana
補充指令(ling)2:背景為圖書館。
▲Seedream 4.0
▲Nano Banana
這組圖(tu)最能(neng)拉開“寫實能(neng)力”的差距。Seedream 4.0對(dui)補(bu)充指令的理解更精準,效果也更自然。不(bu)僅發(fa)色和波光粼(lin)粼(lin)的這類細節更為寫實,場景切換(huan)到圖(tu)書(shu)館后,依舊能(neng)維(wei)持整(zheng)體(ti)畫(hua)面協調。
而Nano Banana在補充“背景為圖書(shu)館”的指(zhi)令后,畫面(mian)中的人物(wu)姿態(tai)上就略顯僵硬。
2、多圖參考生成(Multi-Image Reference Generation)
Prompt:請將參(can)考(kao)圖(tu)中的衣服、鞋子和(he)配飾整體(ti)換(huan)到(dao)模特(te)身上,確保服裝(zhuang)貼合身形,面(mian)部特(te)征和(he)姿勢保持一(yi)致(zhi),生成圖(tu)像風格與參(can)考(kao)圖(tu)一(yi)致(zhi)。
▲參考圖
▲Seedream 4.0
▲Nano Banana
這組(zu)體驗(yan)中,Seedream 4.0的表現略遜。雖然衣物(wu)與(yu)姿態基本對得上(shang),但服飾的款式并未完全復刻。在圖(tu)像理解上(shang),未能準確識(shi)別參考圖(tu)上(shang)衣服的褶(zhe)皺。
反觀Nano Banana的效果更自然流暢,整體穿搭更“貼身”。
3、 草圖控圖/視覺信號可控生成(Visual Signal Controllable Generation)
Prompt 1:根據上傳的手繪(hui)草圖生成(cheng)現代(dai)極簡風格客廳(ting)實景圖,保留草圖中家具位置,房間挑高,光線明亮。
▲參考圖
▲Seedream 4.0
▲Nano Banana
Prompt 2:為一(yi)張包含兩個人物(wu)的動(dong)作(zuo)線(xian)稿進行上色,動(dong)作(zuo)姿勢(shi)與線(xian)稿圖保持完全(quan)一(yi)致,人物(wu)比(bi)例和細節(jie)需(xu)嚴格(ge)遵循(xun)參考圖。
▲參考圖
▲Seedream 4.0
▲Nano Banana
這一類任務中,Seedream 4.0展(zhan)現出了更(geng)強的(de)一致性,動作還原幾乎“絲滑貼(tie)線”。Nano Banana的(de)優勢則在(zai)人(ren)物細(xi)節與(yu)氛圍感,但在(zai)貼(tie)合(he)線稿(gao)的(de)控(kong)制上(shang)略有波動。
4、手辦生成/靈活參考(Flexible Reference)
Prompt:繪制圖中角色的1/7比(bi)例商業化手辦,寫(xie)實風格,場景設定為電腦(nao)桌,亞克力底座,旁邊有印有原畫的包(bao)裝盒(he)和ZBrush建(jian)模畫面。
▲Seedream 4.0
▲Nano Banana
這類任務(wu)曾是(shi)Nano Banana走紅(hong)社媒的“代表作(zuo)”,這次(ci)Seedream 4.0也做得頗為出色,手(shou)辦(ban)質感(gan)真實,周邊元素豐(feng)富,構(gou)圖也更完整。
5、多圖輸出(Multi-Image Output)
Prompt:參考這個LOGO,做一套戶外運(yun)動品(pin)牌視(shi)覺設計,品(pin)牌名稱為(wei)“GREEN”,包括包裝袋、帽(mao)子、卡片、手環、紙盒、掛繩等,綠色為(wei)主色調,簡(jian)約現代風。
▲參考圖
▲Seedream 4.0
▲Nano Banana
這類多圖輸出任務,是考驗(yan)模型細(xi)節、統一性與(yu)輸出清晰度的硬仗(zhang)。Nano Banana生成結果清新可愛,但有些空泛。而Seedream 4.0能保持多圖風格一致,外加(jia)高清晰度,也(ye)更適合(he)商業展示。
6、高級文字渲染與排版(Advanced Text Rendering)
Prompt 1:生成一張中文海報,主標題(ti)為“城市綠(lv)色出行倡議”,副標題(ti)為“打造未來低(di)碳生活方式”,底部有(you)二(er)維碼和品牌LOGO。
▲Seedream 4.0
▲Nano Banana
Prompt 2:生(sheng)成(cheng)送(song)貨機器人的(de)手繪草圖,含文字(zi)、公式、表格、統計圖等元素。
▲Seedream 4.0
▲Nano Banana
在(zai)中文(wen)字(zi)處理這(zhe)一項,Seedream 4.0是(shi)“降維打擊”。文(wen)本清晰(xi)度、字(zi)形規整性與位置排布都表現(xian)穩定,有“直接交付”的潛力。
而Nano Banana則依舊存在“中(zhong)文混亂(luan)”的老問題。
7、上下文推理生成(In-Context Reasoning Generation)
Prompt:時間(jian)從(cong)中(zhong)午12點過(guo)去11小時15分(fen)鐘,房間(jian)光線變暗,鬧鐘時間(jian)應同步變化。
▲Seedream 4.0
▲Nano Banana
Seedream 4.0不僅調暗了室內光(guang)線,窗外景(jing)色也(ye)配(pei)合(he)“入(ru)夜”,連鬧鐘顯示時(shi)間也(ye)匹配(pei)。而Nano Banana雖然場景(jing)變暗,但窗外還是(shi)大(da)白天,可見“推理”這一步還沒跟上。
8、自適應比例與4K生成(Adaptive Aspect Ratio & 4K Generation)
Prompt:生成一(yi)張16:9橫(heng)版(ban)構(gou)圖的城市夜(ye)景俯瞰圖,建筑燈光清晰(xi),要求圖像分辨率為4K。
▲Seedream 4.0
▲Nano Banana
Seedream 4.0一鍵輸出4K高分圖,比例、光影、清晰度都達標。Nano Banana則提(ti)示“當前(qian)不支持生成4K圖像”,盡管構圖不錯,但(dan)解(jie)析度還是有(you)局限。
二、一套模型通吃文生圖與編輯,推理速度提升10倍
Seedream 4.0在架構(gou)設計(ji)上完成了一(yi)次整合式升級,將前(qian)代文生圖模型(xing)Seedream 3.0與(yu)圖像(xiang)編輯模型(xing)SeedEdit 3.0融合為一(yi)套統一(yi)模型(xing)架構(gou)。
核心創新包括:
1、DiT架構+高壓縮比VAE:構建了一個高效率的擴散Transformer模型,訓練與推理速度提升10倍;
2、VLM模塊加持:引入SeedVLM模塊,強化對圖像語義、世界知識的理解,增強多模態上下文推理能力;
3、聯合訓練機制:通(tong)過CT、SFT、RLHF三階段全鏈路訓練,將生成與編(bian)輯任(ren)務進行(xing)融合(he)優化(hua),在圖像結構(gou)還原度、風格(ge)一致性、文字(zi)理解力上表現(xian)更佳;
4、大規模多模態數據鏈路:結合視頻(pin)抽(chou)幀、HTML內容檢(jian)索、專家模型合成(cheng)等方式,構(gou)建出大規(gui)模高質量訓練(lian)數據集(ji);
5、推理效率優化:引入對抗蒸餾、分布匹配、推測解碼等機制,在保持質量的同時大幅減少生成耗時,2K圖像可秒級完成生成。
在保持(chi)生成質量穩定的同時,Seedream 4.0還提供(gong)了圖像尺寸、畫面比例、風格控(kong)制等(deng)細致參數設置,并(bing)原生集成了草圖、Canny、Depth、Mask等(deng)控(kong)圖通道(dao),無需(xu)額外模型支持(chi)。
三、評測成績:圖像編輯任務Elo評分超Nano Banana,文生圖能力穩中有短板
根據Seed團隊在MagicBench評測基準上的結果,Seedream 4.0在圖像編輯任務(Single-Image Editing Evaluation)中整體表現較為均衡,綜合評分(Overall Elo)略高于模型Nano Banana(Gemini 2.5 Flash Image)。在(zai)“文字渲染(Text Rendering)”、“人工評價得分(DreamEval, bo4/avg)”等維度(du)表現突出,特(te)別是在(zai)中文內(nei)容處理(li)上具(ju)備(bei)明(ming)顯優勢。
▲圖片編輯任務(wu)綜(zong)合(he)評測
在(zai)“指令對齊(Alignment)”方面,Seedream 4.0與模型(xing)Nano Banana(Gemini 2.5 Flash Image)處(chu)于(yu)同一水(shui)平,略低于(yu)GPT-Image-1;而在(zai)“一致性(Consistency)”和“結構還(huan)原(yuan)(Structure)”上,相比模型(xing)Nano Banana(Gemini 2.5 Flash Image)略有不足,但整體差距不大。
▲文(wen)生圖任務綜合評測
在文生圖任務(Text-to-Image Evaluation)中,Seedream 4.0在“美學表現(Aesthetics)”維度得分相對較高;但在“結構還原(Structure)”、“文字渲染(Text Rendering)”、“語義對齊(Alignment)”和“錯誤糾正(Correction)”等指標上,相比GPT-Image-1略遜一籌,整體評分略低于后者,比模型Nano Banana(Gemini 2.5 Flash Image)整體能力突出。
整體來看(kan),Seedream 4.0在圖像編輯場景中具備較(jiao)強能力,而在自(zi)由生(sheng)成(cheng)類的文生(sheng)圖場景中,其(qi)基礎能力穩定,仍有部分生(sheng)成(cheng)一致性和對抗復雜場景的提升(sheng)空間。
結語:一個更實用、更本地化的國產圖像模型
通過一輪多維度的實際體驗與(yu)評(ping)測(ce)對比可以看出,Seedream 4.0在圖像生成能力上的表現更加成熟,特別是在中文場景下具備明顯優勢。
它為用戶(hu)提供(gong)了(le)更高的控制自由度,也具備支持商業(ye)、設(she)計、教(jiao)育(yu)等專業(ye)場(chang)景的基礎能力。在國產圖(tu)像(xiang)模型不斷(duan)演進的過程(cheng)中,Seedream 4.0或許已(yi)代表了(le)當前(qian)圖(tu)像(xiang)生(sheng)成領(ling)域(yu)的一個(ge)穩定階段成果。