智東西(公眾號:zhidxcom)
編譯 | 陳駿達
編輯 | 李水青

智東西8月27日(ri)報道(dao),今天(tian),谷(gu)歌(ge)推出了Gemini 2.5 Flash Image,這款(kuan)模型是谷(gu)歌(ge)最先進的圖像生成和編輯模型。

這一模型的核心亮點是其圖像編輯能力。谷歌稱,這一模型可將多個圖像混合到單個圖像中,保持高(gao)度角色一致性,還能使用自然語言(yan)進行有(you)針對性的修改,并充分利(li)用Gemini的世界知識(shi)。

諾貝(bei)爾獎得主、谷歌DeepMind CEO Demis Hassabis用自己的照片為新模型做(zuo)宣傳(chuan),展示Gemini 2.5 Flash Image的角色一致性。他(ta)將自己的一張(zhang)照片背景做(zuo)了修改,切換為古典風格,但是人物(wu)的容貌沒(mei)有出現改變。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

上(shang)述能力也(ye)解鎖了不少有趣的(de)用例(li),比如,按(an)照特(te)定視覺模(mo)板打造“球星卡(ka)”一般的(de)設計,讓(rang)普(pu)通人也(ye)能一鍵(jian)體(ti)驗(yan)頂級運(yun)動員才(cai)有的(de)待遇。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

這一模型(xing)與谷歌Veo 3等(deng)視頻(pin)生成模型(xing)是絕配,結(jie)合使用后(hou)可以打造出豐富的(de)視頻(pin)效果。海外AI創意(yi)平臺Kera AI已經用類(lei)似的(de)模式,打造了一(yi)部(bu)廣告大片。

這款模型在上周其實已經以“nano-banana”的代號出現在大模型競技場中,并獲得了用戶200多萬票的認可。如今正式揭曉后,Gemini 2.5 Flash Image在文生圖與圖像編輯兩個場景均拿下了全球第一(yi),在圖像編輯榜單上更是獲得1362的高分(fen),較第二名的領(ling)先幅度接近15%。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

在(zai)(zai)谷歌公布的基準測(ce)試中,Gemini 2.5 Flash Image在(zai)(zai)用戶綜(zong)合喜好度、人物(wu)、創造力(li)、信息圖、物(wu)體和環(huan)境的生(sheng)成上均領先GPT-4o圖像(xiang)(xiang)生(sheng)成、Flux.1 Kontext(max)、Qwen Image Edit等模型,但(dan)在(zai)(zai)風(feng)格化(hua)能力(li)上與(yu)GPT-4o圖像(xiang)(xiang)生(sheng)成仍有差距。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

Gemini 2.5 Flash Image是(shi)一(yi)款主要面(mian)向開發者的模型,目(mu)前可在Gemini API、Google AI Studio、以及面(mian)向企業的Vertex AI中獲得。

這一模型的價格為30美元/100萬個輸出token,每張圖像為1290個輸出token,每張圖(tu)像價(jia)格約為0.039美元(yuan)(折合人(ren)民幣0.28元(yuan))。所有其他(ta)輸入和輸出模態均遵循Gemini 2.5 Flash定價。

為了讓使用Gemini 2.5 Flash Image打造AI應用更為容易,谷歌還對AI Studio的“構建模(mo)式(Built Mode)”進行了重大更新。開發(fa)者可以使用(yong)利用(yong)AI打造(zao)應用(yong)程序,快(kuai)速(su)測試Gemini 2.5 Flash Image等(deng)新模型(xing)的功能(neng)。

當準備好發布應用時,開發者可以直接從谷(gu)歌AI Studio進行部署,或將代(dai)碼保(bao)存到GitHub。谷(gu)歌也在(zai)博客中集中展示了(le)幾個案例(li):

超強角色一致性,幫Altman一鍵穿越

在(zai)多(duo)輪對話和編(bian)輯(ji)(ji)中保(bao)持角色(se)和對象外觀的一致,是圖像生(sheng)成(cheng)(cheng)與編(bian)輯(ji)(ji)的重大挑戰。谷歌的Gemini 2.5 Flash Image允許用戶將同一個(ge)角色(se)放置(zhi)在(zai)不同的環境中,在(zai)新(xin)環境中從多(duo)個(ge)角度展示(shi)單個(ge)產(chan)(chan)品,或(huo)生(sheng)成(cheng)(cheng)一致的品牌資(zi)產(chan)(chan),同時保(bao)留(liu)主題。

在下方的(de)示例(li)應用中,用戶(hu)僅需上(shang)傳一張自己的(de)自拍(pai),就能生成從50年代(dai)到00年代(dai)的(de)六張寫真,每張都有(you)當時(shi)的(de)年代(dai)風格(ge),用戶(hu)的(de)面貌并沒有(you)出現(xian)明顯的(de)偏離。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

智(zhi)東西(xi)也上傳了一張(zhang)OpenAI聯合創始(shi)人兼首(shou)席執行官Sam Altman的(de)照片,谷歌(ge)的(de)新模型(xing)直接(jie)讓Altman一鍵穿越回過去(qu),畫面質感超真實,連每個(ge)年(nian)代的(de)服飾都準確還原了。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

這種一致性還(huan)可(ke)用(yong)于(yu)專業設計場(chang)景。例如(ru),用(yong)戶可(ke)以給模型提供一種特定的(de)(de)紋理,并要求其進行替換。模型能在不改變形(xing)狀和(he)細(xi)節(jie)的(de)(de)前提下,完成紋理的(de)(de)更換。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

體驗鏈接:

//aistudio.google.com/apps/bundled/past_forward?showPreview=true&showAssistant=true

一句話精準P圖,光線、色彩全可自定義

Gemini 2.5 Flash Image支持使用自然語言進行有圖像轉(zhuan)換(huan)和編輯。例如,模(mo)型可以模(mo)糊圖像的背景、去(qu)除T恤上的污(wu)漬、從照片中刪除整(zheng)個人物、改變拍攝對象的姿勢、為黑白照片添加(jia)顏色等。

為了展示這些功(gong)能的實際(ji)應(ying)(ying)用(yong)(yong),谷歌(ge)在(zai)AI Studio中構(gou)建了一個照(zhao)片編輯模板應(ying)(ying)用(yong)(yong)。可(ke)以(yi)看到,這一照(zhao)片編輯應(ying)(ying)用(yong)(yong)支持對特定區域進行(xing)選中和修改,或是進行(xing)大范圍(wei)調整和濾鏡處(chu)理。

智(zhi)東西上傳了一張扎(zha)克伯格的(de)照片,并(bing)要求模型進行微調,讓牙齒看上去更白(bai)。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

最終生(sheng)成結果如下(xia),可以(yi)看到修改后扎克伯格的其他外貌特(te)征沒有出現明顯變(bian)化(hua)。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

也可以通過預(yu)設的提示詞,對(dui)圖(tu)像的光線(xian)、背景等進行自(zi)定義。下圖(tu)中(zhong),寫真的光線(xian)便被(bei)調(diao)整得更加溫暖。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

體驗鏈接:

//aistudio.google.com/apps/bundled/pixshop

具備大量世界知識,能看懂手繪插圖

過(guo)去,許多(duo)圖(tu)像生成模(mo)型雖然能打造出精美的(de)畫面,但對現實(shi)世界(jie)缺乏深刻的(de)語(yu)義理解。谷歌稱,Gemini 2.5 Flash Image擁有Gemini的(de)世界(jie)知識,為(wei)展示這點(dian),他(ta)們打造了一(yi)個模(mo)板(ban)應用,將(jiang)簡單的(de)畫布變(bian)成了一(yi)個互動式教育導師。

演示中,Gemini 2.5 Flash Image能夠理解手繪(hui)的(de)各類(lei)畫面,并解答(da)用戶提出(chu)的(de)各類(lei)問(wen)題。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

這種世界知識還讓模型能(neng)夠(gou)預測(ce)圖像未來的變(bian)化(hua),具備(bei)一定圖像推(tui)理能(neng)力。比如,當看到(dao)氣球飛翔仙人掌時,模型能(neng)夠(gou)根(gen)據(ju)用戶“預測(ce)下一個可能(neng)場景(jing)”的指(zhi)令,生成氣球破(po)碎的畫(hua)面(mian)。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

體驗鏈接:

//aistudio.google.com/apps/bundled/codrawing?showAssistant=true&showPreview=true

多圖融合能力出眾,可實現精準商品展示

Gemini 2.5 Flash Image可(ke)以理解和合并(bing)多個輸(shu)入圖像,這在電子商務等(deng)場(chang)(chang)景(jing)(jing)中有很強的實用(yong)價值。例如,商家可(ke)以在同一場(chang)(chang)景(jing)(jing)中用(yong)AI生成不同產(chan)品(pin)的宣傳照(zhao),或是給(gei)客戶提(ti)供家具等(deng)產(chan)品(pin)擺(bai)放(fang)在真(zhen)實場(chang)(chang)景(jing)(jing)中的樣(yang)子。

下(xia)方(fang)是谷歌提供的(de)(de)一個案例,只需將(jiang)左側的(de)(de)臺燈拖(tuo)拽到(dao)(dao)右側的(de)(de)場景中,稍等一段時間(jian),就能看到(dao)(dao)擺放后的(de)(de)效果。可以看到(dao)(dao)模(mo)型不(bu)僅(jin)將(jiang)臺燈元(yuan)素加(jia)入畫(hua)面,還(huan)開啟了燈光(guang)。不(bu)過(guo),生(sheng)成過(guo)程(cheng)明顯加(jia)速了。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

多(duo)圖融(rong)合(he)能力(li)還可用于創意圖像的生成。例如,融(rong)合(he)鯨魚與高山的兩張(zhang)照片(pian),打造出極(ji)具(ju)視(shi)覺沖擊力(li)的視(shi)覺效果。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

體驗鏈接:

//aistudio.google.com/apps/bundled/home_canvas?showPreview=true&showAssistant=true

Gemini 2.5 Flash Image發布后,海外網友(you)已(yi)經第一時間玩起(qi)來了。這位網友(you)利用它客戶打造了月餅廣告(gao)宣傳(chuan)照,他稱,同(tong)樣的提示詞,在(zai)Midjourney里(li)要(yao)花上10倍(bei)的調整和微(wei)調才能產(chan)生類似(si)的結果。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

還(huan)有(you)網(wang)友分(fen)享了(le)自己利用Gemini 2.5 Flash Image結合Veo 3打造的(de)視頻。在這一(yi)過程中(zhong),Gemini 2.5 Flash Image生成(cheng)了(le)許(xu)多不同角度的(de)鏡(jing)頭畫(hua)面,而Veo 3負(fu)責將它們(men)變為(wei)視頻。最終(zhong)的(de)效果十(shi)分(fen)驚艷。

不過,也有(you)用戶吐(tu)槽(cao)這(zhe)款模型的(de)審(shen)查十分(fen)嚴(yan)格,例如,無法生成人們拿著刀和斧(fu)頭的(de)畫面。

谷歌香蕉模型一夜登頂!干翻GPT-4o和FLUX,坐穩AI圖像之王

結語:圖像編輯再進化,或成重要生產力工具

從(cong)某種意義上(shang)來(lai)說,準確的圖像編(bian)輯能(neng)(neng)力是圖像生(sheng)成走進(jin)真(zhen)實生(sheng)產場(chang)景中最關鍵的能(neng)(neng)力之一。在(zai)電商等場(chang)景中,這一能(neng)(neng)力滿足了企業用戶對精確控(kong)制的需(xu)求;而(er)在(zai)娛樂場(chang)景里(li),這一能(neng)(neng)力可以給用戶提(ti)供(gong)豐(feng)富(fu)的體驗和(he)玩(wan)法。

當前,已有(you)多家國內外(wai)大模型廠商推出圖(tu)像(xiang)編輯模型,這(zhe)一領域(yu)的最新進(jin)展值得持續關注。