
智東西AI前瞻(公眾號:zhidxcomAI)
作者|江宇
編輯|漠影
智東西AI前瞻9月10日報道,前日,騰訊開源其(qi)高分(fen)辨(bian)率文(wen)生(sheng)圖模型(xing)HunyuanImage-2.1,并同步(bu)釋出推理代碼(ma)和模型(xing)權重。
作(zuo)為一款具備2K超高(gao)清(qing)生成能(neng)力的擴散模型,HunyuanImage-2.1在架構設計、文本理(li)解(jie)、多語種支持、推理(li)效(xiao)率等(deng)多個層面進(jin)行了系統(tong)性優(you)化。
它(ta)不僅(jin)支(zhi)持(chi)中(zhong)文(wen)和英文(wen)的(de)復雜描述,還(huan)能自動潤色提示詞、提升圖(tu)像語(yu)義對(dui)齊質量(liang),同(tong)時(shi)具備圖(tu)像精修能力。
HunyuanImage-2.1已在GitHub上線(xian),并開(kai)放了(le)三(san)項核心功能:文本生(sheng)成圖(tu)像(xiang)(xiang)(xiang)、提示(shi)詞增強與(yu)(yu)圖(tu)像(xiang)(xiang)(xiang)精修(xiu)。用戶也(ye)可(ke)以(yi)自由選(xuan)擇畫幅比例(li)與(yu)(yu)推理參數,也(ye)可(ke)選(xuan)用“增強提示(shi)詞”“圖(tu)像(xiang)(xiang)(xiang)精修(xiu)”等附加選(xuan)項,以(yi)生(sheng)成更(geng)高質量的圖(tu)像(xiang)(xiang)(xiang)內容(rong)。
目前(qian),混元官網僅(jin)支持文生圖(tu)功能,提示(shi)詞增強與圖(tu)像精修暫未上線(xian)。
體驗指路:
混元(yuan)官網://hunyuan.tencent.com/modelSquare/home/play?modelId=286&from=/visual
Github://github.com/Tencent-Hunyuan/HunyuanImage-2.1
Huggingface://huggingface.co/tencent/HunyuanImage-2.1
一、三大功能支持2K出圖,可控性更強
在GItHub的體驗(yan)頁面(mian)中(zhong),用(yong)戶可以使用(yong)HunyuanImage-2.1完成以下三類任務:
1、文本(ben)生成圖像:輸(shu)入(ru)中英文提(ti)示(shi)詞,生成最高(gao)可達2048×2048分(fen)辨率的圖像,支持16:9、4:3、1:1等多種畫幅比例(li);
2、提(ti)示詞增強:自動對用戶輸入(ru)的提(ti)示詞進行語義(yi)潤色(se)與(yu)擴寫,強化(hua)描述細節,提(ti)高(gao)成(cheng)圖質量;
3、圖像(xiang)精修:上傳已(yi)有(you)圖片并輸入(ru)修改要(yao)求(qiu),由(you)精修模型對畫面清晰度、細(xi)節層次進行(xing)再提升(sheng)。
在基礎設(she)定中,用戶可(ke)手動調節推理步(bu)數(默認(ren)50步(bu))、提示(shi)詞(ci)引導(dao)強(qiang)度(默認(ren)3.5),并(bing)選(xuan)擇是否開啟(qi)自動提示(shi)詞(ci)增強(qiang)(Reprompt)與精修(Refiner)。若顯存充足,可(ke)關閉(bi)CPU offloading,提升生成速度。
二、體驗:中文渲染在線,提示詞增強和圖片精修都能跑通
智(zhi)東西也上(shang)手體驗(yan)了一番(fan)。
1、文生圖
體驗場(chang)景(jing)1:家長群里老師臨時通知(zhi)“明天帶一張手(shou)抄報,主題為《中秋(qiu)賞月》。
提示詞:中(zhong)秋(qiu)主題A4手抄報線(xian)稿,白(bai)底,粗黑(hei)描邊,畫面分三欄(lan):左上角(jiao)圓月(yue)+玉兔簡筆(bi)畫,右下角(jiao)卡通(tong)嫦娥+月(yue)餅,底部留白(bai)寫古詩,中(zhong)間一排(pai)空心藝術字(zi)標(biao)題“中(zhong)秋(qiu)團(tuan)圓”,整體簡潔可愛,適合兒(er)童(tong)涂(tu)色,無陰(yin)影、無填(tian)充色。
混元生成(cheng)的畫面干凈、布局(ju)合理,也沒(mei)有多余(yu)的渲(xuan)染,直接打(da)印后可(ke)作為涂色底稿使用,一(yi)鍵解決(jue)爸媽(ma)的“作業焦慮”。
2、提示詞增強
體驗場景(jing)2:電商公司要(yao)做“雙11預(yu)熱海報”,只會寫一句大(da)白話:“熱鬧購物節氛圍”。
提示詞:雙11預熱海報。
增(zeng)(zeng)強(qiang)(qiang)后的(de)(de)(de)(de)(de)(de)(de)(de)提(ti)示詞:一(yi)(yi)張充(chong)滿(man)動感(gan)的(de)(de)(de)(de)(de)(de)(de)(de)“雙(shuang)11”雙(shuang)十(shi)一(yi)(yi)購(gou)物狂(kuang)歡日(ri)預(yu)熱海(hai)報,畫面中央聚(ju)焦(jiao)于一(yi)(yi)個(ge)巨大(da)的(de)(de)(de)(de)(de)(de)(de)(de)、發光(guang)(guang)的(de)(de)(de)(de)(de)(de)(de)(de)“11”數(shu)字(zi)。這個(ge)巨大(da)的(de)(de)(de)(de)(de)(de)(de)(de)“1”數(shu)字(zi)由明(ming)亮(liang)的(de)(de)(de)(de)(de)(de)(de)(de)霓虹(hong)燈光(guang)(guang)效(xiao)構成(cheng),呈現出(chu)從亮(liang)紅(hong)色到(dao)電光(guang)(guang)藍的(de)(de)(de)(de)(de)(de)(de)(de)漸變色彩(cai),數(shu)字(zi)邊(bian)緣(yuan)帶有(you)柔和(he)的(de)(de)(de)(de)(de)(de)(de)(de)光(guang)(guang)暈,具(ju)有(you)強(qiang)(qiang)烈(lie)(lie)的(de)(de)(de)(de)(de)(de)(de)(de)科(ke)技感(gan)和(he)視(shi)覺沖擊力。在(zai)“1”字(zi)的(de)(de)(de)(de)(de)(de)(de)(de)正下方,是(shi)一(yi)(yi)行醒目的(de)(de)(de)(de)(de)(de)(de)(de)白色加粗藝術字(zi)體(ti),內容為“雙(shuang)11”。數(shu)字(zi)的(de)(de)(de)(de)(de)(de)(de)(de)周(zhou)圍(wei)和(he)背景中,分布著大(da)量被(bei)動態模糊(hu)和(he)數(shu)據流線條(tiao)勾勒出(chu)的(de)(de)(de)(de)(de)(de)(de)(de)購(gou)物小(xiao)哥(ge)剪影,他們有(you)的(de)(de)(de)(de)(de)(de)(de)(de)高舉手機,似(si)乎(hu)在(zai)搶購(gou),有(you)的(de)(de)(de)(de)(de)(de)(de)(de)在(zai)瀏覽(lan)商(shang)(shang)品,姿態各(ge)異,充(chong)滿(man)了(le)活力。背景是(shi)一(yi)(yi)個(ge)深(shen)邃的(de)(de)(de)(de)(de)(de)(de)(de)暗(an)色空間,點綴(zhui)著微(wei)小(xiao)的(de)(de)(de)(de)(de)(de)(de)(de)、閃爍的(de)(de)(de)(de)(de)(de)(de)(de)星光(guang)(guang)或(huo)數(shu)據粒子,增(zeng)(zeng)強(qiang)(qiang)了(le)畫面的(de)(de)(de)(de)(de)(de)(de)(de)數(shu)字(zi)感(gan)。畫面的(de)(de)(de)(de)(de)(de)(de)(de)底部區域,放(fang)置了(le)一(yi)(yi)個(ge)虛擬的(de)(de)(de)(de)(de)(de)(de)(de)購(gou)物車圖(tu)標(biao)和(he)價(jia)格標(biao)簽的(de)(de)(de)(de)(de)(de)(de)(de)樣式,上面用(yong)醒目的(de)(de)(de)(de)(de)(de)(de)(de)紅(hong)色字(zi)體(ti)寫著“全場5折(zhe)起”,并附有(you)一(yi)(yi)個(ge)虛構但精(jing)致的(de)(de)(de)(de)(de)(de)(de)(de)電子產品或(huo)潮流服(fu)飾的(de)(de)(de)(de)(de)(de)(de)(de)特寫圖(tu)片。整體(ti)光(guang)(guang)線集中在(zai)中央的(de)(de)(de)(de)(de)(de)(de)(de)“1”字(zi)和(he)周(zhou)圍(wei)的(de)(de)(de)(de)(de)(de)(de)(de)特效(xiao)上,形成(cheng)強(qiang)(qiang)烈(lie)(lie)的(de)(de)(de)(de)(de)(de)(de)(de)視(shi)覺焦(jiao)點,營造出(chu)一(yi)(yi)種緊張、刺激且極(ji)具(ju)期待感(gan)的(de)(de)(de)(de)(de)(de)(de)(de)氛(fen)圍(wei)。這張圖(tu)片是(shi)一(yi)(yi)張融合了(le)3D渲染(ran)、抽(chou)象設計(ji)和(he)商(shang)(shang)業攝影元素的(de)(de)(de)(de)(de)(de)(de)(de)數(shu)字(zi)藝術作品,屬(shu)于典型的(de)(de)(de)(de)(de)(de)(de)(de)電商(shang)(shang)大(da)促宣傳海(hai)報。
▲增強后(hou)指令(ling)所生成的海報
生成(cheng)的(de)圖像還原了(le)增(zeng)強提(ti)示(shi)詞中的(de)元素布(bu)局,燈光、人物、數(shu)字感(gan)都有體現,整體畫面比較完整,氛圍(wei)也(ye)足夠熱鬧。
3、照片精修
體驗(yan)場景3:把“旅游打卡(ka)廢片”秒(miao)變(bian)“小紅書封面”。
提(ti)示詞:矯(jiao)正水平線,恢復洪崖洞金黃(huang)燈光(guang)細節,壓高(gao)光(guang)提(ti)陰影,去掉江面彩(cai)色噪點(dian),強化吊腳樓(lou)木質紋理,保(bao)留現(xian)場煙火氣。
▲參考圖
▲精修后的圖片
處理后(hou)的照片確(que)實清(qing)晰了一些,燈(deng)光(guang)顏色恢復得比(bi)(bi)較自然,遠處樓體細(xi)節也比(bi)(bi)原(yuan)圖更清(qing)楚。
三、架構亮點:壓縮VAE、雙語編碼器與人類反饋強化訓練
HunyuanImage-2.1的(de)模(mo)型(xing)(xing)(xing)架構(gou)采(cai)用了“兩階段生成(cheng)策略”,即:基礎文生圖模(mo)型(xing)(xing)(xing)+精(jing)修模(mo)型(xing)(xing)(xing)。其(qi)中,基礎模(mo)型(xing)(xing)(xing)專(zhuan)注于語義(yi)理解與圖像(xiang)生成(cheng),精(jing)修模(mo)型(xing)(xing)(xing)則負責細(xi)節(jie)增強與瑕疵修復。
核心技術亮點包括:
1、高壓(ya)縮(suo)率(lv)VAE+DiT主干網絡:通過(guo)32×空間(jian)壓(ya)縮(suo)率(lv)的(de)VAE,大(da)幅降低輸入Token數量,使得(de)生(sheng)成2K圖(tu)像的(de)Token規模(mo)與他人1K圖(tu)像相當(dang),顯著(zhu)提升(sheng)推理效(xiao)率(lv)。
2、雙(shuang)文本(ben)編碼(ma)器:同時引(yin)入視覺語(yu)言(yan)大(da)模(mo)型(xing)(MLLM)與(yu)多(duo)語(yu)種字(zi)符級ByT5編碼(ma)器,分別處理(li)(li)場景理(li)(li)解與(yu)文字(zi)表達,確保多(duo)語(yu)言(yan)支持下的高(gao)質量(liang)圖像生成。
3、雙(shuang)流擴散(san)Transformer結構:構建(jian)17B參數規模的(de)大(da)模型,在處理復雜構圖與多主體任務時(shi)具(ju)備更(geng)強(qiang)表征能力。
4、人類反饋強化(hua)學(xue)習(RLHF):訓練(lian)過程中使用(yong)兩階(jie)段后(hou)訓練(lian)策(ce)略(lve)(SFT+RL),結合(he)“高質量圖像選優(you)樣(yang)本”與“獎勵分布(bu)對齊機制(zhi)”,優(you)化(hua)生成圖像的結構完整性與美學(xue)表現(xian)。
5、PromptEnhancer重(zhong)(zhong)寫模(mo)型:該模(mo)塊通過結構性重(zhong)(zhong)寫用戶輸(shu)入的提示詞,以增(zeng)強描(miao)述(shu)信息的完整度與圖像生成的語義(yi)(yi)貼合度。其訓練過程中引入了AlignEvaluator對圖文(wen)語義(yi)(yi)一致性進行精細化(hua)評(ping)分。
其核心機制(zhi)是以“思維鏈式改寫(Chain-of-Thought Rewriting)”為策略,通(tong)過兩階段(duan)訓練流程完(wan)成提示詞優化:
第一階段(duan):通過(guo)監督微調(SFT),對海量用戶提示詞與增(zeng)強后Prompt對進行結構學習;
第二階(jie)段(duan):引入(ru)基于獎勵的策略優化(hua)(GRPO),由(you)“AlignEvaluator”對(dui)生成(cheng)圖像與提(ti)示詞之間的語(yu)義一致性進(jin)行(xing)24項細粒度評估,進(jin)而(er)反饋回提(ti)示詞改寫策略,完成(cheng)高(gao)質(zhi)量回寫。
該機制可顯著提升提示詞對復雜屬(shu)性(xing)、否定(ding)結構、組合關系(xi)的(de)(de)表達準確(que)性(xing)。例如(ru),一條簡單提示“湯(tang)姆(mu)貓在畫(hua)(hua)(hua)畫(hua)(hua)(hua)”,在PromptEnhancer處理后會被(bei)自動擴寫為“身穿紅色圍裙的(de)(de)湯(tang)姆(mu)貓,在寫實畫(hua)(hua)(hua)風的(de)(de)油畫(hua)(hua)(hua)布前,手持毛筆作畫(hua)(hua)(hua)”,從而生成(cheng)更具(ju)意圖(tu)還原度(du)的(de)(de)圖(tu)像。
6、Meanflow蒸餾推理(li):為解決工業級(ji)大(da)模(mo)型(xing)推理(li)速(su)度慢的問題,HunyuanImage-2.1首次將Meanflow成功用于(yu)大(da)模(mo)型(xing)蒸餾,在少量采樣步(bu)驟下仍可保持圖(tu)像質(zhi)量,提升推理(li)效率(lv)。
此外,在數據構建(jian)上(shang),HunyuanImage引入了(le)結構化分層Caption機制(短/中/長/超長)與(yu)OCR Agent+IP RAG組合策略,顯著增強了(le)模型理解密集文本與(yu)世界(jie)知識描述(shu)的能力。
使用HunyuanImage-2.1進行本(ben)地部署時(shi),最低需配(pei)備支持(chi)CUDA的(de)NVIDIA GPU,顯存(cun)不少于59GB(生成2048×2048圖像時(shi),batch size=1)。當前(qian)僅支持(chi)Linux系(xi)統(tong)。上述顯存(cun)要求(qiu)基于啟用模(mo)型CPU卸載(zai)(zai)(offloading)時(shi)的(de)測得值,若設備內存(cun)充足,也可關閉卸載(zai)(zai)以獲得更快的(de)推理(li)速度。
同時,騰(teng)訊(xun)團隊已確認將逐步開(kai)(kai)源PromptEnhancer-7B版本(ben),包括(kuo)更大規模的提示詞改寫模型、獎勵模型AlignEvaluator、數(shu)據集與(yu)評(ping)測(ce)基(ji)準。同時,針(zhen)對圖(tu)生圖(tu)、文生視(shi)頻、圖(tu)生視(shi)頻等多模態任(ren)務的PromptEnhancer系(xi)列(lie)亦在開(kai)(kai)發中,即將推出。
四、評測對比:在開源模型中圖文一致性排名第一,逼近閉源商業模型表現
在多個維(wei)度的(de)標準化評(ping)測中(zhong),HunyuanImage-2.1展(zhan)現出(chu)強(qiang)勁性能,尤(you)其在圖文語義(yi)對齊(qi)方(fang)面(mian)已(yi)達到開源(yuan)模型的(de)領先水平,整(zheng)體表現接近GPT-Image、Seedream-3.0等閉源(yuan)商業模型。
根據SSAE(Structured Semantic Alignment Evaluation)結構(gou)化語義對(dui)齊評測(ce),研究團(tuan)隊基于12個類別、3500個語義關鍵點構(gou)建了自動化評估框架,分別評測(ce)了包(bao)括主(zhu)主(zhu)體、次主(zhu)體、場景構(gou)成與圖(tu)像(xiang)風(feng)格在(zai)內(nei)的24項細分能(neng)力。
從結果來(lai)看(kan),HunyuanImage-2.1在(zai)Mean Image Accuracy(0.8888)與Global Accuracy(0.8832)指標上,超(chao)越了所有開源模(mo)型,在(zai)主客體(ti)識別(bie)、動作理解、圖(tu)像構(gou)圖(tu)等多個(ge)子維度也取得領先或持平(ping)表現:
1、在“主主體(ti)識別”類維度中,HunyuanImage-2.1在名詞(0.9339)、關鍵(jian)屬(shu)性(0.9341)上接近Seedream-3.0;
2、在(zai)“次(ci)主體表達”維(wei)度(du),其在(zai)名詞(0.9627)和動作(0.9615)上的準(zhun)確率(lv)接近GPT-Image(0.9494,0.8800);
3、在“場景控制(zhi)”中,其對鏡頭(0.7527)、風格(0.8689)和構圖(0.7619)的把握能力與主流閉源模(mo)型接近。
此外,在由100位專業標(biao)注(zhu)員參(can)與的(de)GSB人評(ping)中(zhong)(zhong),HunyuanImage-2.1在單輪推(tui)理(li)、隨機提示詞設定(ding)下,對比(bi)(bi)Seedream-3.0(閉(bi)源)略遜1.36%,但(dan)在與Qwen-Image(開源)對比(bi)(bi)中(zhong)(zhong)勝出(chu)2.89%。這一結果表明,在不依賴樣本篩選(xuan)的(de)實(shi)用生成場景中(zhong)(zhong),HunyuanImage-2.1已具備高可用性(xing)和廣泛(fan)適配性(xing)。
結語:高分辨率中文出圖,開源模型也能勝任了
HunyuanImage-2.1讓中(zhong)文場景下的高(gao)分辨(bian)率(lv)圖像生成(cheng)更易獲(huo)取,也(ye)把提示詞增強和精修做了同(tong)步精進。
作為(wei)開源成果(guo),它(ta)或許能成為(wei)國內更(geng)多(duo)應用探(tan)索(suo)的起點。