
智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 心緣
那些畫風“油膩”的AI生圖,終于有(you)救了?
智東西9月16日報道,騰訊近期開源勢頭太猛了,最新發布的圖像模型算法SRPO登上Hugging Face趨(qu)勢(shi)榜首,并在趨(qu)勢(shi)榜前(qian)3占2。
目前Hugging Face模型趨勢榜前6中,有5個均來自國內企業,被騰訊、百(bai)度、阿里包(bao)攬。
SRPO由騰訊混元生圖團隊聯合香港中文大學(深圳)、清華大學聯合開發,9月13日開源,已發布完整訓練代碼及技巧,社區量化版本下載量達1.6萬次,Github Star數量超過600。
SRPO的全(quan)稱是Semantic Relative Preference Optimization(語義相對偏好(hao)優(you)化(hua)),旨在(zai)解決當前開源社區中熱(re)門AI生(sheng)圖模型Flux生(sheng)成人像(xiang)時皮(pi)膚質感差、過(guo)于油(you)膩的問題。
通(tong)過在線(xian)調整獎勵偏好、優化早(zao)期生成(cheng)軌跡(ji)等(deng)手段(duan),SRPO可改善圖(tu)像生成效果,能將模型(xing)生(sheng)成(cheng)圖片(pian)的真實度、美學(xue)優(you)秀率的人類評估提升超300%。
▲Flux與SRPO生成效果對比
在取得更好效果的同時,SRPO大幅提升了訓練效率,在32卡設(she)置下(xia),僅需10分(fen)鐘(5.3GPU卡時)就可以完成(cheng)訓練,效率相比DanceGRPO提升(sheng)了75倍。
開發者可(ke)在ComfyUI中(zhong)使用SRPO,僅需(xu)將(jiang)下圖導入ComfyUI即可(ke)獲取(qu)完整工(gong)作流,或(huo)者直接加載SRPO-workflow的JSON文(wen)件。
目前(qian),SRPO已被上傳至Hugging Face、Github等開源托(tuo)管平臺,相(xiang)關技術(shu)報告已發布。
論文鏈接:
//arxiv.org/abs/2509.06942
項目主頁:
//tencent.github.io/srpo-project-page/
GitHub:
//github.com/Tencent-Hunyuan/SRPO
Hugging Face:
//huggingface.co/tencent/SRPO
開源社區還(huan)在(zai)其(qi)基礎上制作了多個量化(hua)版(ban)本。
量化版本鏈接:
一、引入新型采樣策略,給去噪提供“標準答案”
在SRPO中,研究團隊引入了一種用于擴散微調的新型采樣策略Direct-Align,可以有效地恢復高度噪聲的(de)圖像(xiang),從而使優化過程更(geng)加穩定且(qie)計算要求更(geng)低,尤其是在(zai)初始時(shi)間步驟中。
當前(qian)主流的方(fang)法主要依賴多步采樣器(如(ru)DDIM)結合直接梯(ti)度(du)(du)反傳(chuan)來將生(sheng)成過程與獎勵偏好(hao)對(dui)齊(qi),計算成本高且容易(yi)出現(xian)梯(ti)度(du)(du)爆(bao)炸(zha)和優化不(bu)穩定。因此,現(xian)有方(fang)法通常(chang)只能優化生(sheng)成軌跡的后半(ban)段。
這種“僅優化后半段”的策略極易導致獎勵模型在高頻信息上的過擬合問題。實驗結果表明,模型會逐漸學會“鉆獎勵模型的空子”——具體表現(xian)為:HPSv2獎勵模型(xing)會偏好偏紅色調的圖(tu)像(xiang),PickScore傾向于紫色圖(tu)像(xiang),而ImageReward則容易對(dui)過曝區域(yu)給出過高評分。
SRPO的研究團隊發現,解決采樣瓶頸的秘(mi)密就在于擴散模型的前向公式:中間圖像(xiang)是(shi)噪聲和干(gan)凈(jing)圖像(xiang)的插(cha)值(zhi)。這一發現表明只要掌握噪聲先(xian)驗的參考信息,就可以通過精(jing)確插(cha)值(zhi)重建擴散軌跡上的任意中間狀態。
基于這一理論發現,該團隊創新性地提出了Direct-Align方法:首先對輸入(ru)圖像進(jin)行(xing)可控的(de)噪聲注入(ru),隨后通過單步模型推理,最后借助(zhu)預先注入(ru)的(de)噪聲作為(wei)“參考錨點”進(jin)行(xing)圖像重建。
這種帶有(you)“標準(zhun)答(da)案”的去噪方(fang)式,相比(bi)ReFL等直接依賴模型(xing)預測的傳統方(fang)法,顯著降(jiang)低了(le)重建(jian)誤差,實現了(le)更精準(zhun)的獎勵信號傳導。
二、有效避免獎勵破解,給模型加上“語義方向盤”
SRPO的(de)研究(jiu)團隊(dui)改進了(le)直接利用(yong)獎勵信號(hao)進行(xing)反向(xiang)傳播的(de)方法(例如ReFL和DRaFT)的(de)訓練(lian)策略,并直接使用(yong)負獎勵對(dui)模(mo)型(xing)進行(xing)正則(ze)化,無需KL散(san)度或單獨的(de)獎勵系統。同時(shi),該團隊(dui)還首次在(zai)模(mo)型(xing)中加(jia)入了(le)動態可(ke)控的(de)文本條件,能夠在(zai)獎勵模(mo)型(xing)范圍(wei)內動態調整對(dui)風(feng)格的(de)獎勵偏好。
上述調整的原因是,文生圖的在線強化學習方法(如ReFL、DRaFT)通過直接采樣圖片并反傳可微獎勵梯度,訓練效率高,但高(gao)度(du)依賴(lai)預訓練(lian)獎勵模型,這些(xie)模型難(nan)以滿足多樣化、高(gao)質量的后訓練(lian)需(xu)求。
例如,用舊獎(jiang)勵(li)模型(xing)優化新(xin)架構(如SD3、Flux)或(huo)提升特定美學維度時,效果有限。傳(chuan)統做法需大量(liang)離線優化、微調獎(jiang)勵(li)模型(xing)或(huo)手(shou)工設計復合獎(jiang)勵(li)函數,耗(hao)時且難以快速(su)應對新(xin)需求。
SRPO的研究團隊發現,當(dang)前主(zhu)流的圖像(xiang)-文本雙(shuang)分(fen)(fen)支獎(jiang)勵模(mo)(mo)型(xing),可以視為以文本分(fen)(fen)支的輸出為模(mo)(mo)型(xing)參數(shu)(shu)關于圖片特征的函數(shu)(shu)。這(zhe)樣一來,通過調整(zheng)文本分(fen)(fen)支的語(yu)義(yi)特征,就能有(you)效引導整(zheng)個獎(jiang)勵模(mo)(mo)型(xing)的偏(pian)好方向(xiang)。
基于此,SRPO的研究團隊性提出了“語義引(yin)導偏(pian)好(hao)”機制(zhi),通過為獎勵模型(xing)添(tian)加特定(ding)的控制(zhi)提示詞(ci)(如“真實(shi)感”)來定(ding)向調(diao)整其優(you)化目標(biao)。實(shi)驗結果顯示,某些精心(xin)設計的控制(zhi)詞(ci)能夠增強(qiang)獎勵模型(xing)在(zai)真實(shi)感等特定(ding)維度的優(you)化能力。
然而,研究團隊進一步發現,單(dan)純的語義引導仍存在獎勵破解(reward hacking)的風險,而獎(jiang)勵偏差主(zhu)要源自(zi)圖像分(fen)支(因為文(wen)本分(fen)支不參與梯(ti)度反傳(chuan))。
針對這一問題,團隊提出了創新的“語(yu)義相對偏好優化(hua)”策略:同(tong)(tong)時(shi)使用正向詞(ci)和負向詞(ci)作為引(yin)導信號,通(tong)過負向梯(ti)度有效中和獎勵(li)模型(xing)的一(yi)般性偏差,同(tong)(tong)時(shi)保留語義(yi)差異(yi)中的特定(ding)偏好。
在具(ju)體實現(xian)(xian)上,為了(le)平衡訓(xun)練效率和負(fu)向(xiang)詞(ci)強度,團隊采用了(le)加(jia)權獎勵公式的設計,其實現(xian)(xian)機(ji)制類似于無分(fen)類器(qi)引導(classifier-free guidance)。
實驗結果顯示,SRPO顯著增強獎勵模(mo)型在真實度等特(te)定維度的優(you)化能(neng)力。這一突破性(xing)方法為長期受困于(yu)高(gao)(gao)質量數(shu)據獲取難題的研究者,提供(gong)了一條更(geng)加直(zhi)接高(gao)(gao)效的優(you)化路徑,有望顯著降低模(mo)型優(you)化的門檻和成本。
三、美學優秀率、真實度提升超300%,未出現明顯獎勵破解
SRPO的(de)(de)研(yan)究團隊在HPDv2基(ji)準測試上對方法進行了(le)評估。HPDv2是一個文生圖領(ling)域廣泛使(shi)用(yong)的(de)(de)基(ji)準,用(yong)來(lai)衡(heng)量模(mo)型生成圖像(xiang)的(de)(de)質量,特(te)別是與人類偏好(hao)(human preferences)對齊的(de)(de)程(cheng)度。
在測試中,Direct-Align方法在Aesthetic predictor v2.5(AE)、PickScore等(deng)主(zhu)流評測指標上(shang)均(jun)已達到SOTA水平,而結合SRPO后(hou),在AE和PickScore等(deng)關鍵指標上(shang)更是取得明顯提升。
在人類評估方面,與Direct-Align等直接優化獎勵偏好的方法不同,SRPO不會因獎勵破解而犧牲真實感,能夠在不依賴額外訓練數據的情況下,將模型的美(mei)學優秀率從8.2%提升至38.9%,提升幅度超過300%,圖(tu)像感知真實度提升同(tong)樣超過300%。
用(yong)SRPO增強后的(de)FLUX.1.dev超(chao)過了最新的(de)開源(yuan)模(mo)型FLUX.1.krea,僅需不到1500張(zhang)圖像即可實現(xian)有效訓(xun)練(lian)。
更為關鍵的(de)是,SRPO未出現明(ming)顯(xian)的(de)獎勵破解現象,驗證了Direct-Align的(de)設計能夠有效去除獎勵偏(pian)差,模(mo)型真實感顯(xian)著提升。
在主流(liu)獎勵模型上,SRPO也未出現偏色等獎勵破(po)解問題。
SRPO具備細粒(li)度的人類偏好優化能(neng)力(li),通過引入控制詞能(neng)夠顯著提升在常見風(feng)格(如亮(liang)度調整、漫畫(hua)、概念(nian)藝術)上的可(ke)控性(xing),但(dan)在低頻風(feng)格(如賽(sai)博(bo)朋克)中(zhong)則受到(dao)獎(jiang)勵模型識別能(neng)力(li)的限制。
最后,研(yan)究還發現(xian)Direct-Align具備類似監(jian)督微調的擬合特性(xing),當結合真實照(zhao)片作為離線數據時,SRPO能進(jin)一步增強圖像(xiang)真實感。
結語:系統提升擴散模型真實感,可控性與可解釋性將成優化方向
與單純的(de)數(shu)據擬(ni)合方(fang)法(fa)不同,SRPO同時整合了人類偏好信號(hao)與強(qiang)化學習優化。SRPO研(yan)究團隊認為,這是首個大規模擴散(san)模型(xing)中系統性提升真實(shi)感的(de)完整方(fang)法(fa)。
不過(guo),SRPO在可控性(xing)和可解釋性(xing)上仍存在一(yi)定局限。該團隊計劃通過(guo)更系統的(de)(de)控制策略、可學習(xi)的(de)(de)控制詞以(yi)及針對控制信(xin)號優化(hua)(hua)的(de)(de)視覺語(yu)言模型獎勵來提升(sheng)方法的(de)(de)可控性(xing)與泛化(hua)(hua)能力(li)。