
時尚圖像(xiang)編輯旨在(zai)(zai)根據給定的(de)指令(ling)修改(gai)人(ren)物的(de)外觀。現有的(de)方法(fa)通常需要輔助工(gong)具(ju),如分(fen)割器和關鍵點提取器,缺乏靈活且(qie)統(tong)一的(de)框架。此外,這(zhe)些方法(fa)在(zai)(zai)能夠處理(li)的(de)服(fu)裝種類上也有局限性,因(yin)為(wei)大多數數據集只集中(zhong)于干凈背景下的(de)人(ren)物形象,且(qie)只包含如上衣(yi)、褲子和連(lian)衣(yi)裙等通用服(fu)飾。這(zhe)使其在(zai)(zai)現實場景中(zhong)的(de)適用性受到限制。
對(dui)于(yu)以上問(wen)題,來自中國科學(xue)院自動化(hua)研(yan)(yan)究(jiu)所的(de)在讀博士牛(niu)蘊方與(yu)武漢(han)人工智能(neng)研(yan)(yan)究(jiu)院等研(yan)(yan)究(jiu)人員(yuan)共同(tong)擴(kuo)展了(le)(le)一(yi)個現有的(de)人體(ti)生成數據集,并且提出了(le)(le)一(yi)種基于(yu)擴(kuo)散模型的(de)時(shi)尚(shang)編(bian)輯方法AnyDesign,實現了(le)(le)實現了(le)(le)無需掩碼(ma)的(de)服裝編(bian)輯功能(neng)。相關論文為《AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion》。
AnyDesign是一個靈活高(gao)效(xiao)的時(shi)尚(shang)圖像編輯框架(jia)。用戶無需手動(dong)創建(jian)掩碼(ma),只(zhi)需輸入一張人物圖像以(yi)及相應的文(wen)本(ben)或圖像格式的提示,通(tong)過無掩碼(ma)的擴散模型,即可實現(xian)時(shi)尚(shang)圖像編輯。
首先,擴展了一個現有的(de)人體生成數(shu)據(ju)集,以包(bao)括更廣(guang)泛的(de)服(fu)飾(shi)種(zhong)類和更復雜的(de)背景(jing)。擴展后的(de)數(shu)據(ju)集包(bao)含穿著(zhu)多種(zhong)服(fu)飾(shi)的(de)人物形象,如(ru)上衣(yi)(yi)、褲子、連衣(yi)(yi)裙、裙子、頭飾(shi)、圍巾、鞋子、襪子和包(bao)包(bao)。
AnyDesign采用(yong)(yong)了一個(ge)兩階(jie)段(duan)的(de)(de)(de)圖(tu)(tu)像訓練框架。第一階(jie)段(duan),使(shi)用(yong)(yong)基(ji)于掩碼的(de)(de)(de)擴散模型生(sheng)(sheng)(sheng)成(cheng)偽(wei)樣本(ben)(ben)。擴散模型利(li)用(yong)(yong)未配對的(de)(de)(de)文本(ben)(ben)提示(shi)或圖(tu)(tu)像提示(shi),在(zai)原始圖(tu)(tu)像上生(sheng)(sheng)(sheng)成(cheng)相(xiang)應的(de)(de)(de)服裝(zhuang)區域(yu)掩碼、修(xiu)改圖(tu)(tu)像中(zhong)(zhong)的(de)(de)(de)服裝(zhuang)部分(fen),從而(er)生(sheng)(sheng)(sheng)成(cheng)偽(wei)樣本(ben)(ben)。第二階(jie)段(duan),利(li)用(yong)(yong)第一階(jie)段(duan)生(sheng)(sheng)(sheng)成(cheng)的(de)(de)(de)偽(wei)樣本(ben)(ben)訓練無(wu)掩碼模型。它直接(jie)對圖(tu)(tu)像中(zhong)(zhong)的(de)(de)(de)服裝(zhuang)區域(yu)進行修(xiu)改,以生(sheng)(sheng)(sheng)成(cheng)符合(he)用(yong)(yong)戶(hu)的(de)(de)(de)輸入提示(shi)的(de)(de)(de)高質量時(shi)尚編(bian)輯圖(tu)(tu)像。
在圖像的(de)去(qu)噪過(guo)程中,提出Fashion DiT,通(tong)過(guo)創新的(de)FGA(Fashion-Guidance Attention,時尚引導注(zhu)意力(li))模塊融(rong)合明確的(de)服(fu)飾類(lei)型(xing)和通(tong)過(guo)CLIP編(bian)碼的(de)服(fu)飾特(te)征,使(shi)AnyDesign能夠自動識別(bie)目標區域,指導其對圖像中的(de)服(fu)裝區域進(jin)行精確編(bian)輯。
實驗表(biao)明,AnyDesign擁有高(gao)質量的(de)時尚編(bian)輯效(xiao)果,并(bing)且(qie)在性能上(shang)優于其他先進的(de)文(wen)本引導時尚編(bian)輯方法(fa)。
9月29日晚7點,智猩猩邀請到論文一作、中國科學院自動化研究所在讀博士牛蘊方參與「智猩(xing)猩(xing)AI新青年(nian)講(jiang)(jiang)座(zuo)」252講(jiang)(jiang),主(zhu)講(jiang)(jiang)《利用無掩碼擴散技術(shu)實(shi)現多功能(neng)時尚編輯》。
講者
牛蘊方
中科院自動化所在讀博士
師從(cong)王金橋研究(jiu)員(yuan),參與(yu)多模態大模型“紫東太(tai)初”研制。主要研究(jiu)興趣(qu)為圖像(xiang)生成與(yu)編(bian)輯、人物服(fu)飾編(bian)輯、虛擬試穿等(deng)(deng)。代表工(gong)作(zuo)有PFDM: Parser-Free Virtual Try-On via Diffusion Model、AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion等(deng)(deng)。
主題
利用無掩(yan)碼擴散技術實現多功能(neng)時尚(shang)編輯(ji)
提綱
1、AIGC時尚設計與人物服飾編輯研究進展與挑戰
2、針對多種類型的服飾編輯數據集擴展方法
3、基于Fashion DiT的無掩碼圖像編輯模型
4、實驗結果分(fen)析、討論與總結展(zhan)望
直播信息
直播時間:9月(yue)29日19:00
成果
論文標題
《AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion》
論文鏈接
//arxiv.org/abs/2408.11553
開源代碼
//github.com/nyf8/AnyDesign
入群方式
有講座直播觀看需求的朋友,可以添加小助手“米婭”進行報名。已添加過“米婭”的老朋友,可以給“米婭”私信,發送“ANY252”進行報名。對于通過(guo)報名的(de)朋友,之(zhi)后(hou)將邀(yao)請入群進行觀看和交流。