
「智(zhi)(zhi)猩(xing)猩(xing)AI新(xin)青(qing)年(nian)(nian)講(jiang)座」由智(zhi)(zhi)猩(xing)猩(xing)出品,致力于(yu)邀請(qing)青(qing)年(nian)(nian)學者(zhe),主講(jiang)他們在生成式AI、LLM、AI Agent、CV等人工智(zhi)(zhi)能領域(yu)的(de)最新(xin)重要研究成果。
AI新(xin)青年是加速人(ren)工智能前(qian)沿研究的(de)(de)新(xin)生(sheng)力量。AI新(xin)青年的(de)(de)視頻講(jiang)解(jie)和(he)直播答疑,將可以幫助大家(jia)增(zeng)進對人(ren)工智能前(qian)沿研究的(de)(de)理解(jie),相應(ying)領域(yu)的(de)(de)專業知識也(ye)(ye)能夠得(de)以積累(lei)加深。同時,通(tong)過(guo)與AI新(xin)青年的(de)(de)直接交流(liu),大家(jia)在AI學習和(he)應(ying)用AI的(de)(de)過(guo)程中遇到的(de)(de)問(wen)題,也(ye)(ye)能夠盡快解(jie)決。
2022年,Stable Diffusion模型橫空出世,為工業界,投資界,學術界以及競賽界都注入了新的AI想象空間。然而文本本身具有的模糊性與歧義性,往往需要用戶熟練提詞技能與反復調試;而LoRA與(yu)Dreambooth為代表的(de)(de)逐圖(tu)(tu)重訓需要昂貴且緩慢(man)(man)的(de)(de)訓練,即(ji)速度慢(man)(man)開銷(xiao)大。如何讓大規模(mo)文(wen)(wen)-圖(tu)(tu)生成模(mo)型(xing)如臂(bei)使指?急需對大規模(mo)文(wen)(wen)-圖(tu)(tu)基礎模(mo)型(xing)的(de)(de)精細控制(zhi)管(guan)線與(yu)推理階段通(tong)用知識注(zhu)入機制(zhi)進行研究,以降(jiang)本增(zeng)效,推動其在業(ye)務場(chang)景的(de)(de)廣泛應用。
針對以上問題,上海交通大學與阿里巴巴淘天集團共(gong)同提出(chu)了(le)圖像生(sheng)成模型推理階(jie)段的(de)知識注入(ru)方法(fa),并(bing)基(ji)于該方法(fa)合作開發了(le)虛擬試衣模型AnyFit,取(qu)得了(le)目前(qian)SOTA的(de)試衣效果(guo)。相(xiang)關論文為(wei)《AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario 》,目前(qian)NeurIPS在投(tou)。
AnyFit主要由兩個同構的U-Net組成:HydraNet和MainNet。其中,HydraNet負(fu)責(ze)提取細(xi)粒(li)度的服裝特(te)征;MainNet負(fu)責(ze)生成試穿(chuan)效果。
AnyFit以一個人像圖像和一個或多個目標服裝圖像為輸入。再使用OpenPose等工具從人像圖像中提取出人體的輪廓部分(fen),以便后續(xu)將(jiang)服裝(zhuang)圖像融合到該輪廓上。
利用HydraNet對目標服裝(zhuang)圖像特(te)征提(ti)取。在HydraNet中,通過共享的U-Net結構和并行化注意力模塊(kuai)來高效地整合(he)不(bu)同(tong)服裝(zhuang)的特(te)征。
HydraNet提取的(de)服裝特(te)征通(tong)過(guo)Hydra Fusion Block特(te)征融合融合塊注入(ru)到MainNet中。MainNet的(de)輸入(ru)包含三個組件(帶噪聲的(de)圖像(xiang)、潛在的(de)與服裝無關的(de)圖像(xiang)和調整(zheng)大小的(de)遮(zhe)罩),然后通(tong)過(guo)內(nei)部的(de)U-Net結(jie)構和Pose Guider進行(xing)處理,最(zui)終生成逼(bi)真的(de)試穿圖像(xiang)。
同時,為了(le)提(ti)升模(mo)型(xing)在生成服裝(zhuang)圖像時的(de)(de)強度和適應(ying)性,AnyFit采用(yong)了(le)一種先(xian)驗模(mo)型(xing)演化策略。該策略融合了(le)三(san)種不同且強大的(de)(de)模(mo)型(xing)權重(zhong),分別是:SDXL-base-1.0、SDXL-inpainting-0.1和DreamshaperXL alpha2,來演化模(mo)型(xing)的(de)(de)初始權重(zhong),以極低的(de)(de)成本提(ti)升了(le)模(mo)型(xing)的(de)(de)性能。
8月20日10點,智猩猩邀請到論文一作、上海交通大學在讀三年級博士生、阿里學術合作實習生李昱翰參與「智猩猩AI新青年(nian)講座」248講,主(zhu)講《圖像生成(cheng)模型(xing)的知識注入(ru)在虛(xu)擬試衣(yi)AnyFit中(zhong)的應用》。
講者
李昱翰
上海交通大學在讀三年級博士生、阿里學術合作實習生
第248講
主 題
圖像生成模型的知識注入在虛擬試衣AnyFit中的應用
提 綱
1、大規模文-圖基礎模型的精細控制管線面臨的挑戰
2、條件注入控制技術的演進與前沿進展
3、基于細粒度條件注入的虛擬試衣技術開發
-服裝保真性研究
-模型泛化性研究
-業務場景魯棒性研究
4、總結與展望
直播信息
直播時間:8月20日10:00
直(zhi)播地點(dian):智猩猩GenAI視頻號(hao)
成果
論文標題
《AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario》
論文鏈接
//arxiv.org/abs/2405.18172
項目網站
//colorful-liyu.github.io/anyfit-page/
入群申請
本(ben)次講座組建了學習交流群(qun)。加入學習交流群(qun),除了可以觀(guan)看直播,并提前拿到(dao)課件外,你(ni)還能結識(shi)更多研究人員和開發者,所提問題也將會優先(xian)解答。
希望入群的朋友可以掃描下方二維碼,添加小助手米婭進行申請。已添加過米婭的老朋友,可以給米婭私信,發送“ANY248”進行申請。