在圖(tu)(tu)像(xiang)(xiang)生(sheng)成(cheng)(cheng)領(ling)域,高分辨(bian)率圖(tu)(tu)像(xiang)(xiang)的(de)(de)生(sheng)成(cheng)(cheng)一直是一個具(ju)有挑戰性的(de)(de)工(gong)作。Stable Diffusion等(deng)強大的(de)(de)預訓(xun)練(lian)擴(kuo)散模型目(mu)前(qian)可(ke)以生(sheng)成(cheng)(cheng)1024×1024像(xiang)(xiang)素的(de)(de)高質(zhi)量圖(tu)(tu)像(xiang)(xiang)。但生(sheng)成(cheng)(cheng)更高分辨(bian)率的(de)(de)圖(tu)(tu)像(xiang)(xiang)(2K-4K)會(hui)遇(yu)到不合理(li)的(de)(de)重復物體(ti)問(wen)題(ti),并且生(sheng)成(cheng)(cheng)時(shi)間成(cheng)(cheng)倍增加(jia)。

為解決這些問題,曠視研究院高級研究員張慎等(deng)研究人員(yuan)提出了一個(ge)無需訓練(lian)的更高分辨率(lv)圖像生成框架 HiDiffusion。該(gai)框架通過動態調整特征圖大小來(lai)解決重復物(wu)體(ti)問題,同時改進自注意(yi)力(li)機(ji)制實現推(tui)理(li)速(su)度的提升。相關論文為《HiDiffusion: Unlocking higher-resolution creativity and efficiency in pretrained diffusion models》,已收錄于ECCV 2024。

ECCV 2024收錄!曠視提出無需訓練的更高分辨率圖像生成框架HiDiffusion | 一作、高級研究員張慎主講預告

HiDiffusion框架主要由兩部分組成:分辨率感知U-Net(RAU-Net)和改進的移動窗口多頭自注意力 (MSW-MSA)。

RAU-Net通過動態調整特(te)征圖(tu)的(de)大小來(lai)解決高(gao)(gao)分辨率圖(tu)像(xiang)生(sheng)(sheng)成中(zhong)的(de)對象(xiang)重(zhong)復(fu)(fu)問題。這種調整是為(wei)了匹(pi)配U-Net深層塊中(zhong)卷積的(de)感受(shou)野,從而確(que)保在(zai)生(sheng)(sheng)成更高(gao)(gao)分辨率圖(tu)像(xiang)時不(bu)會(hui)發生(sheng)(sheng)特(te)征重(zhong)復(fu)(fu)而導致(zhi)不(bu)合理(li)的(de)對象(xiang)重(zhong)復(fu)(fu)現象(xiang)。

MSW-MSA通過使用(yong)更(geng)大(da)的窗口(kou)來(lai)減少不必要的計(ji)算(suan)(suan),并(bing)動態移動窗口(kou)來(lai)優(you)化(hua)自注(zhu)意力機制。這種方法可以更(geng)有效地利用(yong)計(ji)算(suan)(suan)資源,同時保持對全局信息(xi)的捕捉。

HiDiffusion可以(yi)集成到各種(zhong)預訓練擴(kuo)散(san)模型中,將(jiang)圖像(xiang)(xiang)生成分辨(bian)率擴(kuo)展到2K-4K,同時推理速度是以(yi)前方(fang)法的1.5-6倍。大量實驗表明,HiDiffusion框(kuang)架可以(yi)解決對象重(zhong)復和計算量大的問題,并且在更高分辨(bian)率圖像(xiang)(xiang)生成任務上達(da)到最好(hao)的性(xing)能。

ECCV 2024收錄!曠視提出無需訓練的更高分辨率圖像生成框架HiDiffusion | 一作、高級研究員張慎主講預告

講者

張慎

曠視南京研究院高級研究員

碩士畢(bi)業于南京大(da)學。研究方向為(wei)計(ji)算機視覺,主(zhu)要包括(kuo)擴(kuo)散(san)模(mo)(mo)型、模(mo)(mo)型加速等,曾在計(ji)算機視覺國際競賽中獲得(de)一項(xiang)冠軍,一項(xiang)亞軍,在 CVPR, ECCV上發(fa)表多篇論文。

第2講

主題

HiDiffusion:高(gao)效、無(wu)需(xu)訓練的更高(gao)分辨(bian)率圖像(xiang)生成框架

提綱

1、擴散模型目前存在的更高分辨率生成問題
2、RAU-Net解決圖像生成中物體重復問題
3、MSW-MSA解決更高分辨率的效率問題
4、更(geng)高分(fen)辨率的圖(tu)像生成結果(guo)和效率展示

直播信息

直播時間:10月24日10:00

成果

論文標題
《HiDiffusion: Unlocking higher-resolution creativity and efficiency in pretrained diffusion models》

論文鏈接
//arxiv.org/abs/2311.17528v2

項目網站
//hidiffusion.github.io/

如何報名

有講座直播觀看需求的朋友,可以添加小助手“沐可”進行報名。已添加過“沐可”的老朋友,可以給“沐可”私信,發送“通用視覺2402”進(jin)行報名。對(dui)于通過(guo)報名的朋友,之后將邀請(qing)入群進(jin)行觀看(kan)和交流(liu)。

ECCV 2024收錄!曠視提出無需訓練的更高分辨率圖像生成框架HiDiffusion | 一作、高級研究員張慎主講預告