
最近,文本到圖像(xiang)的(de)(de)擴散(san)(san)模型取得了(le)顯著(zhu)的(de)(de)進步。值得注意的(de)(de)是,Stable Diffusion和(he)(he)DeepFloyd-IF是當(dang)前(qian)開源社區(qu)中最成功的(de)(de)兩個擴散(san)(san)模型。這些模型基于UNet架(jia)構(gou),用(yong)途廣(guang)泛(fan),可應(ying)用(yong)于廣(guang)泛(fan)的(de)(de)任務,包括圖像(xiang)編輯、超(chao)分辨率、分割和(he)(he)對象檢(jian)測(ce)。擴散(san)(san)模型的(de)(de)主(zhu)要(yao)缺(que)點之一是圖像(xiang)生成的(de)(de)推(tui)理時間較(jiao)慢。現有方法大多采(cai)用(yong)了(le)蒸餾技術,但這些方法對計(ji)算資源要(yao)求(qiu)較(jiao)高。
為了解決以上問題,來(lai)自南開(kai)大學的在讀博(bo)士(shi)生李(li)森(sen)茂提出(chu)了一種(zhong)基于(yu)擴散模(mo)型編(bian)碼器模(mo)塊的推理加速的方法(fa)Faster Diffusion。相關論文(wen)為《Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference》,已收錄于(yu)NeurIPS 2024。
Faster Diffusion是一種簡單而(er)有效的(de)編(bian)(bian)碼(ma)器(qi)(qi)傳(chuan)播方案(an),以(yi)加速(su)針(zhen)對不同(tong)任務集的(de)擴(kuo)(kuo)散(san)采樣(yang)。其核心是在多個時間(jian)步中重復(fu)使用編(bian)(bian)碼(ma)器(qi)(qi)特(te)征(zheng),加速(su)了擴(kuo)(kuo)散(san)模型的(de)采樣(yang)過程(cheng)。
擴散(san)模(mo)型(xing)中的一個關鍵組件是用于噪聲預測的UNet。通(tong)過分析(xi)UNet在擴散(san)模(mo)型(xing)中的特(te)性(xing),發現編碼(ma)器特(te)征在相(xiang)鄰時(shi)間(jian)步之間(jian)變化平緩,具有高(gao)度相(xiang)似性(xing)。
為(wei)了(le)實現無訓練的加速擴散模型推理,Faster Diffusion通過在(zai)相鄰時間(jian)步省略編碼器(qi)(qi)計算(suan),并重(zhong)用(yong)前一步的編碼器(qi)(qi)特(te)征作為(wei)解(jie)碼器(qi)(qi)輸入;進而并行執行解(jie)碼器(qi)(qi)計算(suan),進一步加速去噪(zao)過程。
雖然編(bian)碼器傳播(bo)可以提(ti)高推理階段的(de)效(xiao)率(lv),但觀察(cha)到(dao)它會(hui)導致生(sheng)成結果(guo)中的(de)紋理信息(xi)的(de)輕微(wei)丟(diu)失。所(suo)以還(huan)引(yin)入(ru)(ru)了一種先驗噪聲(sheng)注(zhu)入(ru)(ru)方法來(lai)改善生(sheng)成圖像(xiang)中的(de)紋理細節。
實驗證明,在不使用任(ren)何知識蒸餾技術的情況(kuang)下,Faster Diffusion分別加速(su)了StableDiffusion(SD)和DeepFloyd-IF模型的推理,速(su)度(du)提升了41% 和 24%;DiT模型的推理速(su)度(du)提升了34%,同(tong)時保(bao)持了高質量的生成(cheng)性能。
11月1日10點,智猩猩邀請到論文一作、南開大學在讀博士生李森茂參與(yu)「智猩(xing)猩(xing)AI新青年講(jiang)(jiang)(jiang)座」254講(jiang)(jiang)(jiang),主講(jiang)(jiang)(jiang)《基于擴散模型(xing)編(bian)碼器模塊的推理加速》。
講者
李森茂
南開大學在讀博士生
導師是王亞星副教授。期間在巴塞自治大學LAMP組做過短期實習,導師為Joost van de Weijer。在此之前,在南開大學計算機學院獲得碩士學位。主要研究包括生成模型、圖像生成和圖像到圖像的轉換等課題。
第254講
主題
基于擴散模型(xing)編碼器模塊的推理加速(su)
提綱
1、目前擴散模型推理速度慢的問題
2、UNet編碼器和解碼器在不同時間步的分析
3、并行處理加速擴散模型推理方案FasterDiffusion
4、實驗效果展示
直播信息
直播時間:11月1日10:00
成果
論文標題
《Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference》
論文鏈接
//arxiv.org/pdf/2312.09608
項目網站
//sen-mao.github.io/FasterDiffusion
如何報名
有講座直播觀看需求的朋友,可以添加小助手“米婭”進行報名。已添加過“米婭”的老朋友,可以給“米婭”私信,發送“ANY254”進行報名。對于通過報名的(de)朋友,之后將邀請(qing)入群進行觀看(kan)和交(jiao)流。