
「智(zhi)猩(xing)猩(xing)AI新青年(nian)(nian)講座」由智(zhi)猩(xing)猩(xing)出品,致力于邀請青年(nian)(nian)學者,主講他們在生(sheng)成式AI、LLM、AI Agent、CV等人工智(zhi)能領域(yu)的最新重要研究成果。
AI新(xin)青(qing)(qing)年(nian)是(shi)加速人工智能(neng)前沿研究的(de)新(xin)生力(li)量。AI新(xin)青(qing)(qing)年(nian)的(de)視頻講解(jie)(jie)和直播答疑(yi),將可以(yi)幫(bang)助大(da)家增進對人工智能(neng)前沿研究的(de)理解(jie)(jie),相應領域的(de)專業(ye)知識也(ye)能(neng)夠得以(yi)積累加深。同時,通(tong)過(guo)與AI新(xin)青(qing)(qing)年(nian)的(de)直接交流,大(da)家在AI學習和應用(yong)AI的(de)過(guo)程中遇到的(de)問(wen)題,也(ye)能(neng)夠盡快解(jie)(jie)決。
「智猩猩AI新青年講座」現已完結255講,錯過往期講座直播的朋友,可以點擊文章底部 “ 閱讀原文 ” 進行回看!
近年(nian)來,擴散模(mo)型在人工智能(neng)生(sheng)(sheng)成(cheng)內(nei)容(AIGC)方(fang)面(mian)取得了(le)(le)重(zhong)大進展。一方(fang)面(mian),與GAN等經(jing)典模(mo)型不(bu)同,擴散模(mo)型迭代地細化噪聲(sheng)向量,從而產生(sheng)(sheng)具有精細細節的高(gao)(gao)質量結果(guo)。另一方(fang)面(mian),經(jing)過大規模(mo)數據的訓練,這些模(mo)型在輸入條件(jian)和輸出(chu)結果(guo)之間表現出(chu)令(ling)人滿意的一致性(xing)。這些能(neng)力(li)推動了(le)(le)文本到圖(tu)像(xiang)生(sheng)(sheng)成(cheng)的快速(su)進展,然而現代擴散模(mo)型的出(chu)色(se)生(sheng)(sheng)成(cheng)性(xing)能(neng)嚴(yan)重(zhong)依賴自注(zhu)意力(li)機制處理(li)復雜空(kong)間關系。這種(zhong)現有范式由于(yu)復雜度(du)隨圖(tu)像(xiang)分(fen)(fen)辨率(lv)呈二次增長,在生(sheng)(sheng)成(cheng)高(gao)(gao)分(fen)(fen)辨率(lv)視覺內(nei)容時面(mian)臨顯著挑戰。
為解決上述問題,新加坡國立大學在讀博士劉松樺提出了LinFusion架構,以(yi)一種新穎的廣義線性注意力(li)機制(zhi)作為傳統自注意力(li)替代方案。 LinFusion 僅經過適(shi)度訓(xun)練即可實現與原(yuan)始Stable Diffusion(SD) 相當甚至更好的性能,同時(shi)顯著降低了時(shi)間和(he)內存復雜度,可以(yi)在1塊GPU上(shang)生(sheng)成16K超高分辨率圖像(xiang)。代碼現已開源。
作者(zhe)通過(guo)研究近期提出的線性(xing)(xing)(xing)復雜性(xing)(xing)(xing)模(mo)型,如Mamba、Mamba2和門控線性(xing)(xing)(xing)注意(yi)(yi)力(li),確定了(le)兩個關鍵特性(xing)(xing)(xing):注意(yi)(yi)力(li)規范(fan)化(hua)和非因果推理,這(zhe)些(xie)特性(xing)(xing)(xing)顯(xian)著(zhu)提升(sheng)了(le)高分辨率視(shi)覺生成的性(xing)(xing)(xing)能。在(zai)此基礎(chu)上,引入了(le)一種廣義線性(xing)(xing)(xing)注意(yi)(yi)力(li)范(fan)式(shi),這(zhe)是常見(jian)線性(xing)(xing)(xing)標記混合(he)器(qi)的低秩近似。同時為(wei)降(jiang)低訓(xun)練成本并充分利(li)用預訓(xun)練模(mo)型,作者(zhe)從預訓(xun)練的SD中(zhong)提取知(zhi)識(shi)并初始化(hua)模(mo)型。
實驗結果表(biao)明,經過適度訓(xun)練(lian)的LinFusion,大(da)幅(fu)減少(shao)了推(tui)理時(shi)間和內存消(xiao)耗。尤其(qi)是在(zai)生成16K分(fen)辨(bian)(bian)率圖像(xiang)時(shi),模(mo)型(xing)(xing)能夠高(gao)效運行,僅需1塊GPU、1分(fen)鐘即可(ke)生成且生成質量優異。同時(shi)作者(zhe)在(zai)SD-v1.5、SD-v2.1和SD-XL等版本上的測試顯示,LinFusion能夠生成16K分(fen)辨(bian)(bian)率等高(gao)質量圖像(xiang),并(bing)表(biao)現出優異的零樣本跨(kua)分(fen)辨(bian)(bian)率生成能力。此外(wai),該模(mo)型(xing)(xing)無需額外(wai)調整即可(ke)兼容SD預訓(xun)練(lian)插(cha)件(jian)(如ControlNet和IP Adapter)。
12月3日10點,智猩猩邀請到論文一作、新加坡國立大學在讀博士劉松樺參與(yu)「智猩猩AI新青年講(jiang)座(zuo)」256講(jiang),主講(jiang)《16K超高(gao)清圖像生成——預訓練擴散模型高(gao)效線性化》。
主講人
劉松樺
新加坡國立大學在讀博士生
師從王鑫超教授,本(ben)科畢業于南京(jing)大學(xue)(xue)。研(yan)究方向為(wei)高效(xiao)數據合成(cheng)以(yi)及使用合成(cheng)數據進行高效(xiao)訓練。曾在CVPR、ICCV、NeurIPS、ICML、以(yi)及IEEE TPAMI等國(guo)際(ji)會(hui)議、期(qi)刊上以(yi)第一作者(zhe)身份發表論文10余篇。2023年度國(guo)家優秀自(zi)費留學(xue)(xue)生獎學(xue)(xue)金獲得者(zhe)。
第256講
主 題
16K超高清圖像生成——預訓練擴散模型高效線性化
提 綱
1、主流視覺擴散模型與Mamba2回顧
2、注意力規范化及非因果推理關鍵特征解析
3、廣義線性注意力機制的設計與實現
4、實際應用與生成效果分析
5、在Diffusion Transformer模型上(shang)的擴展延伸
直 播 信 息
直播時間:12月3日10:00
直播地點:智猩猩知識店(dian)鋪
成果
論文標題
《LinFusion: 1 GPU, 1 Minute, 16K Image》
論文鏈接
//arxiv.org/abs/2409.02097
項目網站
//lv-linfusion.github.io/
報名方式
對本次講座感興趣朋友,可以掃描下方二維碼,添加小助手米婭進行報名。已添加過米婭的老朋友,可以給米婭私信,發送“ANY256”即可報名。
我們會為審(shen)(shen)核(he)通過(guo)的朋(peng)友(you)推送直(zhi)播鏈接。同時,本次講座(zuo)也組建了學習群(qun),直(zhi)播開始前會邀請審(shen)(shen)核(he)通過(guo)的相關朋(peng)友(you)入群(qun)交流。