
「智(zhi)(zhi)猩猩AI新青(qing)年講座」由智(zhi)(zhi)猩猩出品,致(zhi)力于邀請青(qing)年學者(zhe),主講他(ta)們(men)在生成式AI、LLM、AI Agent、CV等(deng)人工智(zhi)(zhi)能領域的最新重要研究成果。
AI新(xin)(xin)青年(nian)(nian)是(shi)加速人(ren)工智能前沿研(yan)究的(de)新(xin)(xin)生力量。AI新(xin)(xin)青年(nian)(nian)的(de)視頻講解(jie)和直播答疑,將(jiang)可以(yi)幫助大(da)家增進對人(ren)工智能前沿研(yan)究的(de)理解(jie),相(xiang)應(ying)領域(yu)的(de)專業知識也能夠得以(yi)積累加深。同時,通過與(yu)AI新(xin)(xin)青年(nian)(nian)的(de)直接交(jiao)流,大(da)家在AI學習和應(ying)用AI的(de)過程(cheng)中遇到的(de)問題(ti),也能夠盡(jin)快解(jie)決。
「智猩猩AI新青年講座」現已完結254講,錯過往期講座直播的朋友,可以點擊文章底部 “ 閱讀原文 ” 進行回看!
近年來擴散模(mo)型(xing)的(de)(de)(de)快(kuai)速發展(zhan),圖像(xiang)生成、視(shi)頻生成、3D生成等任務(wu)取得(de)了重(zhong)大進展(zhan)。然而(er)一(yi)個核心問題也隨之(zhi)浮現(xian):如何有效且(qie)高(gao)效地微(wei)(wei)(wei)調(diao)預訓(xun)練的(de)(de)(de)基礎擴散模(mo)型(xing),并將其應(ying)用于新任務(wu)。現(xian)有的(de)(de)(de)微(wei)(wei)(wei)調(diao)方(fang)(fang)法(fa)可分(fen)為附加型(xing)微(wei)(wei)(wei)調(diao)方(fang)(fang)法(fa)(AFT)、重(zhong)參(can)數(shu)(shu)化微(wei)(wei)(wei)調(diao)方(fang)(fang)法(fa)(RFT)以及選擇(ze)性微(wei)(wei)(wei)調(diao)方(fang)(fang)法(fa)(SFT)。AFT和RFT方(fang)(fang)法(fa)都需要針對不同模(mo)型(xing)進行特定設計,以及根(gen)據具體任務(wu)調(diao)整(zheng)隱藏(zang)維度或秩(zhi)值。而(er)SFT方(fang)(fang)法(fa)不僅引入(ru)了較高(gao)的(de)(de)(de)延遲,還對參(can)數(shu)(shu)選擇(ze)的(de)(de)(de)超參(can)數(shu)(shu)敏感,在效果(guo)和訓(xun)練效率方(fang)(fang)面表現(xian)不佳(jia)。
針對上述問題,上海交通大學在讀博士胡騰聯合騰訊優圖實驗室研究人員提出了一種新穎的高效(xiao)(xiao)微調(diao)方(fang)(fang)法SaRA(Sparse Low-Rank Adaptation),其專門為預訓練擴散模型(xing)設計,現已開源。該方(fang)(fang)法是基于漸進稀(xi)疏低秩適應的高效(xiao)(xiao)微調(diao),利用基于核(he)范數的低秩損失來有(you)效(xiao)(xiao)防止模型(xing)過擬合(he),同(tong)(tong)時(shi)引(yin)入漸進訓練策略,以充分利用無效(xiao)(xiao)參數,從而(er)使模型(xing)在學習新知識的同(tong)(tong)時(shi)不影響其原有(you)的泛化能(neng)力。
SaRA 的顯(xian)著(zhu)特點(dian)是(shi)其引入了(le)(le)非結構(gou)化(hua)反向傳播策(ce)略,這使得它在對擴散(san)模(mo)型(xing)(xing)微調(diao)(diao)過程(cheng)中顯(xian)著(zhu)減少了(le)(le)內存消(xiao)耗。通(tong)過將(jiang)可訓(xun)練參數(shu)(shu)分離為葉節點(dian),使得模(mo)型(xing)(xing)的所有參數(shu)(shu)梯度能(neng)夠(gou)流入少量(liang)的可訓(xun)練參數(shu)(shu)中,避免了(le)(le)為整個參數(shu)(shu)矩陣保留(liu)梯度的需求,這大大簡化(hua)了(le)(le)預訓(xun)練模(mo)型(xing)(xing)微調(diao)(diao)的復雜性(xing)和工作量(liang)。
SaRA不(bu)僅實(shi)現(xian)了低(di)內存消耗,還實(shi)現(xian)了很好的(de)(de)代碼集成,只需要修改(gai)一行代碼即(ji)可實(shi)現(xian)高(gao)效(xiao)的(de)(de)擴散(san)模型微調(diao)。結果表明(ming),SaRA相較于(yu)其他微調(diao)方法能夠更好地學習到下游任務(wu)(wu)的(de)(de)知識(shi),并(bing)最(zui)大化維護模型的(de)(de)先(xian)驗信(xin)息,其高(gao)效(xiao)性(xing)、簡(jian)便性(xing)和實(shi)用性(xing),不(bu)僅解(jie)決了如何高(gao)效(xiao)利用預訓練擴散(san)模型中無效(xiao)參數的(de)(de)問(wen)題,還為未來在各種下游任務(wu)(wu)中應用擴散(san)模型提供了新的(de)(de)可能性(xing)。
11月27日19點,智猩猩邀請到論文一作、上海交通大學在讀博士胡騰參與「智(zhi)猩猩AI新青年講座」255講,主講《擴散模(mo)型高效微(wei)調方(fang)法(fa)SaRA與顯存占用優(you)化》。
主講人
胡騰
上海交通大學在讀博士
師從(cong)易冉助理教授(shou),從(cong)事圖(tu)像、視頻等可(ke)(ke)視媒體(ti)的內容生成研究,主要研究圖(tu)像、視頻可(ke)(ke)控生成。 入選首屆《中國電(dian)子學會-騰訊博士生科(ke)研激勵(li)計劃(hua)》。目前(qian)以(yi)第(di)一(yi)作(zuo)者、學生第(di)一(yi)作(zuo)者、共(gong)同(tong)第(di)一(yi)作(zuo)者在CCF A類會議或期刊上發(fa)表高水平論(lun)文(wen)(wen)8篇,共(gong)計發(fa)表10篇高水平論(lun)文(wen)(wen)。
第255講
主 題
擴散模型高效微調方法SaRA與顯存占用優化
提 綱
1、現有擴散模型微調方法及局限性
2、擴散模型中無效參數分析及潛在有效性
3、基于無效參數重用的微調方法
4、通過非結構化反向傳播降低微調顯存
5、基礎模型(xing)提升與下游(you)任務(wu)微調
直 播 信 息
直播時間:11月27日19:00
直(zhi)播地點:智(zhi)猩猩知(zhi)識店鋪
成果
論文標題
《SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-rank Adaptation》
論文鏈接
//arxiv.org/pdf/2409.06633
項目網站
//sjtuplayer.github.io/projects/SaRA/
報名方式
對本次講座感興趣朋友,可以掃描下方二維碼,添加小助手米婭進行報名。已添加過米婭的老朋友,可以給米婭私信,發送“ANY255”即可報名。
我們會為(wei)審核(he)通過(guo)的朋友推送(song)直播鏈接。同時,本次講座也組建了(le)學(xue)習(xi)群,直播開始前會邀請審核(he)通過(guo)的相(xiang)關朋友入群交流。