
近期,3D擴散模型在(zai)物體生(sheng)成(cheng)(cheng)領(ling)域已取(qu)得了顯著(zhu)進(jin)展(zhan),目前(qian)已能夠生(sheng)成(cheng)(cheng)精(jing)細且逼真的三(san)(san)維(wei)物體。然而,當嘗試(shi)將這些模型應(ying)用于更廣泛的三(san)(san)維(wei)場(chang)景生(sheng)成(cheng)(cheng)時(shi),卻受到了空間范圍或生(sheng)成(cheng)(cheng)質量的限制。具體而言,模型在(zai)處(chu)理大(da)規模和復雜的三(san)(san)維(wei)場(chang)景時(shi),往(wang)往(wang)難(nan)以在(zai)保證細節質量的同時(shi),有效地覆(fu)蓋整個場(chang)景空間。
為了解決以上問題,來自慕尼黑工業大學3D AI Lab的在讀博士生孟權提(ti)出(chu)了一種(zhong)基于隱式樹(shu)表(biao)征的(de)無限三(san)維場景(jing)生成模型(xing)LT3SD,實現了高質(zhi)量、大規模三(san)維場景(jing)的(de)高效生成。相關論文為《LT3SD: Latent Trees for 3D Scene Diffusion》。
LT3SD是一種新型(xing)的潛(qian)在(zai)(zai)擴(kuo)散模(mo)(mo)型(xing),用于大規模(mo)(mo)3D場(chang)景(jing)生成。其核心是在(zai)(zai)潛(qian)在(zai)(zai)的3D場(chang)景(jing)空(kong)間中學習生成擴(kuo)散過程(cheng),對每個分(fen)辨率級別場(chang)景(jing)的潛(qian)在(zai)(zai)組件進行建模(mo)(mo)。
隱式樹表征是一種層次化的數據結構,用于捕捉三維場景中的層次關系。該結構將三維場景逐步分解為由粗到細的層次化的結構,每個層次包括幾何體和潛在特征的分解,以有效編碼低頻(pin)幾(ji)何圖(tu)形和高頻(pin)細節(jie)。
為(wei)了(le)合成不同尺寸的大規模場(chang)景(jing),LT3SD在每個(ge)分辨率級別訓(xun)練潛在擴散模型,使用分塊(kuai)(kuai)訓(xun)練策略學習場(chang)景(jing)局部(bu)結構,并通過跨多個(ge)場(chang)景(jing)塊(kuai)(kuai)的擴散生成共享,實現任意大小的三維(wei)場(chang)景(jing)生成。
實驗(yan)證明,LT3SD在大規(gui)模高質(zhi)量無條件(jian)三維場景生成,以及基于部分場景的概率補全方面都具(ju)備(bei)有效性和優勢。
10月17日10點,智猩猩邀請到論文一作、慕尼黑工業大學3D AI Lab在讀博士生孟權參與「智猩猩AI新青年講座」253講,主講《無限(xian)三維場景(jing)生成》。
講者
孟權
慕尼黑工業大學3D AI Lab的在讀博士生
第253講
主題
無限三維場景生成
提綱
1、現有三維場景生成方法及難點
2、三維場景的隱式樹表征
3、分塊訓練的潛在場景擴散模型
4、無限三維場景生成結果與應用(yong)
直播信息
直播(bo)時間:10月17日(ri)10:00
成果
論文標題
《LT3SD: Latent Trees for 3D Scene Diffusion》
論文鏈接
//arxiv.org/abs/2409.08215
項目網站
//quan-meng.github.io/projects/lt3sd/
如何報名
有講座直播觀看需求的朋友,可以添加小助手“米婭”進行報名。已添加過“米婭”的老朋友,可以給“米婭”私信,發送“ANY253”進行報名。對于(yu)通過報名的朋(peng)友,之后將(jiang)邀請入(ru)群(qun)進行觀看和交流。