
「智(zhi)猩猩AI新青年講座」由智(zhi)猩猩出品,致力于邀請青年學(xue)者,主講他們在生成式AI、LLM、AI Agent、CV等(deng)人工智(zhi)能(neng)領域的(de)最新重要研究成果。
AI新(xin)青年(nian)(nian)是加速人(ren)工(gong)智能前(qian)沿研究的(de)(de)新(xin)生力量。AI新(xin)青年(nian)(nian)的(de)(de)視頻講(jiang)解(jie)和直播答(da)疑,將(jiang)可(ke)以幫助大(da)家增進對人(ren)工(gong)智能前(qian)沿研究的(de)(de)理解(jie),相應領(ling)域(yu)的(de)(de)專業知識也能夠得(de)以積累加深。同時,通過與AI新(xin)青年(nian)(nian)的(de)(de)直接交流,大(da)家在(zai)AI學習和應用(yong)AI的(de)(de)過程(cheng)中(zhong)遇到的(de)(de)問(wen)題,也能夠盡快解(jie)決。
在(zai)生成(cheng)建模技(ji)術進步的推動下,三(san)維生成(cheng)建模領域(yu)取得了顯著的成(cheng)果(guo)。但(dan)是現(xian)行的兩大(da)類3D表示方(fang)法主要存在(zai)兩個問題:(1)基于擬合能力不足的隱(yin)式解碼器;(2)缺乏清(qing)晰定(ding)義的空間結(jie)構難以(yi)與主流的3D擴散技(ji)術融合。
針對(dui)以上問題,來(lai)自中科大、清華和微軟亞洲研究院(yuan)的(de)研究人員提出了一種具(ju)有(you)強(qiang)大擬(ni)合能力(li)的(de)顯(xian)式(shi)結構化三維(wei)表示GaussianCube,并且可以無縫應用于目前主流的(de)3D擴散模型中。相關(guan)論(lun)文為《GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling》。
GaussianCube的框架包括兩個主(zhu)要階段(duan),如下(xia)圖(tu)所示(shi):表示(shi)構建和(he)擴散建模。
在表示構建階段,首先對(dui)每個對(dui)象應(ying)用密(mi)度(du)(du)約(yue)束的3DGS擬(ni)合算法,以對(dui)3D資(zi)產進行高精度(du)(du)擬(ni)合,獲得(de)固定(ding)數量的自(zi)由高斯(si)。然后,利(li)用在高斯(si)點和預定(ding)義(yi)體(ti)(ti)素網(wang)格中心之(zhi)間(jian)的最優傳輸(shu)算法,將(jiang)這些高斯(si)點組織到所提出(chu)的空間(jian)結(jie)構化的高斯(si)立方(fang)體(ti)(ti)中,結(jie)構化為(wei) GaussianCube。
對于擴(kuo)散(san)建(jian)模(mo),由(you)于GaussianCube 具備(bei)在(zai)空間上的(de)結(jie)構化組織關系(xi)、無需復雜的(de)網(wang)絡或(huo)訓練設計(ji)的(de)優勢(shi),標準(zhun)的(de)3D卷(juan)積足以有效(xiao)地提取和聚合(he)鄰近高斯的(de)特征。因此,使(shi)用(yong)(yong)三維擴(kuo)散(san)模(mo)型來建(jian)模(mo) GaussianCube的(de)分布,利用(yong)(yong)標準(zhun)的(de)U-Net網(wang)絡進行擴(kuo)散(san),并直接(jie)將原始(shi)的(de)2D操作符(包括卷(juan)積、注意力(li)、上采(cai)樣(yang)和下(xia)采(cai)樣(yang))替(ti)換為相應(ying)的(de)3D操作。
實驗結果(guo)(guo)表明(ming)(ming),GaussianCube相較之前的(de)基(ji)線算法實現了大(da)幅度(du)的(de)性能提升(sheng)。不僅能夠生(sheng)成(cheng)高(gao)質量的(de)3D資產,而且還提供了極具吸引力的(de)視覺效果(guo)(guo),充分證明(ming)(ming)了其(qi)作(zuo)為3D生(sheng)成(cheng)通用表示的(de)巨大(da)潛力。
7月25日10點,智猩猩邀請到論文一作、中國科學技術大學與微軟亞洲研究院聯合培養博士張博文參與「智猩猩AI新青年講(jiang)座」245講(jiang),主講(jiang)《結構(gou)化3DGS為高質量(liang)3D生(sheng)成帶來新思路》。
講者
張博文
中國科學技術大學與微軟亞洲研究院聯合培養博士
目前主要研究方向為高質量生成模型,包括2D圖像生成和3D數字資產生成等。曾在國際頂級會議上以第一作者的身份發表數篇論文,GitHub 開源項目星標超1000,同時擔任?CVPR、ICCV、ECCV 等頂(ding)級(ji)會(hui)議審稿人。
第245講
主 題
結構化3DGS為高質量3D生成帶來新思路
提 綱
1、主流三維表示方法及在3D生成中的局限
2、利用密度約束高斯擬合和最優傳輸算法構建GaussianCube
3、基于GaussianCube的3D擴散模型
4、GaussianCube生成結果展示以及未(wei)來展望
直播信息
直播時間:7月25日10:00
直播地點(dian):智(zhi)猩猩GenAI視頻(pin)號(hao)
成果
論文標題
《GaussianCube: A Structured and Explicit Radiance Representation for 3D?Generative Modeling》
論文鏈接
//arxiv.org/pdf/2403.19655
項目網站
//gaussiancube.github.io/
同時(shi),本次(ci)講座也組建了學(xue)習(xi)交流(liu)(liu)群。加入(ru)學(xue)習(xi)交流(liu)(liu)群,除了可(ke)以(yi)觀(guan)看直(zhi)播,并(bing)提前拿到課(ke)件(限可(ke)以(yi)對外的課(ke)件)外,你(ni)還能結識更多算法研究人(ren)員,所提問(wen)題也會被講者優先回答(da)。