
「AI新青(qing)年講座」將邀請世界頂尖AI研(yan)究(jiu)機(ji)構和大學(xue)的科研(yan)新青(qing)年,主(zhu)講他(ta)們在(zai)計算機(ji)視覺、機(ji)器學(xue)習等人工智能領域的最(zui)新重要研(yan)究(jiu)成果。
AI新(xin)青年(nian)是加速人(ren)(ren)工智能(neng)前(qian)沿研究的新(xin)生力量(liang)。AI新(xin)青年(nian)的視頻講解(jie)和(he)(he)直播答疑(yi),將(jiang)可以幫助大(da)家增進(jin)對人(ren)(ren)工智能(neng)前(qian)沿研究的理解(jie),相應領域(yu)的專業知識也能(neng)夠得以積累加深。同時,通過與AI新(xin)青年(nian)的直接交流,大(da)家在AI學習和(he)(he)應用AI的過程中遇到的問題,也能(neng)夠盡快解(jie)決(jue)。
「AI新青年講座」目前已完(wan)結(jie)211講,有興趣(qu)分(fen)享學術成果(guo)的朋友,可以(yi)與智東西公(gong)開課(ke)教(jiao)研團隊進(jin)行郵件(jian)(class@sanyasheying.cn)聯系。
基于文(wen)(wen)(wen)本的(de)(de)生(sheng)(sheng)成(cheng)任務是當前(qian)的(de)(de)一個(ge)研究熱(re)點。其中,文(wen)(wen)(wen)本到三(san)維(wei)形(xing)狀生(sheng)(sheng)成(cheng)主(zhu)要是利用深(shen)度學習模(mo)型和(he)生(sheng)(sheng)成(cheng)模(mo)型,將文(wen)(wen)(wen)本描(miao)述(shu)映射到三(san)維(wei)形(xing)狀的(de)(de)表(biao)示空間(jian),并生(sheng)(sheng)成(cheng)符合(he)文(wen)(wen)(wen)本描(miao)述(shu)的(de)(de)三(san)維(wei)形(xing)狀或物體模(mo)型。現階段,該任務仍然具有挑戰性,原因是缺乏大規模(mo)的(de)(de)文(wen)(wen)(wen)本-形(xing)狀配對數(shu)據、這兩種模(mo)態之間(jian)存在(zai)實(shi)質(zhi)性的(de)(de)語義差(cha)距,以(yi)及三(san)維(wei)形(xing)狀的(de)(de)結構復雜性。
來自香(xiang)港(gang)中文大(da)學、香(xiang)港(gang)大(da)學以(yi)及湖南大(da)學的(de)研究者們,在 ICLR 2023 上提出了一種新的(de)文本(ben)引導 3D 形(xing)(xing)狀生(sheng)成(cheng)(cheng)方法(fa)(ISS)。該方法(fa)使(shi)用圖(tu)像(xiang)作為階梯來連(lian)接文本(ben)和 3D 形(xing)(xing)狀,無需成(cheng)(cheng)對的(de)文本(ben)和 3D 數據即可生(sheng)成(cheng)(cheng) 3D 形(xing)(xing)狀。其核心是一種兩階段特(te)征空間(jian)對齊(qi)策略。首(shou)先,將 CLIP 圖(tu)像(xiang)特(te)征映射到 SVR 模型(xing)的(de)細(xi)節(jie)豐(feng)富(fu)的(de) 3D 形(xing)(xing)狀空間(jian),然后通過鼓勵渲(xuan)染(ran)圖(tu)像(xiang)和輸入文本(ben)之間(jian)的(de) CLIP 一致性,將 CLIP 文本(ben)特(te)征添加到 3D 形(xing)(xing)狀空間(jian)。
此外,為了擴展 SVR 模型的(de)生(sheng)成能力,他(ta)們設計(ji)了一個文本引導的(de) 3D 形狀風格(ge)化模塊,可以生(sheng)成新穎的(de)結(jie)構和(he)紋理(li)來(lai)創造出更(geng)有趣(qu)的(de)結(jie)果。同時,他(ta)們利用預訓練的(de)文本到圖像擴散模型來(lai)增(zeng)強生(sheng)成多樣性(xing)、保真度和(he)程式化能力。實驗(yan)結(jie)果表明(ming),ISS 在生(sheng)成質量和(he)與輸入文本的(de)一致性(xing)方(fang)面優于最先(xian)進的(de)方(fang)法。
6月6日晚8點,「AI新青年講座(zuo)」第212講邀請(qing)到(dao) ISS 一作、香港中文(wen)大學在(zai)讀博(bo)士劉政哲參與,主講《以圖(tu)為梯:從文(wen)字到(dao) 3D 形狀生成》。
講者
劉政哲,香港(gang)中文(wen)大學(xue)在讀博士(shi);師從(cong)Philip Chi-Wing Fu教授;主要(yao)研究方向包(bao)括AIGC、3D生成等(deng);曾在CVPR、TPAMI、ECCV、ICLR、NeurIPS、AAAI等(deng)頂級會議(yi)和期(qi)刊發表(biao)論(lun)文(wen)十余篇;擔任CVPR、ICCV、ECCV、ICLR、NeurIPS、TPAMI等(deng)頂會和期(qi)刊審(shen)稿人;曾獲2022年微(wei)軟學(xue)者提名。
第212講
主 題
《以(yi)圖為梯:從文字到 3D 形狀(zhuang)生(sheng)成》
提 綱
1、文本到 3D 內容生成的研究及難點
2、快速的文字到形狀生成方法 ISS
3、文字引導的 3D 形狀風格化
4、利用(yong)圖像擴散模(mo)型提升生(sheng)成質量和(he)類(lei)別范圍(wei)
直 播 信 息
直播時間:6月6日20:00
直(zhi)播(bo)地點:智東(dong)西公開課知識店(dian)鋪
成果
論文標題:
《ISS : Image as Stepping Stone for Text-Guided 3D Shape Generation》
《ISS++: Image as Stepping Stone for Text-Guided 3D Shape Generation》
論文地址
//arxiv.org/abs/2209.04145
//arxiv.org/pdf/2303.15181
代碼地址
//github.com/liuzhengzhe/ISS-Image-as-Stepping-Stone-for-Text-Guided-3D-Shape-Generation