智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西6月(yue)21日(ri)報道(dao),今日(ri),英(ying)偉達研究院(NVIDIA Research)的(de)新研究在全球(qiu)計算機(ji)視覺(jue)三大(da)頂級會議之一(yi)CVPR 2022(計算機(ji)視覺(jue)與模式識(shi)別會議)上亮相。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計算機視覺頂會

NVIDIA提出的3D MoMa逆渲染流(liu)程方法,展示(shi)了一種(zhong)能將2D照片變成3D物體的新方法。圖形創作者可以(yi)快速將物體導(dao)入圖形引擎,并修改(gai)比(bi)例、改(gai)變材質(zhi)或(huo)嘗試不(bu)同的照明效(xiao)果。

本周(zhou),關于3D MoMa的(de)論(lun)文(wen)將(jiang)在(zai)CVPR上(shang)發(fa)表。其(qi)論(lun)文(wen)名(ming)為《從(cong)圖像中提取三(san)(san)角形三(san)(san)維模型、材質和(he)照明》(Extracting Triangular 3D Models, Materials, and Lighting From Images)。這將(jiang)是NVIDIA在(zai)本次CVPR上(shang)發(fa)表的(de)38篇論(lun)文(wen)之一。

論文地址:

項目地址:

一、用2D照片快速生成3D物體

3D內容(rong)建(jian)(jian)模(mo)既需要(yao)藝(yi)術建(jian)(jian)模(mo)技能,又需要(yao)掌握計(ji)算機(ji)技術知識。而實現自動(dong)化3D建(jian)(jian)模(mo),可以節(jie)約大量的生產成本,或加(jia)速(su)更(geng)多樣化的內容(rong)創建(jian)(jian)。

其中,逆渲染是將一系列靜態照片重建為3D物體或場景模型的技術。NVIDIA圖形學研究副(fu)總裁David Luebke稱:“該技術長期以來一(yi)直(zhi)是統一(yi)計算機視覺和計算機圖形學的關鍵。”

他談道:“NVIDIA 3D MoMa渲染(ran)流水線(xian)能將(jiang)逆渲染(ran)問(wen)題的每個部分表示(shi)為GPU加速的可微分組件,然后(hou)使(shi)用現代AI機器和(he)NVIDIA GPU的原始算力(li)快速生成3D物(wu)體,且創作者可以在現有工具(ju)中(zhong)自由地導(dao)入、編輯和(he)擴展這(zhe)些物(wu)體。”

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計算機視覺頂會

為了使藝術家或工程師能夠充分利用3D物體,其形式應能夠導入游戲引擎、3D建模器和電影渲染器等各種被廣泛使用的工具。

帶有(you)紋理(li)、材質的三角網格形(xing)式(shi),就是此類3D工(gong)具使用的通(tong)用語言。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計算機視覺頂會

三角網格是用于定義3D圖形(xing)和建(jian)模形(xing)狀的基本框架。游戲工(gong)作室和其他創作者習(xi)慣于使用復雜的攝影(ying)測量(liang)技術(shu)來創建(jian)3D物(wu)體,這需要耗費大量(liang)的時間和精力。

近期的神(shen)經輻射場(chang)(Neural Radiance Fields)研究(jiu)可以快速生成物體或(huo)場(chang)景的3D模型,但并不是使用易于編輯的三角(jiao)網格形式。

當在單個NVIDIA Tensor Core GPU上運行時,NVIDIA 3D MoMa能在1小時內生成三角網格模型。該流水線的輸出結果與創作者現在使用的3D圖形引擎和建模工具直接兼容。

流水線的(de)重建(jian)功能包(bao)括3D網格模型(xing)、材質和照(zhao)明。網格就像由三角形構建(jian)的(de)3D形狀混凝紙漿模型(xing)。有了它,開發者就可以依照(zhao)自己的(de)創意(yi)對物(wu)體(ti)進行修改(gai)。材質是(shi)疊(die)加在3D網格上的(de)2D紋理,就像人的(de)皮(pi)膚一(yi)樣。NVIDIA 3D MoMa通(tong)過對場景光線進行估算,使創作者能夠(gou)在日(ri)后修改(gai)物(wu)體(ti)上的(de)照(zhao)明。

相比之下,近年來許多(duo)類似的(de)3D重(zhong)建研究,或者不能(neng)輕松支(zhi)持場景編輯操作,或者犧牲了重(zhong)建質量,在神經(jing)網絡中編碼的(de)材質也不能(neng)輕易(yi)地被編輯或提(ti)取(qu)成與傳統游戲引擎兼容(rong)的(de)形(xing)式。

二、為虛擬爵士樂隊調校樂器

為了(le)展示(shi)NVIDIA 3D MoMa的(de)(de)功能,NVIDIA的(de)(de)研究(jiu)和(he)創意團(tuan)隊首(shou)先從不(bu)同(tong)角度(du)收集了(le)五種(zhong)爵士(shi)樂隊樂器(qi)(小號、長(chang)號、薩克斯、架子鼓和(he)單簧管)的(de)(de)約100張圖片。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計算機視覺頂會

NVIDIA 3D MoMa將2D圖(tu)像重建為每種(zhong)樂器的3D表示,并(bing)以網格形(xing)式呈現(xian)。

然后,NVIDIA團隊(dui)將這些樂器從原始場(chang)景中(zhong)取出,并將其導入NVIDIA Omniverse 3D模擬平(ping)臺中(zhong)進行編(bian)輯。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計算機視覺頂會

在任何傳統(tong)圖形引擎(qing)中,創(chuang)作者(zhe)都能輕(qing)松(song)為形狀調換(huan)由NVIDIA 3D MoMa生成的材質,就像給網格穿上不同的衣服一樣(yang)。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計算機視覺頂會

例如,該團隊(dui)對小號模型采取(qu)了這種做法,將原來(lai)的塑料(liao)材質,快速(su)更(geng)換成(cheng)黃金、大理石、木(mu)材或軟木(mu)。

創作者可以(yi)將新編輯(ji)的(de)物體放入任何虛擬(ni)場景中。NVIDIA團隊(dui)將這些樂器放入了經典的(de)圖形渲染質(zhi)量(liang)測試康(kang)奈爾(er)盒中。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計算機視覺頂會

他(ta)們證明了虛擬樂器對光(guang)線的(de)反(fan)應與在物理世界中完全(quan)一樣:閃亮的(de)銅(tong)管樂器反(fan)射出亮光(guang),啞光(guang)的(de)鼓(gu)皮則會吸收光(guang)線。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計算機視覺頂會

這些(xie)通過逆渲染生成(cheng)的新物體可以作為復雜動畫場(chang)景的構成(cheng)要(yao)素(su)。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計算機視覺頂會▲虛擬爵士樂隊

三、高效的逆渲染方法,整體研究思路概述

總體(ti)來(lai)說(shuo),研究人員提出了一種(zhong)高效的逆渲染(ran)方法,能從(cong)多(duo)視角(jiao)圖像中提取具有(you)空間變(bian)化的材(cai)料和環境(jing)照(zhao)明的未知(zhi)拓撲三角(jiao)網(wang)格,它們可(ke)以部署在任何傳統圖形引(yin)擎中而未經修(xiu)改。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計算機視覺頂會▲研究方法的概述

NVIDIA團(tuan)隊(dui)假設在一個未知的環境光照條件下,有(you)相(xiang)應(ying)的攝像(xiang)機(ji)位姿和背景分割掩模來(lai)指示這些圖(tu)像(xiang)中(zhong)的物體,進行3D重建。

該(gai)方(fang)法學習曲面網格的拓撲和頂點(dian)位置,而無需對3D幾(ji)何圖(tu)形進行(xing)任何初始(shi)猜(cai)測。其目標表示由三角網格、空間變化的材質(存儲在(zai)2D紋(wen)理中)和照明(一個(ge)高動態范(fan)圍(wei)的環(huan)境探針)組(zu)成。

該方法的(de)核心(xin)是基于可(ke)變性四(si)面體網格的(de)可(ke)微分(fen)曲面模型,并通過一種新(xin)的(de)可(ke)微分(fen)分(fen)割和(he)近(jin)似方法將其擴(kuo)展到支持空間變化(hua)的(de)材料和(he)高動(dong)態范圍(HDR)環境(jing)照明。

研究(jiu)人員使用高度優(you)化的可微分光柵與(yu)延遲遮(zhe)光,聯合(he)優(you)化幾(ji)何(he)、材料和照明。生成的3D模型無(wu)需轉換,就能(neng)部(bu)署在手機、web瀏覽(lan)器等任意支持三角渲(xuan)染的設備(bei)上,并(bing)以(yi)交互速(su)率呈(cheng)現。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計算機視覺頂會▲NVIDIA團隊從2D監(jian)督中聯合(he)學(xue)習拓撲、材質、照明,重(zhong)建三角網格,無需修(xiu)改(gai)即可在標準(zhun)游戲引(yin)擎中使用

實(shi)驗表明,該研究提取的模(mo)型可用于(yu)場景編輯、材料分解(jie)和高質量視圖插(cha)值,所有(you)這些模(mo)型都在基于(yu)三角形的渲染器(qi)(qi)(光柵器(qi)(qi)和路(lu)徑跟蹤器(qi)(qi))中以交互速率運行。

結語:將助力簡化創意團隊的工作流程

在論(lun)文最后,本(ben)篇(pian)論(lun)文作者提到,這項研究的主要限制是簡化了陰(yin)影(ying)模型,沒有(you)考(kao)慮全局照(zhao)明(ming)(ming)或陰(yin)影(ying)。這一選擇是有(you)意加速(su)優化,但受制于材質提取和重照(zhao)明(ming)(ming)。

隨著(zhu)可(ke)微(wei)分路徑追蹤(zong)的研究取(qu)得新(xin)進展,研究人員期待在未來的工作中去除這一限(xian)制(zhi)。其(qi)他限(xian)制(zhi)還包括靜態(tai)照明假設、沒有(you)優(you)化攝像機位姿、訓練期間高計算資源和內存消耗(hao)等。

當然,每當涉(she)及(ji)場景重建方法,大眾普遍會(hui)關(guan)心深度(du)偽造問題。對此,研究(jiu)人員稱尚未察覺或預(yu)見到(dao)其方法的(de)負面用途。

總的(de)來說(shuo),NVIDIA這項能幫助(zhu)創(chuang)作(zuo)者快速將2D照片(pian)變成3D物體、兼容現代(dai)3D引(yin)擎和(he)建模(mo)工具的(de)新研究,將有助(zhu)于進一(yi)步(bu)簡化建筑師、設計師、概念藝術家(jia)和(he)游戲開發者等創(chuang)意團隊的(de)工作(zuo)流程,為(wei)他們騰出更多發揮創(chuang)意的(de)時間。