智東西(公眾號:zhidxcom)
編譯 | 王涵
編輯 | 漠影

智東西6月16日消息,上周五,IEEE計算機學會(CS)與計算機視覺基金會(CVF)聯合公布了2025年計算機視覺與模式識別會議(CVPR)獲獎論文及本年度AI藝術獎項。本次公布的7篇獲獎論文全部都有(you)華人科研人員參與其中,其中2篇文章由全華人團隊完成。尤為亮眼的是,斬獲 “CVPR 2025 最佳論文” 的成果同樣出自華人研究員之手。

CVPR是IEEE國際計算機視覺與模式識別會議 (IEEE/CVF Conference on Computer Vision and Pattern Recognition) 。它是計算機視覺和模式識別領域最重要的年度國際會議之一,被公認為該領域的頂級盛會,許多人甚至稱其為計算機視覺界的“奧斯卡”

該會議的(de)(de)論(lun)文錄(lu)用(yong)標(biao)準非常嚴格(ge),今年共有13008份有效投稿并進入評(ping)審流程(cheng),其中2878篇(pian)被錄(lu)用(yong),最(zui)(zui)終錄(lu)用(yong)率(lv)為(wei)22.1%。而其中能(neng)夠(gou)進行口(kou)頭報告(gao)的(de)(de)論(lun)文更是少(shao)之又少(shao),這意味著(zhu)能(neng)被CVPR錄(lu)用(yong)的(de)(de)論(lun)文,通常代表了該領域最(zui)(zui)前沿、最(zui)(zui)具創(chuang)新性的(de)(de)研究方向和(he)最(zui)(zui)高水平。

一、CVPR 2025最佳論文:華人一作,多項3D任務達最先進水平

摘得CVPR 2025最佳論文的論文題目為《VGGT: Visual Geometry Grounded Transformer》(VGGT:視覺幾何基礎Transformer)。作者包括Jianyuan Wang、Minghao Chen、Nikita Karaev、Andrea Vedaldi、Christian Rupprecht、David Novotny,來自牛津大學與Meta AI的工程師團隊,其中第一作者Jianyuan Wang、第二作者Minghao Chen均為華人

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該文章提出VGGT(視(shi)(shi)覺(jue)幾何基礎(chu)Transformer),能夠(gou)直接從單視(shi)(shi)角(jiao)、多視(shi)(shi)角(jiao)乃至上百個視(shi)(shi)角(jiao)中推斷場景的所有關鍵3D屬(shu)性,包括相機(ji)(ji)參(can)數(shu)、點(dian)云圖、深度圖和(he)3D點(dian)軌(gui)跡。該方法推動了3D計算機(ji)(ji)視(shi)(shi)覺(jue)領域的發展,傳統模型通(tong)常(chang)局限于單一任務且(qie)需要(yao)專(zhuan)門優化。

VGGT不(bu)僅結(jie)構簡(jian)潔高效(圖像重建耗(hao)時不(bu)足1秒),其性(xing)(xing)能(neng)更超越(yue)了(le)需要(yao)視(shi)覺幾何優化技(ji)術進行后處理的(de)替代方案。該網絡(luo)在多項3D任(ren)務中(zhong)達到最先進水平,包括(kuo)相機參數(shu)估(gu)計、多視(shi)角深度估(gu)計、稠密點云重建和3D點追蹤(zong)。實驗表明,將預訓練的(de)VGGT作為特征(zheng)骨干網絡(luo),可顯著提(ti)升(sheng)非剛性(xing)(xing)點追蹤(zong)和前饋式新視(shi)角合成等(deng)下游任(ren)務的(de)性(xing)(xing)能(neng)。

二、CVPR 2025最佳學生論文:根據物理規律逆向渲染,可屏蔽反射光干擾

獲得CVPR 2025最佳學生論文的是《Neural Inverse Rendering from Propagating Light》(傳播光線的神經逆向渲染),作者包括Anagh Malik、Benjamin Attal、 Andrew Xie、 Matthew O’Toole、David B. Lindell,來自多倫多大學、Vector研究所與卡內基梅隆大學,其中第三作者Andrew Xie為華人

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該團(tuan)隊首次實現基(ji)于物理的(de)神經(jing)逆向(xiang)渲染系統(tong),能(neng)夠(gou)處理多視角傳(chuan)播光(guang)(guang)(guang)線視頻。該方法通(tong)過擴展神經(jing)輻(fu)射緩存(cun)技(ji)術(一種通(tong)過存(cun)儲任(ren)意點從各方向(xiang)接收的(de)無限次彈射輻(fu)射來加速(su)逆向(xiang)渲染的(de)技(ji)術),引入時間(jian)分辨率維度。所構建的(de)模型(xing)能(neng)精確模擬直接與(yu)間(jian)接光(guang)(guang)(guang)傳(chuan)輸效應,當應用于閃光(guang)(guang)(guang)激(ji)光(guang)(guang)(guang)雷達系統(tong)的(de)捕獲(huo)數(shu)據時,可在強間(jian)接光(guang)(guang)(guang)照環境下(xia)實現最(zui)先(xian)進的(de)3D重(zhong)建。此(ci)外,該團(tuan)隊還展示了(le)傳(chuan)播光(guang)(guang)(guang)線的(de)視角合成、捕獲(huo)數(shu)據的(de)直接/間(jian)接光(guang)(guang)(guang)自動分解,以及多視角時間(jian)分辨重(zhong)照明(ming)等創新功能(neng)。

三、榮譽提名獎項:華為和北大浙大的全華團隊奪得最佳學生論文提名

榮譽(yu)提名獎項授予那些在質量上僅次于最(zui)佳論(lun)(lun)文(wen),但同(tong)樣非常優(you)秀(xiu)且(qie)具有顯著影響力的(de)論(lun)(lun)文(wen)。它表明這些論(lun)(lun)文(wen)雖然不是最(zui)終(zhong)的(de)“第(di)一名”,但其研究成果和貢獻也得到了(le)高度認可。

其中(zhong)共有4篇(pian)論(lun)文(wen)獲得(de)最佳論(lun)文(wen)榮譽(yu)提名(ming),1篇(pian)論(lun)文(wen)獲得(de)最佳學生論(lun)文(wen)提名(ming),分別是:

1、最佳論文榮譽提名

《MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos》(MegaSaM:從動(dong)態視頻(pin)中快速穩健地重建結構與運動(dong)),作者包括Zhengqi Li、Richard Tucker、Forrester Cole、Qianqian Wang、Linyi Jin、Vickie Ye、Angjoo Kanazawa、Aleksander Holynski、Noah Snavely,來自谷歌DeepMind與加州大學伯克利分校和密歇根大學,其中第一作者Zhengqi Li和共同作者Qianqian Wang、Linyi Jin、Vickie Ye為華人

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

來自谷(gu)歌DeepMind與加州大(da)(da)學(xue)(xue)伯克利分(fen)校、密歇根大(da)(da)學(xue)(xue)的(de)團(tuan)隊提出(chu)了一種能夠從動(dong)態場(chang)景的(de)單目(mu)視(shi)頻中(zhong)快速(su)、準確且穩定地估(gu)計相(xiang)機參數和深度圖(tu)的(de)系統。傳統運(yun)動(dong)恢(hui)復(fu)結構(Structure from Motion)和單目(mu)SLAM技術大(da)(da)多(duo)假設(she)輸(shu)入視(shi)頻以(yi)靜態場(chang)景為主(zhu)且具有顯著視(shi)差,當這(zhe)些條件不(bu)滿足(zu)時往往會產生錯(cuo)誤(wu)估(gu)計。近期基于神經網絡的(de)方法嘗試解決這(zhe)些問題,但這(zhe)些方法要么計算(suan)成本高昂,要么在(zai)相(xiang)機運(yun)動(dong)不(bu)受控或視(shi)場(chang)未知的(de)動(dong)態視(shi)頻中(zhong)表現脆弱。

該團(tuan)隊證明(ming)了一個(ge)深度視覺SLAM框(kuang)架(jia)經過訓練和推理方案的(de)精(jing)心(xin)改進后(hou),能(neng)夠驚人(ren)地適應真實世界中相機(ji)路徑不(bu)受限(xian)的(de)復雜動態場景視頻(pin)(包括相機(ji)視差較(jiao)小的(de)視頻(pin))。在合成與(yu)真實視頻(pin)上的(de)大量實驗表明(ming),相較(jiao)于現有研究,該系(xi)統在相機(ji)位姿和深度估計方面(mian)顯著提升了精(jing)度與(yu)穩定性,同時保(bao)持相當(dang)或(huo)更快的(de)運(yun)行(xing)速度。

《Navigation World Models》(導航世界模型),作者包括Amir Bar、Gaoyue Zhou?Danny Tran、Trevor Darrell、Yann LeCun(楊立昆),來自Meta FAIR團隊、紐約大學與伯克利大學AI研究所,其中第二作者Gaoyue Zhou為華人

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該團隊提(ti)出導(dao)航世界模(mo)型(xing)(Navigation World Model,NWM),這是(shi)一(yi)種基于(yu)視(shi)覺運動(dong)能(neng)力(li)的智能(neng)體(ti)基礎導(dao)航系統。作為可控視(shi)頻生(sheng)成模(mo)型(xing),NWM能(neng)根據(ju)歷史觀測(ce)和導(dao)航動(dong)作預(yu)測(ce)未來視(shi)覺場景(jing)。為捕捉復雜環境(jing)動(dong)態,NWM采用(yong)條件擴散Transformer架構(Conditional Diffusion Transformer, CDiT),通過大規模(mo)訓練(10億參數)于(yu)人(ren)類和機器(qi)人(ren)主體(ti)的第一(yi)視(shi)角視(shi)頻數據(ju)集。

在(zai)熟悉(xi)環境中(zhong),NWM可通(tong)過軌(gui)(gui)跡(ji)模擬與(yu)目標達(da)成度評估自(zi)主規劃(hua)(hua)路徑。與(yu)傳統固定行(xing)為的(de)監(jian)督式導航策(ce)略(lve)不(bu)同(tong),NWM能(neng)在(zai)規劃(hua)(hua)過程中(zhong)動態整合(he)約束條件。實驗證明其具(ju)備兩種核心能(neng)力:(1)從零(ling)開始規劃(hua)(hua)軌(gui)(gui)跡(ji);(2)對(dui)(dui)外(wai)部策(ce)略(lve)采樣軌(gui)(gui)跡(ji)進(jin)行(xing)擇優。更突出的(de)是,NWM能(neng)基于單張(zhang)輸入圖像,利用學習到的(de)視(shi)覺先驗對(dui)(dui)陌生環境進(jin)行(xing)軌(gui)(gui)跡(ji)推演(yan),這使(shi)其成為新(xin)一代(dai)導航系統中(zhong)兼具(ju)靈活性與(yu)強大性能(neng)的(de)工具(ju)。

《Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models》(Molmo與PixMo:先進視覺語言模型的開源權重與數據),有Matt Deitke、Christopher Clark、Sangho Lee、Rohun Tripathi、Yue Yang、Jae Sung Park、Mohammadreza Salehi、Niklas Muennighoff、Kyle Lo、Luca Soldaini等39名作者,來自艾倫人工智能研究所與華盛頓大學,有Yue Yang等多名華人為共同作者

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該(gai)團(tuan)隊提出Molmo系列模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)。核心突破(po)在于PixMo數(shu)據(ju)(ju)(ju)集(ji)組合:包含用于預訓(xun)練的(de)精細(xi)化(hua)圖像描述數(shu)據(ju)(ju)(ju)集(ji)、用于微調的(de)自由格式圖像問答(da)數(shu)據(ju)(ju)(ju)集(ji),以(yi)及創新的(de)2D指向數(shu)據(ju)(ju)(ju)集(ji),所(suo)有(you)數(shu)據(ju)(ju)(ju)均未借助外部VLM生(sheng)成。該(gai)方案的(de)成功取決于三個要(yao)素:(1)精細(xi)的(de)建(jian)模(mo)(mo)(mo)選擇;(2)優(you)化(hua)充分的(de)訓(xun)練流程;(3)最關(guan)鍵的(de)新建(jian)數(shu)據(ju)(ju)(ju)集(ji)質量。他們提出的(de)72B旗(qi)艦模(mo)(mo)(mo)型(xing)(xing)(xing)(xing)不僅(jin)超(chao)越同類開源模(mo)(mo)(mo)型(xing)(xing)(xing)(xing),更在學術(shu)基準和大規模(mo)(mo)(mo)人(ren)工評(ping)估(gu)中勝過(guo)Claude 3.5 Sonnet、Gemini 1.5 Pro/Flash等商業大模(mo)(mo)(mo)型(xing)(xing)(xing)(xing),性能僅(jin)次于GPT-4o。

《3D Student Splatting and Scooping》(3D學生飛濺與挖掘技術),作者包括Jialin Zhu、Jiangbei Yue、Feixiang He、He Wang,來自倫敦大學與倫敦大學AI中心、利茲大學,三名作者全(quan)部為華人

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該(gai)團(tuan)隊提出了一(yi)個(ge)由靈活(huo)的(de)學生(sheng)t分布(Student’s t distributions)組成的(de)新混合模(mo)型,該(gai)模(mo)型同時包含正密(mi)度(濺射(she))和負(fu)密(mi)度(舀取(qu))。此模(mo)型被命名為(wei)“學生(sheng)濺射(she)與舀取(qu)”(Student Splatting and Scooping),簡(jian)稱SSS。通(tong)過在多(duo)個(ge)數據(ju)集、設置和指標上進行的(de)詳(xiang)盡評估與比較,該(gai)團(tuan)隊證(zheng)明(ming)了SSS在質量(liang)和參數效率方(fang)面均優于現有方(fang)法。例如,在使用(yong)相似數量(liang)組件的(de)情況下(xia),SSS能(neng)達到同等或更優的(de)質量(liang);并且(qie)在將(jiang)組件數量(liang)減少高達82%的(de)情況下(xia),仍能(neng)獲得可(ke)比較的(de)結果。

2、最佳學生論文榮譽提名

獲得最佳學生論文榮譽提名的論文是《Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens》(基基于離散擴散時間步長tokens的生成式多模態預訓練),作者包括Kaihang Pan, Wang Lin, Zhongqi Yue, Tenglong Ao, Liyu Jia, Wei Zhao, Juncheng Li, Siliang Tang, Hanwang Zhang,來自華為新加坡研究中心、北京大學、浙江大學與南洋理工大學,全華人團隊

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

多模(mo)態大(da)語(yu)(yu)言(yan)模(mo)型(MLLM)的(de)最新研(yan)究致力(li)于通過結(jie)合LLM與(yu)擴散模(mo)型(分別為各(ge)自任務(wu)中(zhong)的(de)前沿技術)來實現(xian)(xian)視覺理解與(yu)生成(cheng)的(de)統一。現(xian)(xian)有方法依賴于空間視覺tokens,即圖像塊按空間順序(如光柵掃描(miao))編碼排列。但(dan)研(yan)究發現(xian)(xian),空間tokens缺乏語(yu)(yu)言(yan)固有的(de)遞歸結(jie)構,導致LLM難以掌(zhang)握這種 “非語(yu)(yu)言(yan)化” 表征。

該(gai)研究提(ti)出(chu)通過擴散時間步(bu)長學習(xi)離散遞歸(gui)視覺tokens,可隨時間步(bu)長遞增遞歸(gui)補(bu)償噪聲圖(tu)像的漸進(jin)屬性(xing)損(sun)失,使擴散模(mo)(mo)型能(neng)在任意(yi)時間步(bu)重建原始圖(tu)像。該(gai)方法(fa)有效(xiao)融(rong)合了LLM自回歸(gui)推理優勢(shi)與(yu)擴散模(mo)(mo)型精(jing)確圖(tu)像生成能(neng)力,在統一(yi)框(kuang)架內實現了無縫多(duo)模(mo)(mo)態理解(jie)與(yu)生成。大量實驗表明,相比(bi)其(qi)他MLLMs,該(gai)模(mo)(mo)型在多(duo)模(mo)(mo)態理解(jie)與(yu)生成任務(wu)上同步(bu)取(qu)得(de)了更優性(xing)能(neng)。

四、讓AI與藝術對話,全華人團隊獲獎

除技術(shu)研究(jiu)外(wai),CVPR AI藝(yi)術(shu)項目(AI Art Program)探索(suo)科學與藝(yi)術(shu)的交叉領域,征(zheng)集運用(yong)計(ji)算機視覺(jue)技術(shu)(包括(kuo)生成模型(xing)、物體與面部識別等)的創(chuang)作(zuo)作(zuo)品(pin)(pin)。今日公(gong)布(bu)的獲獎作(zuo)品(pin)(pin)從(cong)100余件入選(xuan)作(zuo)品(pin)(pin)中(zhong)脫穎而出:

1、Tom White的《Atlas of Perception(感知圖冊)》,通過探索神(shen)經網絡(luo)的潛空間(latent space),揭示(shi)視覺(jue)(jue)模型的“視覺(jue)(jue)詞匯”。該雕塑作品(pin)解析(xi)機(ji)器如何理解世界,展(zhan)現(xian)外觀本(ben)身(shen)的語(yu)法規則:視覺(jue)(jue)的模塊化語(yu)義(yi)。

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

2、Masaru Mizuochi的(de)(de)《Green Diffusion(綠色擴(kuo)散(san))》,將土(tu)壤微生物分(fen)解物質為養分(fen)的(de)(de)“破壞”過(guo)程,與AI擴(kuo)散(san)模型(diffusion model)的(de)(de)加噪(zao)去噪(zao)“創造(zao)”過(guo)程并置,凸顯二者(zhe)的(de)(de)同步性。

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

3、全華人團隊Mingyong Cheng, Sophia Sun, Han Zhang的《Learning to Move, Learning to Play, Learning to Animate(學(xue)習運動、學(xue)習游戲、學(xue)習動畫)》,是跨學(xue)科多媒體(ti)表演(yan)作品,包含自主研(yan)發的拾(shi)得(de)材料機(ji)器人、實時AI生(sheng)成、動作追蹤、音頻空間化(hua)及基于生(sheng)物反饋(bio-feedback)的音頻合成技術。

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

AI藝術(shu)(shu)項目策展(zhan)人(ren)Luba Elliott評價稱:“AI與藝術(shu)(shu)交匯處(chu)蘊藏豐富素材,本項目鼓勵藝術(shu)(shu)家持續探(tan)索其潛力。祝賀(he)所有獲(huo)獎(jiang)者(zhe)及參與者(zhe)對(dui)當下圖(tu)景的深刻(ke)詮(quan)釋。”

結語:華人正站在世界AI研究前沿

CVPR 2025程序委(wei)員會(hui)(hui)聯合主席、美國麻省理工學(xue)院(MIT)副教授Phillip Isola對以(yi)(yi)上獲獎論文(wen)(wen)贊(zan)賞稱:“這些論文(wen)(wen)代表了本屆會(hui)(hui)議(yi)最高質(zhi)量的(de)研究成果,包含(han)突(tu)破性(xing)發(fa)現、廣(guang)受關注的(de)重要工具以(yi)(yi)及富(fu)有創造力的(de)新思路。”

此次CVPR 2025大(da)會上,科技(ji)巨頭Meta和谷歌(ge)都(dou)沒有(you)缺席領獎臺,華為的研究團隊(dui)也獲(huo)(huo)得了(le)榮譽提名(ming)。除此之外(wai),華人在獲(huo)(huo)獎論(lun)文(wen)中的參與度讓人十分驚喜。

華人在CVPR 2025上的(de)超高(gao)“出鏡率”?凸顯了(le)華人在全(quan)球(qiu)計算機視覺(jue)與模式(shi)識別領域的(de)卓越貢獻,多篇獲獎(jiang)論(lun)文及(ji)成(cheng)果(guo)也彰顯了(le)中國在全(quan)球(qiu)AI發展進程(cheng)中日益增長(chang)的(de)影響(xiang)力。

來源:CVPR 2025