
文(wen)本(ben)到圖(tu)像的(de)擴散模型在文(wen)本(ben)提示的(de)指導下展示了(le)前所未(wei)有的(de)創作能力,例(li)如在視覺藝術、合成數據集構(gou)建以及(ji)市(shi)場營(ying)銷和廣告中(zhong)的(de)圖(tu)像編輯(ji)等創意工作。然(ran)而,基于特(te)定(ding)主題生成個(ge)性(xing)化實例(li)仍然(ran)具有挑(tiao)戰性(xing)。
為此,vivo影像規劃預研部研究員官(guan)善琰等提(ti)出一種新的(de)框(kuang)架HybridBooth。該框(kuang)架融合(he)了(le)基于優化和(he)直(zhi)接回歸(gui)方法(fa)(fa)的(de)優點,創(chuang)造一種平衡質量和(he)速度的(de)混合(he)方法(fa)(fa),從而實現了(le)高(gao)效、精(jing)確的(de)主題驅(qu)動生(sheng)成。相關論文成果收錄于ECCV 2024。
同時,深(shen)度(du)學(xue)習在模擬復雜粒(li)(li)子(zi)系統(如(ru)流(liu)(liu)體)的(de)物理動(dong)力(li)學(xue)方(fang)面顯示(shi)出(chu)巨大的(de)潛力(li)。然而(er),神經(jing)網絡是(shi)否可(ke)以直(zhi)接從觀察到的(de)圖像推斷流(liu)(liu)體動(dong)力(li)學(xue)仍(reng)然是(shi)一個(ge)懸而(er)未決(jue)的(de)問題。對(dui)此官善(shan)琰研究員(yuan)等提出(chu)了神經(jing)流(liu)(liu)體NeuroFluid,其為首個(ge)基于粒(li)(li)子(zi)的(de)流(liu)(liu)體動(dong)力(li)學(xue)的(de)無監督學(xue)習解決(jue)方(fang)案。相關論文成果收錄于ICML 2022。
NeuroFluid關鍵思想是(shi)在端(duan)到端(duan)可訓練的(de)框架中,將基于粒(li)子的(de)流(liu)體模擬(ni)與粒(li)子驅(qu)動的(de)神經渲染連接(jie)起來(lai),使兩(liang)個網絡可以(yi)聯合優化,從而獲得(de)兩(liang)者(zhe)之間合理(li)的(de)粒(li)子表(biao)示。實驗數據表(biao)明,NeuroFluid學習(xi)了更(geng)加合理(li)的(de)流(liu)體動力學,可以(yi)在動態基礎、預測和新視圖(tu)合成方面(mian)產(chan)生不錯的(de)結果。
《易(yi)經·說卦》有言:“窮理(li)盡(jin)性(xing),以(yi)至(zhi)于命”。 人類(lei)能(neng)夠(gou)輕松(song)辨別內(nei)在(zai)動態(tai)并適應新場景,但如何賦予機(ji)器像人類(lei)一(yi)樣“觀察(cha)、理(li)解和推(tui)理(li)”物理(li)世(shi)界的(de)能(neng)力(li)往往面臨巨大挑戰。針對如何從視覺(jue)觀察(cha)中準確(que)地推(tui)斷(duan)出實(shi)際的(de)內(nei)在(zai)動力(li)學問題(ti),官(guan)善(shan)琰研究員等提(ti)出了基于學習(xi)且具有物理(li)知識(shi)先驗的(de)神(shen)經材(cai)料適配(pei)器NeuMA。相關論文成果收錄于NeurIPS 2024。
NeuMA促進對實際動態(tai)的(de)(de)準確學(xue)習,同(tong)時保持物(wu)理先(xian)驗(yan)的(de)(de)通用(yong)性和可解(jie)釋(shi)性。此外,還(huan)提出了一種粒子驅動的(de)(de)3D高斯(si)濺射變體Particle-GS,能夠連接模(mo)擬(ni)和觀察(cha)到的(de)(de)圖像(xiang),允許通過反向(xiang)傳播圖像(xiang)梯度(du)來優化(hua)模(mo)擬(ni)器(qi)。
在(zai)不(bu)同(tong)材料和初始條件下對不(bu)同(tong)動(dong)態場景下的?NeuMA?進行了評估。該方法在(zai)物(wu)體(ti)(ti)動(dong)態基礎和動(dong)態場景渲染方面(mian)具有競爭力,同(tong)時(shi)在(zai)新(xin)形狀、多物(wu)體(ti)(ti)交(jiao)互和長時(shi)間預(yu)測方面(mian)具有良好的泛化性。
11月19日19點,智猩猩邀請到vivo影像規劃預研部研究員官善琰參與「智猩猩通用視覺講座」04講,主講《基于視覺的物理規律反演》。講(jiang)座過(guo)程(cheng)中將會(hui)分析當前視(shi)覺反演框架的(de)局限性,介紹(shao)HybridBooth框架如何提升個性化反演精度,NeuroFluid在流體動(dong)力學中的(de)應用,以及NeuMA神經材質(zhi)適配器在內在動(dong)態(tai)建(jian)模中的(de)優勢。這些方法(fa)為基于視(shi)覺的(de)物理規律反演提供了新的(de)技(ji)術(shu)路(lu)徑。
講者
官善琰,vivo影像規劃預研部研究員
1、一般視覺反演框架存在的問題
2、高效個性化屬性反演框架HybridBooth解析
3、動力學視覺反演
-NeuroFluid解決視覺場景逆問題理解流體動力學
-神經材質適配器NeuMA提升內在動態建模精度
4. 實驗(yan)比較與分析
直 播 信 息
直(zhi)播時間:11月19日19:00
成果
論文標題
《HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation》
《Neurofluid: Fluid dynamics grounding with particle-driven neural radiance fields》
《NeuMA: Neural Material Adaptor for?Visual Grounding of Intrinsic Dynamicas》
論文鏈接
//arxiv.org/abs/2410.08192
//arxiv.org/abs/2203.01762
//arxiv.org/abs/2410.08257
項目地址
//sites.google.com/view/hybridbooth
//github.com/syguan96/NeuroFluid
//xjay18.github.io/projects/neuma.html
如何報名
有講座直播觀看需求的朋友,可以添加小助手“沐可”進行報名。已添加過“沐可”的老朋友,可以給“沐可”私信,發送“通用視覺04”進行報名(ming)。對于通(tong)過報名(ming)的朋友,之后將邀請入群進行觀看和交流。