智東西(公眾號:zhidxcom)
編 | 董溫淑

智東西515日消息,昨日上午(wu)9點,微軟亞洲研究院創研論壇CVPR 2020論(lun)文分(fen)享會線(xian)上開幕。會議有19位計算機視覺(CV)領域學者分享最新研(yan)究成果(guo),講解(jie)內(nei)容涉及檢測、多(duo)模態、底層視覺、圖像(xiang)生(sheng)成、機器學習5大(da)方向(xiang)。

14日(ri)上午,3計算機視(shi)覺檢測(ce)方向的研究員做了分享,分別介紹(shao)了先(xian)進(jin)的人(ren)臉(lian)識別技(ji)術(shu)(shu)(shu)、動作檢測(ce)技(ji)術(shu)(shu)(shu)和目標檢測(ce)技(ji)術(shu)(shu)(shu)。智東西(xi)對這3項先(xian)進(jin)技(ji)術(shu)(shu)(shu)進(jin)行解讀。

微軟亞洲研究院創研論壇CVPR 2020論文分享會是計算機視覺(CV)領域最重要的會議之一,本屆會議共分享近20項CV領域前沿技術。

一、X射線檢測算(suan)法(fa)識(shi)別假圖像(xiang),準確率可達95.4%

Deepfake技術的濫(lan)用輕則造成虛假信(xin)息問題(ti),重(zhong)則會引起金融安全風險、侵權問題(ti)等。一些(xie)Deepfake圖像可(ke)以(yi)(yi)(yi)做到以(yi)(yi)(yi)假亂(luan)真(zhen),人(ren)類肉眼難以(yi)(yi)(yi)判斷出(chu)來。這種情況(kuang)下,人(ren)臉識別(bie)技術可(ke)以(yi)(yi)(yi)幫我們辨(bian)別(bie)。

現有(you)的(de)人(ren)(ren)臉識(shi)(shi)別(bie)工(gong)具大(da)多針對(dui)某(mou)種特定Deepfake技術訓練,用假(jia)人(ren)(ren)臉圖像(xiang)(xiang)作(zuo)為輸入(ru)。就(jiu)是說,人(ren)(ren)臉識(shi)(shi)別(bie)技術只(zhi)能識(shi)(shi)別(bie)出特定方法(fa)合成(cheng)的(de)假(jia)圖像(xiang)(xiang)。一旦Deepfake技術進化或換用其(qi)他Deepfake技術,人(ren)(ren)臉識(shi)(shi)別(bie)模型就(jiu)可能失(shi)效。

微軟(ruan)亞洲(zhou)研(yan)究院研(yan)究員鮑(bao)建敏講解了人臉(lian)X射線(xian)識別技(ji)術(shu)(Face X-ray),這種(zhong)技(ji)術(shu)用真實人臉(lian)圖像進行訓練(lian)。即使Deepfake技(ji)術(shu)進化,X射線(xian)人臉(lian)檢測算(suan)法也(ye)能保(bao)持較高的準確性。

制(zhi)作一(yi)(yi)張假圖(tu)(tu)像(xiang)的(de)(de)方法是把兩張圖(tu)(tu)像(xiang)疊加,即把一(yi)(yi)張修改(gai)過(guo)的(de)(de)人臉圖(tu)(tu)像(xiang)(前(qian)景(jing)(jing)(jing)(jing))合(he)成到背景(jing)(jing)(jing)(jing)圖(tu)(tu)像(xiang)(后(hou)景(jing)(jing)(jing)(jing))中(zhong)(zhong)。研究人員注意到,由(you)于每張圖(tu)(tu)像(xiang)拍攝或(huo)制(zhi)作過(guo)程中(zhong)(zhong)用到不同的(de)(de)硬件(傳感器、透(tou)鏡(jing)等(deng))或(huo)軟件(壓縮、合(he)成算法等(deng)),前(qian)景(jing)(jing)(jing)(jing)圖(tu)(tu)像(xiang)和后(hou)景(jing)(jing)(jing)(jing)圖(tu)(tu)像(xiang)的(de)(de)特征不可(ke)能完全相(xiang)同,因(yin)此人臉圖(tu)(tu)像(xiang)和背景(jing)(jing)(jing)(jing)圖(tu)(tu)像(xiang)之間(jian)存(cun)在一(yi)(yi)個“邊(bian)界”。

Face X-ray技術利用了上(shang)述特(te)征,用人(ren)臉灰度(du)(du)圖像(xiang)(xiang)作為輸入(ru)。Face X-ray模型可以(yi)識別出(chu)不同灰度(du)(du)圖像(xiang)(xiang)之間的(de)差異,這(zhe)樣不僅可以(yi)顯示出(chu)人(ren)臉圖像(xiang)(xiang)是(shi)真實的(de)還(huan)是(shi)偽造的(de),還(huan)能(neng)確定虛假圖像(xiang)(xiang)混合邊(bian)界的(de)位(wei)置。

微軟計算機視覺創研論壇首日干貨:3項前沿檢測技術解讀

▲左起第一張為(wei)真實圖(tu)像(xiang),其他均為(wei)假(jia)圖(tu)像(xiang),Face X-ray模型檢測出了假(jia)圖(tu)像(xiang)混(hun)合邊界位置(zhi)。

研究人(ren)員(yuan)對比了Face X-ray模型(xing)與之(zhi)前(qian)人(ren)臉(lian)識(shi)別工具的性能。結果顯示,模型(xing)檢測出來的假臉(lian)幀數比之(zhi)前(qian)的二分類方法(fa)更(geng)多(duo),識(shi)別準確率(lv)最高(gao)可達95.4%。

微軟計算機視覺創研論壇首日干貨:3項前沿檢測技術解讀

鮑建敏(min)指出,算法還有一(yi)定局限性。比如,Face X-ray主要用人臉圖像(xiang)數據庫FF++進行(xing)訓練。FF++中大部(bu)分圖像都是正臉圖像,所以模型識別側臉的準確(que)性(xing)較低。

二、DAGM模型(xing):區分(fen)動(dong)作與上下文(wen),準確識(shi)別(bie)出動(dong)作

微軟亞洲研究(jiu)院研究(jiu)員戴琦講解了一(yi)種(zhong)動作檢測技術,該技術可以(yi)從視頻中識(shi)別出動作。據了(le)解,目(mu)前的動作檢測技術可以分為全監督方法和弱監督方法。

全監督(du)方(fang)法的(de)動(dong)作檢測模型需要(yao)在訓練過程中需要(yao)對動(dong)作間隔進行時間注釋,十分昂貴和(he)費時。因此現有的動作檢測(ce)工具多采用(yong)弱(ruo)監督動作定位(WSAL,weakly-supervised action localization)技(ji)術。

WSAL技術有(you)兩種類(lei)(lei)(lei)型(xing),第一(yi)類(lei)(lei)(lei)建立一(yi)個從(cong)上到下的(de)管道,學習一(yi)個視(shi)頻級別的(de)分類(lei)(lei)(lei)器,通(tong)過(guo)檢查生成(cheng)的(de)時間分類(lei)(lei)(lei)動作地圖(TACM,temporal class activation map)來(lai)獲得幀注意力(frame attention)。第二類(lei)(lei)(lei)是(shi)從(cong)下到上的(de),直接從(cong)原始數據中(zhong)預測時間注意力(temporal attention),然后從(cong)視(shi)頻級監控的(de)視(shi)頻分類(lei)(lei)(lei)中(zhong)優化任務。

兩種方法(fa)都依賴于視頻級別的(de)分類(lei)模(mo)型,這會導致動作(zuo)和(he)上(shang)下文(wen)混淆(action-context confusion)的(de)問(wen)題。比(bi)如,在一段跳(tiao)遠(yuan)的(de)視頻中(zhong),跳(tiao)遠(yuan)動作(zuo)(action)僅包括接近、跳(tiao)躍、著(zhu)陸3個(ge)階段,但是工作(zuo)檢測模(mo)型常把準(zhun)備(bei)和(he)結(jie)束階段(context)也選中(zhong)。

微軟計算機視覺創研論壇首日干貨:3項前沿檢測技術解讀

研(yan)究(jiu)人員認為(wei),解(jie)決這一問題(ti)的關(guan)鍵在于(yu)找到動作(zuo)和(he)上(shang)下文之間的區別(bie)。他們用判別(bie)性注意(yi)力模型(Discriminative Attention Modeling)和(he)生成性注意(yi)力模型(GAM,Generative Attention Modeling)優化(hua)檢測工(gong)具,提出了判別(bie)性和(he)生成性注意(yi)力模型(DAGM,Discriminative and Gener-ative Attention Modeling)。

研究人員對比了DAGM模型(xing)與(yu)其他弱監督動作工具的(de)性(xing)能。結果顯(xian)示,DAGM模型(xing)的(de)性(xing)能較好,平均(jun)精度最高(gao)可達41。

微軟計算機視覺創研論壇首日干貨:3項前沿檢測技術解讀

三、TSD算法:把檢(jian)測(ce)工(gong)具精(jing)度提高3~5%

目標識別(bie)算法一般(ban)從兩個維度(du)檢測物(wu)體:分類(Classification)和回歸(Localization)。前者(zhe)指(zhi)識別(bie)物(wu)體的(de)屬性,后(hou)者(zhe)指(zhi)定(ding)位(wei)(wei)物(wu)體的(de)位(wei)(wei)置。

傳統檢(jian)測方法通(tong)常一起學習分類和(he)回(hui)歸,共(gong)享(xiang)物體(ti)潛在(zai)存(cun)在(zai)的區(qu)域框(Proposal)和(he)特(te)征提取器(qi)(Sibling head)。

這種(zhong)檢測方法的(de)局(ju)限性是最(zui)終輸(shu)出的(de)圖(tu)片框的(de)分(fen)類置信度和檢測框的(de)準確度不一(yi)致,識別準確率較低(di)。

研究人員發(fa)現,這(zhe)是(shi)因(yin)(yin)為分(fen)類任(ren)(ren)務(wu)和回歸任(ren)(ren)務(wu)存在(zai)差別:分(fen)類任(ren)(ren)務(wu)更關注(zhu)語義信息豐富的(de)(de)地方,回歸任(ren)(ren)務(wu)更關注(zhu)物體的(de)(de)邊界。因(yin)(yin)此,共享物體潛在(zai)存在(zai)的(de)(de)區(qu)域(yu)框(Proposal)和特(te)征提(ti)取器(Sibling head)會對檢測結果造成影響。

微軟計算機視覺創研論壇首日干貨:3項前沿檢測技術解讀

商湯科技X-Lab研究員宋廣錄介紹(shao)了基于任(ren)務間空(kong)間自適應解耦(TSD,task-aware spatial disentanglement)檢(jian)測算法(fa),即(ji)在檢測(ce)器(qi)頭部應用特定(ding)設計的(de)偏移量生成(cheng)策略以及(ji)聯合訓練優化漸進損失。結果顯(xian)示,搭配TSD算法(fa)的(de)檢測(ce)工具的(de)檢測(ce)精度能提高3~5%。

結(jie)語:CV研究面臨語義、魯棒(bang)性的挑戰

三(san)位(wei)研究(jiu)人員(yuan)分享結束后(hou),美國羅徹(che)斯特大(da)學羅杰波教授(shou)、加(jia)州大(da)學伯克利分校馬毅教授(shou)、加(jia)州大(da)學圣地亞哥分校屠卓文教授(shou)、美國加(jia)州大(da)學楊明玄教授(shou)、Wormpex AI Research華剛教授(shou)進行了圓(yuan)桌(zhuo)論壇。這5位(wei)教授(shou)都曾擔任過CVPR會議主席。

在題目(mu)選擇(ze)、寫作技(ji)巧方(fang)面,5位(wei)教(jiao)授對CV研(yan)(yan)究(jiu)者給出許多建議,比如,他們認(ren)為研(yan)(yan)究(jiu)者不必盲目(mu)追求研(yan)(yan)究(jiu)熱(re)點,而應該選擇(ze)自己感(gan)興趣的題目(mu);剛(gang)(gang)剛(gang)(gang)起(qi)步的研(yan)(yan)究(jiu)者可(ke)以(yi)借鑒成(cheng)熟研(yan)(yan)究(jiu)者的論(lun)文結構。他們強調,論(lun)文預印(yin)本(ben)網站arXiv上的論文質(zhi)量良莠不(bu)齊,研究者(zhe)在(zai)借鑒時應(ying)該注意甄(zhen)別(bie)。

另外,5位教授指出,目前CV研究(jiu)面臨的兩大主要挑(tiao)戰來(lai)自語義和魯棒性(xing)。對語義的理解(jie)關系著模型(xing)能否(fou)完成更高級(ji)別(bie)的任務。在醫療、無人機(ji)、航(hang)空航(hang)天等領域中(zhong),CV模型的魯(lu)棒性(xing)直接影響到安全。

因(yin)此,在(zai)之后的CV研究(jiu)中,提升CV模(mo)型對語義的理解能力和魯棒性仍是(shi)重點。