
智東西(公眾號:zhidxcom)
作者 | 楊暢
編輯 | Panken
智東西7月(yue)25日消息,近日,由耶魯-新加坡國(guo)立大學(xue)學(xue)院(Yale-NUS College)副(fu)教(jiao)授Robby Tan領導的研究團隊,在2021年(nian)國(guo)際計(ji)算(suan)機視覺與模(mo)式識別會議(yi)(CVPR)上發表了三(san)項研究,介紹利(li)用計(ji)算(suan)機視覺技(ji)術提高錄制時受(shou)環境因(yin)素(su)影響視頻的分析(xi)準確度。
這(zhe)三項研(yan)究(jiu)分(fen)別優化了(le)解決降雨因(yin)素、夜間因(yin)素和人群密集環境因(yin)素這(zhe)3種視頻分(fen)析中較(jiao)常(chang)見(jian)問題的(de)方法,均可用于改善監控設備、自(zi)動(dong)駕駛汽車、視頻游戲(xi)和體(ti)育節(jie)目轉播(bo)等(deng)與(yu)計算機視覺相關(guan)的(de)應用性(xing)能。
第一(yi)項研究介紹科研人員(yuan)利用幀(zhen)對齊(qi)和深(shen)度估計等(deng)方法,實現(xian)同時處理雨天錄制視(shi)頻(pin)中雨水(shui)條紋和雨幕(mu)效(xiao)果這兩種(zhong)主要影響視(shi)頻(pin)清(qing)晰度的問題。
該論文題目為《具有傳輸深度一致性的自(zi)對齊(qi)視頻去(qu)降(jiang)雨影響(Self-Aligned Video Deraining with Transmission-Depth Consistency)》,發表在2021年國際計(ji)算(suan)機視覺與模式(shi)識(shi)別會議(會議時間6月(yue)(yue)19至(zhi)6月(yue)(yue)25日(ri))上。
論文地址:
//openaccess.thecvf.com/content/CVPR2021/papers/Yan_Self-Aligned_Video_ Deraining_With_Transmission Depth_Consistency_CVPR_2021_paper.pdf
第(di)二(er)項研(yan)究是研(yan)究人員通過訓練(lian)半監督(du)網絡來(lai)增加視頻動態范圍和(he)抑制光(guang)效應,更徹底地解決了夜間視頻清晰度問題。
該論文題目(mu)為《通過增加動態范(fan)圍和(he)抑制燈光效果(guo)來增強夜間能見度(Nighttime Visibility Enhancement by Increasing the Dynamic Range and Suppression of Light Effects)》,發表(biao)在(zai)2021年(nian)國際計算機視覺與模式識(shi)別(bie)會議(yi)上(shang)。
論文地址:
//openaccess.thecvf.com/content/CVPR2021/papers/Sharma_Nighttime_Visibility_Enhancement_by_ Increasing_the_Dynamic_Range_and_Suppression_CVPR_2021_paper.pdf
第三(san)項研究(jiu)同樣也(ye)是(shi)處(chu)理環(huan)境(jing)因(yin)素的影響(xiang)(xiang),但不是(shi)雨(yu)天和(he)夜間這種(zhong)(zhong)自(zi)然環(huan)境(jing)因(yin)素,而是(shi)視頻(pin)中(zhong)出(chu)現人(ren)(ren)群密集這種(zhong)(zhong)社會場景因(yin)素影響(xiang)(xiang)。研究(jiu)人(ren)(ren)員結合(he)自(zi)頂向下和(he)自(zi)底向上方法(fa),提高了估計(ji)視頻(pin)中(zhong)3D人(ren)(ren)體姿態準確度,進而提升了視頻(pin)處(chu)理效果。
該論文題目(mu)為《基于自(zi)頂向下和自(zi)底向上網絡的(de)單目(mu)三維多人(ren)姿態估計(Monocular 3D Multi-Person Pose Estimation by Integrating Top-Down and Bottom-Up Networks)》,發表在2021年(nian)國際計算機視覺(jue)與(yu)模式識別會議上。
論文地址:
//openaccess.thecvf.com/content/CVPR2021/papers/Cheng_Monocular_3D_Multi-Person_Pose_Estimation_by_Integrating_Top-Down_and_Bottom-Up_CVPR_2021_paper.pdf
一、計算機視覺分析易受環境影響
計算機(ji)視覺技術越來越多(duo)地(di)應(ying)用于(yu)自動監控系統(tong)、自動駕駛汽(qi)車、人臉識別、護理和(he)社交距離工具等領域。
用(yong)戶需要準確可(ke)靠的視覺信息,才能(neng)充分(fen)(fen)利(li)用(yong)視頻分(fen)(fen)析應用(yong)程序(xu)優勢,但是視頻數據質量通(tong)常(chang)會(hui)受到環(huan)境(jing)(jing)因素(su)影響,例(li)如拍攝時在(zai)下雨或處于夜(ye)間環(huan)境(jing)(jing),以及視頻圖(tu)像中(zhong)存在(zai)人(ren)群(qun)(一個(ge)場(chang)景中(zhong)有(you)多個(ge)重疊的人(ren)的圖(tu)像)這三種(zhong)較常(chang)見情況(kuang)。這三種(zhong)場(chang)景在(zai)實際(ji)中(zhong)可(ke)能(neng)單(dan)獨出現,也可(ke)能(neng)混合出現。
具(ju)體來說,下雨降低視頻能見度的原因包括雨水(shui)流(liu)下產生(sheng)的條紋和雨水(shui)積聚(或稱雨幕效(xiao)果)。
雨水條紋部分會(hui)遮(zhe)擋背景外觀,導致(zhi)視頻圖像(xiang)場景看起來模(mo)糊。雨水積聚就像(xiang)出現(xian)霧一樣,會(hui)沖淡場景顏色,降低視頻整體對比度并產生遮(zhe)蔽效果。這兩者都會(hui)降低場景能見(jian)度,因此,要(yao)獲得更(geng)好的視頻背景場景視覺信息,人們就需要(yao)去(qu)除視頻中雨水條紋和雨水積聚問題。
而晚(wan)上拍(pai)(pai)攝的(de)視頻存在的(de)問題,跟(gen)在雨中(zhong)拍(pai)(pai)攝的(de)視頻存在的(de)問題有差(cha)異。
夜晚拍(pai)攝(she)會(hui)受到光(guang)(guang)照(zhao)變(bian)化(hua)和多個人造光(guang)(guang)源(yuan)影響(xiang),夜間(jian)視頻圖(tu)像不僅存在低光(guang)(guang)區域,還(huan)有(you)輝(hui)光(guang)(guang)燈(deng)、眩光(guang)(guang)燈(deng)和泛光(guang)(guang)燈(deng)照(zhao)射區域,這會(hui)嚴重(zhong)降低圖(tu)像可見度。因此,通(tong)過提高低光(guang)(guang)區域強(qiang)度來增強(qiang)夜間(jian)圖(tu)像可見性,同(tong)時抑制(zhi)夜間(jian)光(guang)(guang)效(xiao)應(輝(hui)光(guang)(guang)、眩光(guang)(guang))是一(yi)項重(zhong)要(yao)任務。
除了下(xia)雨和夜間等因素影響,當場(chang)景中出現很多(duo)人對(dui)于視頻分析來講(jiang)也是一大挑戰(zhan)。
由于其對(dui)現實(shi)世界應用很重要,基于單目(單個相機拍攝的(de)視(shi)頻)的(de)3D人體姿態估計技(ji)術已引起了越來越多(duo)關注。但是,這(zhe)個技(ji)術存在(zai)挑戰,就是當場景中(zhong)存在(zai)多(duo)個人時,人多(duo)會產生(sheng)遮(zhe)擋,導致人體檢測錯(cuo)誤(wu)以及人體關節分組識別不可靠。
為了解決視頻分(fen)析中遇到(dao)的這些影響準(zhun)確性的環(huan)境因素問題(ti),Robby Tan和來自中國(guo)香港城市(shi)大學、瑞士(shi)蘇黎世聯邦理(li)工(gong)學院(yuan)和騰訊游戲人工(gong)智能研究中心研究人員(yuan)一(yi)起進(jin)行了三項(xiang)研究,分(fen)別提(ti)高(gao)雨天(tian)視頻、夜間視頻和有人群密集(ji)場(chang)景視頻處(chu)理(li)準(zhun)確性。
二、研究一:幀對齊和深度估計消除視頻中雨水影響
針(zhen)對(dui)雨(yu)(yu)天錄制視頻中存在的(de)(de)問題,研究人(ren)(ren)員先用合成降(jiang)雨(yu)(yu)視頻(帶有地(di)面(mian)實(shi)況)和(he)真實(shi)降(jiang)雨(yu)(yu)視頻(沒有地(di)面(mian)實(shi)況)來(lai)訓練對(dui)齊(qi)網(wang)絡(luo)(luo),然后(hou)研究人(ren)(ren)員使用基于特(te)征的(de)(de)對(dui)齊(qi)網(wang)絡(luo)(luo)去(qu)對(dui)齊(qi)幾個連續的(de)(de)輸入幀(zhen)。最(zui)后(hou),對(dui)齊(qi)網(wang)絡(luo)(luo)根據相鄰幀(zhen)的(de)(de)對(dui)齊(qi)特(te)征,刪除(chu)每一幀(zhen)中的(de)(de)雨(yu)(yu)條紋。
處理雨(yu)幕問題,研究人員使(shi)用(yong)了積累網絡,利用(yong)從視頻中獲得的深度線索(suo),結合去(qu)除雨(yu)水條(tiao)紋的圖像,最終輸出無(wu)雨(yu)水影響的圖像。
▲消除下雨環境影響的圖(tu)像處理流程
從效果上來看三種方(fang)法(fa)都相(xiang)較于之(zhi)前(qian)方(fang)法(fa)有所改進。與(yu)現(xian)有專注于去除(chu)雨水條紋(wen)方(fang)法(fa)不(bu)同,新方(fang)法(fa)可以同時(shi)去除(chu)雨水條紋(wen)和(he)雨幕效果。
▲從上到下,第(di)一張圖時輸(shu)入(現有方法(fa)),中(zhong)間圖顯示去除(chu)雨痕(hen)(hen)的(de)中(zhong)間輸(shu)出(chu),第(di)三(san)張是使用研究團(tuan)隊(dui)新方法(fa)去除(chu)雨水痕(hen)(hen)跡和雨幕效果的(de)最終輸(shu)出(chu)
三、研究二:半監督網絡被用于優化夜間圖像
處理(li)夜間視(shi)頻目標是,通過(guo)同時(shi)增加動(dong)態范圍(以處理(li)低(di)光(guang)(guang)和(he)過(guo)度曝(pu)光(guang)(guang)區域)和(he)抑制(zhi)光(guang)(guang)效應(輝光(guang)(guang)、眩光(guang)(guang)等)來提(ti)高其可見性。
研究(jiu)人(ren)員提出一個半監(jian)督(du)網(wang)絡(luo)(luo),使用(yong)(yong)配(pei)對圖(tu)像(高動態范圍成像的地面實(shi)況)來訓練(lian)半監(jian)督(du)網(wang)絡(luo)(luo)以(yi)增加動態范圍,并(bing)使用(yong)(yong)未配(pei)對的圖(tu)像(沒有(you)地面實(shi)況)來訓練(lian)半監(jian)督(du)網(wang)絡(luo)(luo)以(yi)抑制燈光(guang)效果,得到兩種訓練(lian)網(wang)絡(luo)(luo)。
具體(ti)操作(zuo)是(shi)研究人(ren)員首先使(shi)(shi)用線性化網絡估計輸入(ru)夜(ye)間圖(tu)(tu)像(xiang)的逆(ni)條件隨機場(CRF),獲得(de)線性化圖(tu)(tu)像(xiang)后,將其分(fen)解為低(di)頻(pin)(光(guang)場,LF,包(bao)含(han)輝光(guang)、眩光(guang)效果)和高頻(pin)(同態(tai)濾(lv)波,HF,包(bao)含(han)噪聲(sheng)、紋(wen)理(li)(li)等效果)特(te)征(zheng)圖(tu)(tu)。光(guang)場特(te)征(zheng)圖(tu)(tu)和同態(tai)濾(lv)波特(te)征(zheng)圖(tu)(tu)使(shi)(shi)用訓練得(de)到的兩個網絡來,分(fen)別(bie)抑制光(guang)效應和去除噪聲(sheng)。最后將處理(li)(li)過的光(guang)場特(te)征(zheng)圖(tu)(tu)和同態(tai)濾(lv)波特(te)征(zheng)圖(tu)(tu)融合并(bing)輸出。
▲消除(chu)夜間環境影響的圖像(xiang)處理流程(cheng)
夜間(jian)(jian)視(shi)頻圖像(xiang)新技術同樣解決了以(yi)前方法處理不徹底的問題(ti):夜間(jian)(jian)圖像(xiang)以(yi)及(ji)視(shi)頻中因為(wei)眩(xuan)光不能被忽視(shi)時(shi)對于視(shi)頻清(qing)晰度的影(ying)響。
▲上(shang)面四張圖是研(yan)究人(ren)員采用新方法(fa),抑制光(guang)效并產生增(zeng)強能見度;下面三張圖是現有方法(fa),無法(fa)處理(li)的光(guang)學效果(如眩(xuan)光(guang)),還錯誤增(zeng)強了它(ta)
四、研究三:結合兩種3D人體姿態估計方法,實現更可靠輸出
而針對3D人(ren)體姿態估(gu)計問題(ti),研(yan)究人(ren)員通(tong)過結合兩種現有方(fang)法(即自頂向下(xia)方(fang)法和自底向上方(fang)法)來(lai)估(gu)計視(shi)頻中的(de)3D人(ren)體姿態。
自頂向下網(wang)(wang)絡被用來估計每個檢(jian)測到的邊界框內的人(ren)(ren)體關節(jie),生成聯合熱圖(tu)(heatmap)反饋到自底向上網(wang)(wang)絡,自底向上網(wang)(wang)絡同(tong)樣也進(jin)行估計生成圖(tu)像(xiang)。最(zui)后研究人(ren)(ren)員將自頂向下和(he)自底向上網(wang)(wang)絡輸出的3D估計姿態輸入到集成網(wang)(wang)絡中,以獲(huo)得給定圖(tu)像(xiang)序列的最(zui)終3D姿態估計圖(tu)像(xiang)。
▲3D人體姿態估(gu)計改進流(liu)程
3D 人體(ti)姿(zi)態(tai)新方法則(ze)可以產(chan)生更(geng)(geng)可靠的(de)姿(zi)態(tai)估(gu)計,并更(geng)(geng)穩健地處理個體(ti)之間距離(或尺(chi)度變化(hua))。
▲從上到下,第(di)(di)一(yi)張是輸(shu)入圖;第(di)(di)二(er)張是采(cai)取自(zi)頂向(xiang)下方(fang)法,受人際遮(zhe)擋(dang)影響(xiang);第(di)(di)三張是自(zi)底向(xiang)上方(fang)法,對尺寸(cun)(3D)變(bian)化很敏(min)感;第(di)(di)四張是研究人員提(ti)出(chu)的新方(fang)法
結語:避免物理環境干擾,是計算機視覺熱點
計(ji)算機視(shi)覺技(ji)術(shu)在應(ying)用時(shi)會受到各(ge)種各(ge)樣的影響(xiang),不止是下雨、夜晚或(huo)者出現人群等情況(kuang),比如白天光(guang)(guang)線過強(qiang)、攝(she)像頭處于逆光(guang)(guang)角度等因(yin)(yin)(yin)素(su)(su)也會影響(xiang)計(ji)算機視(shi)覺技(ji)術(shu)的處理效果(guo)。有時(shi)視(shi)頻中只會有一種環境因(yin)(yin)(yin)素(su)(su)影響(xiang)分析(xi)(xi)準確性,有時(shi)會混合出現多種,這種情況(kuang)下針對每(mei)個因(yin)(yin)(yin)素(su)(su)都需要分別(bie)研(yan)究最(zui)優方法,最(zui)后才能分因(yin)(yin)(yin)素(su)(su)逐步優化視(shi)頻分析(xi)(xi)結果(guo)。
計(ji)(ji)算(suan)機(ji)視覺是人工智(zhi)能最廣泛的技術方向之一,如何減少物理環境對(dui)計(ji)(ji)算(suan)機(ji)視覺應用方面影(ying)響仍是持(chi)續性熱點話題。
來源:Yale-NUS College