
智東西(公眾號:zhidxcom)
文 | CJ
3月9日,由智東西主(zhu)辦(ban)的GTIC 2018全球AI芯片(pian)創新峰(feng)會(hui)在上海召開,大會(hui)邀請到(dao)32名(ming)(ming)重(zhong)磅嘉賓到(dao)場分享,超(chao)過一萬名(ming)(ming)觀(guan)(guan)眾(zhong)報名(ming)(ming),會(hui)場內座無虛席,會(hui)場外甚(shen)至還有大量來晚(wan)的觀(guan)(guan)眾(zhong)直接選擇(ze)就地(di)觀(guan)(guan)看直播。
在這(zhe)次(ci)大會中(zhong),觸景(jing)無限CEO肖洪波以“前(qian)端(duan)智(zhi)能(neng)(neng)為安(an)(an)防(fang)(fang)產生新的(de)數據價(jia)值”為題做(zuo)了精(jing)彩的(de)演講。對(dui)于安(an)(an)防(fang)(fang)中(zhong)越來越重要的(de)前(qian)端(duan)智(zhi)能(neng)(neng),觸景(jing)無限有著許多不同的(de)看法(fa), 以下(xia)是智(zhi)東西整理的(de)演講干貨。
一、傳統監控技術無法滿足現有需求
觸景(jing)(jing)無限創立于2010年,一直專注做智(zhi)能感知,在2016年,觸景(jing)(jing)無限開始(shi)步入安防領(ling)域,致力于為(wei)安防攝像頭以及無人機(ji)等提(ti)供智(zhi)能感知能力。
隨著(zhu)技術的提升(sheng)和市場的發展,如今的安(an)(an)防已經和以前完全不同。首先,大(da)(da)量(liang)的安(an)(an)防數(shu)(shu)(shu)據對傳(chuan)統安(an)(an)防系統提出挑(tiao)戰。攝像頭(tou)的傳(chuan)感(gan)器(qi)每天都會(hui)產生大(da)(da)量(liang)的數(shu)(shu)(shu)據,單個高清攝像頭(tou)就需要10Mb/s的帶寬(kuan),2億攝像頭(tou)需要2Pb/s的存(cun)儲空間。安(an)(an)防數(shu)(shu)(shu)據體量(liang)非常大(da)(da),大(da)(da)到需要5000個YouTube才(cai)能存(cun)儲所(suo)有攝像頭(tou)的視頻數(shu)(shu)(shu)據。
其次,傳(chuan)統監控技術無法滿(man)足現有需(xu)求。在很多(duo)場景(jing)下,很多(duo)時候的(de)監控是存(cun)儲后(hou),靠人(ren)力來做篩查,或者是攝(she)像頭的(de)數據傳(chuan)輸到云端,然后(hou)通(tong)過(guo)云端來做計算分析。因此,傳(chuan)統監控技術的(de)實(shi)時性不夠(gou)好。
想象一個無人機在飛(fei)行過程中要做周(zhou)圍物體識別,通過雙(shuang)目攝像頭判(pan)斷(duan)周(zhou)圍距離做避障,如果我們需要把數(shu)據傳到(dao)(dao)云端(duan),云端(duan)有可能要排隊,如果附近的(de)無人機同(tong)時(shi)也(ye)在往云端(duan)上傳數(shu)據,兩邊的(de)數(shu)據得不到(dao)(dao)及時(shi)的(de)處理,這(zhe)樣就可能會導致“撞機”。
此外,由(you)于(yu)安防的(de)(de)發展(zhan),用在家庭(ting)里的(de)(de)攝(she)像(xiang)頭也(ye)越來越多(duo)了,在如家庭(ting)的(de)(de)場景中,傳(chuan)(chuan)統的(de)(de)服務器處(chu)理(li)需要把這樣的(de)(de)非常隱(yin)私的(de)(de)數(shu)據聯(lian)網(wang)傳(chuan)(chuan)輸到云端進行分(fen)析(xi)計算,所以傳(chuan)(chuan)統監控(kong)技術(shu)也(ye)無法(fa)保障(zhang)一些場景下(xia)視(shi)頻數(shu)據的(de)(de)隱(yin)私性(xing)。
與此同(tong)時,和傳統的(de)(de)(de)對(dui)視頻編碼進(jin)行有損(sun)壓縮不同(tong),在前端很容(rong)易(yi)能獲(huo)取原始數據,可(ke)以(yi)(yi)直(zhi)接在原始數據上進(jin)行處理(li),并且(qie)處理(li)結(jie)(jie)果可(ke)以(yi)(yi)重(zhong)新(xin)回饋到傳感器(qi)底(di)(di)層(ceng),可(ke)以(yi)(yi)利用智能分(fen)析的(de)(de)(de)結(jie)(jie)果對(dui)底(di)(di)層(ceng)SP( Subspace Pursuit,子(zi)空間追蹤)算(suan)法做優化(hua),從而獲(huo)取更好(hao)的(de)(de)(de)數據質(zhi)量。
二、多維度感知真實世界
因此,前(qian)端(duan)智能(neng)憑著(zhu)實時性、隱私性、降低后端(duan)壓力(li)和提升后端(duan)效(xiao)率(lv)和質量(liang)等優勢成為了安防的升級趨勢之一。在會后接(jie)受智東(dong)西專(zhuan)訪時,肖洪波(bo)也提到,未來(lai)5年會有越來(lai)越多(duo)的帶有前(qian)端(duan)感知能(neng)力(li)的電(dian)子產品進入(ru)市場。如何利用(yong)傳感器的感知能(neng)力(li)挖掘更多(duo)有價值(zhi)的數據,將是(shi)一個(ge)重要的課題(ti)。
除了圖片、視(shi)頻外,前端智能還可以通過多個數(shu)據維度(du)來感知(zhi)自身所處的真實(shi)世界,比(bi)如聲(sheng)音、測距、地理(li)位置、激光(guang)測距、氣(qi)壓、高度(du)等。觸景無限希望在(zai)(zai)前端把傳(chuan)感器的數(shu)據融合在(zai)(zai)一起,提供多維的數(shu)據,在(zai)(zai)數(shu)據的基礎之上(shang)再做人工(gong)智能的分析(xi)。
因(yin)為真實(shi)世界中(zhong),人(ren)所(suo)觀察到的(de)(de)(de)數據(ju)本身就是有(you)關聯的(de)(de)(de)而不(bu)是割裂(lie)的(de)(de)(de)。人(ren)會結(jie)合(he)多種信(xin)(xin)(xin)息綜合(he)分(fen)(fen)析(xi)(xi),比如把一些(xie)距離(li)信(xin)(xin)(xin)息和圖象信(xin)(xin)(xin)息做(zuo)融合(he),或者說(shuo)把熱(re)感信(xin)(xin)(xin)息和圖象做(zuo)融合(he),而當我們有(you)多維(wei)度數據(ju)再分(fen)(fen)析(xi)(xi)的(de)(de)(de)時候(hou),往往可以分(fen)(fen)析(xi)(xi)出更有(you)價值的(de)(de)(de)信(xin)(xin)(xin)息。
比如說聲(sheng)音的(de)(de)信(xin)息,前端智能(neng)讓攝(she)像(xiang)頭可(ke)(ke)以通過(guo)耳機(ji)陣列判斷聲(sheng)音傳來(lai)的(de)(de)方向和角度,可(ke)(ke)以把現(xian)場發(fa)(fa)來(lai)的(de)(de)呼救、槍聲(sheng)、玻璃(li)破(po)碎的(de)(de)聲(sheng)音和攝(she)像(xiang)頭來(lai)進行聯動。這樣(yang)的(de)(de)話,當發(fa)(fa)生突發(fa)(fa)事件(jian)的(de)(de)時候,攝(she)像(xiang)頭可(ke)(ke)以通過(guo)聲(sheng)音的(de)(de)信(xin)息調節攝(she)像(xiang)頭拍下(xia)合(he)適的(de)(de)圖片、視頻。
在(zai)前(qian)端獲(huo)取(qu)數(shu)據(ju)后,前(qian)端需(xu)要(yao)提供比較微觀的(de)(de)(de)(de)(de)數(shu)據(ju)可測量用(yong)于未(wei)來(lai)對前(qian)端設備的(de)(de)(de)(de)(de)預測。所謂的(de)(de)(de)(de)(de)微觀主要(yao)是(shi)在(zai)時間(jian)的(de)(de)(de)(de)(de)維度(du),在(zai)毫秒(miao)級維度(du)對數(shu)據(ju)進行測量。以火車(che)站(zhan)場景(jing)為例,當距離很遠的(de)(de)(de)(de)(de)時候人臉(lian)是(shi)非常小的(de)(de)(de)(de)(de),甚至(zhi)小到(dao)無法做人臉(lian)識(shi)別(bie),這樣的(de)(de)(de)(de)(de)數(shu)據(ju)沒(mei)有價值。而在(zai)距離很近的(de)(de)(de)(de)(de)時候,人臉(lian)角度(du)可能(neng)因為光照的(de)(de)(de)(de)(de)條件而變得不適合抓(zhua)拍。因此,前(qian)端所要(yao)做的(de)(de)(de)(de)(de)就是(shi)確定在(zai)哪(na)一幀、哪(na)一個點做合適的(de)(de)(de)(de)(de)抓(zhua)拍,這就需(xu)要(yao)前(qian)端攝像頭能(neng)根據(ju)周圍的(de)(de)(de)(de)(de)場景(jing)不斷地做調整(zheng)。
三、“在螺絲里做道場”:前端智能面臨三大挑戰
前端智能(neng)和(he)云端相比,雖然具有(you)很多優點(dian),但是同時(shi)也面臨三大挑戰:模(mo)型參(can)數大、實時(shi)要求高、運算能(neng)力弱。
對(dui)此,肖洪波表示,前(qian)端智(zhi)能是“在(zai)螺絲里做道場”,前(qian)端運(yun)(yun)算力(li)有限、功耗也很低(di)(di),所以需(xu)要把散(san)熱、功耗做的非常低(di)(di)。在(zai)運(yun)(yun)算力(li)有限的情(qing)況下,需(xu)要做模型壓縮、優化(hua)(hua),這些最后會(hui)轉(zhuan)化(hua)(hua)成數(shu)學上的優化(hua)(hua)問(wen)題(ti),從而對(dui)整(zheng)個(ge)模型進行優化(hua)(hua)。所以,前(qian)端嵌(qian)入式的人工智(zhi)能研究是很多底(di)層的優化(hua)(hua)工作(zuo)。
而對于這(zhe)三大(da)挑(tiao)戰,觸景(jing)無限認為除(chu)了感知數(shu)據以外,還需引入時(shi)間(jian)(jian)(jian)維度(du)的數(shu)據。通過帶時(shi)間(jian)(jian)(jian)維度(du)的視頻數(shu)據,可以實現多(duo)攝(she)像頭(tou)(tou)之間(jian)(jian)(jian)的聯動,在前端獲得(de)更多(duo)信息,這(zhe)樣的加入時(shi)間(jian)(jian)(jian)維度(du)的多(duo)攝(she)像頭(tou)(tou)場景(jing)叫做前端攝(she)像頭(tou)(tou)的感知陣列。
肖洪波說(shuo),通常的(de)模(mo)型都(dou)是(shi)基于卷積(ji)神經網絡,用圖(tu)象處理(li)(li)的(de)方(fang)式來處理(li)(li)視頻(pin)。實際前端(duan)處理(li)(li)過(guo)程(cheng)當中,會碰到大(da)量的(de)視頻(pin)數據,而視頻(pin)數據本身是(shi)帶有時間維(wei)度的(de),只是(shi)以前處理(li)(li)的(de)時候被忽略了。
因此(ci)通(tong)過這樣(yang)的(de)多攝像頭的(de)聯動,可以判斷一個人在多攝像頭里的(de)身份,實現軌跡追蹤。這樣(yang)可以對(dui)未(wei)來進行預測(ce),通(tong)過時(shi)間維度(du)預測(ce)以后(hou),實現在前端處理人工智能AI模型(xing)的(de)優化處理,獲得(de)更(geng)好(hao)的(de)處理性能。
觸景(jing)無限通過邊緣智能(neng)(neng)感知(zhi)(zhi)終(zhong)端集(ji)群(SENS)可(ke)以(yi)實現多攝像頭(tou)的(de)(de)聯動,這(zhe)是一(yi)個(ge)智能(neng)(neng)感知(zhi)(zhi)的(de)(de)模組(zu),體積很(hen)小,大概和一(yi)塊錢(qian)人民(min)幣硬(ying)幣一(yi)樣(yang)大,通過這(zhe)個(ge)模組(zu),可(ke)以(yi)實現擴攝像頭(tou)追蹤、識(shi)別,從而形成局部的(de)(de)前端感知(zhi)(zhi)陣列。
除(chu)了多攝(she)像頭聯動外,感知數(shu)據的(de)(de)優化也(ye)非(fei)(fei)常(chang)重(zhong)要(yao)。比如,在(zai)一個非(fei)(fei)常(chang)逆光的(de)(de)場景,人(ren)臉(lian)的(de)(de)后面有一個非(fei)(fei)常(chang)亮(liang)的(de)(de)燈(deng),人(ren)臉(lian)處于逆光環境,呈現(xian)在(zai)鏡頭前其(qi)實是黑的(de)(de),而通過算法處理以后可以把人(ren)的(de)(de)臉(lian)拍的(de)(de)非(fei)(fei)常(chang)清楚,在(zai)非(fei)(fei)常(chang)強逆光的(de)(de)情況下(xia)也(ye)可以獲得非(fei)(fei)常(chang)清晰的(de)(de)圖象。
在前(qian)(qian)端,觸(chu)景無限實現(xian)了算法(fa)模(mo)型(xing)優(you)化工廠(chang),提供嵌(qian)入式DPU、FPGA,幫助安防廠(chang)商的(de)產品(例(li)如攝像頭(tou))獲(huo)得(de)前(qian)(qian)端的(de)感知能力。在2017年,觸(chu)景無限推出了前(qian)(qian)端抓(zhua)(zhua)拍(pai)系統(tong)瞬視,基(ji)于英特(te)爾Movidius芯片打造,可以(yi)在前(qian)(qian)端實現(xian)不跳楨的(de)人臉(lian)抓(zhua)(zhua)拍(pai),單幀(zhen)圖像可實現(xian)100張(zhang)人臉(lian)抓(zhua)(zhua)拍(pai),并(bing)且(qie)可以(yi)針對特(te)定(ding)區域進行(xing)圖象的(de)優(you)化(比如強逆光(guang))。
結語:安防的前端智能不止人臉識別
提到安防,總會(hui)第一個想(xiang)到人臉(lian)識(shi)(shi)(shi)別(bie),大家經常會(hui)看到不同新聞(wen)中的(de)人臉(lian)識(shi)(shi)(shi)別(bie)的(de)算法準(zhun)確度將近100%的(de)數據,但是當思考(kao)如何將AI落地(di)安防這個問題時,要想(xiang)的(de)絕不僅僅只(zhi)有狹義的(de)人臉(lian)識(shi)(shi)(shi)別(bie)而已。
人臉識別前的數(shu)據采(cai)集如何(he)(he)優化(hua),如何(he)(he)抓拍到高質(zhi)量(liang)的圖片,采(cai)集后如何(he)(he)將多種數(shu)據智能結(jie)合(he)分析挖(wa)掘其背后更大的價(jia)值,這(zhe)些問(wen)題都(dou)非常值得思考。