智東西(公眾號:zhidxcom)
編譯?| ?程茜
編輯 | ?李水青

智(zhi)東西10月15日(ri)消息,Facebook在(zai)AR領域投入了大(da)量時間和金(jin)錢,包括與雷朋(peng)(Ray-Ban)合作,打造自(zi)己的(de)AR眼鏡。目前,這些(xie)小工(gong)具只能(neng)(neng)記錄和共享(xiang)圖(tu)像,未來Facebook又(you)將(jiang)會賦予它們什么功(gong)能(neng)(neng)?

Ego 4D是Facebook在(zai)AI領(ling)域的(de)一個(ge)長(chang)期項目,旨在(zai)增強AI從第一人稱視(shi)角理解世界(jie)并與(yu)人類互動的(de)能(neng)力,解決(jue)研究AI對以自我為中心的(de)感知(zhi)時面臨的(de)挑戰。

昨天(tian),Facebook宣布開(kai)源(yuan)Ego 4D(Egocentric?4D Perception)計劃(hua)數據集,該計劃(hua)是對第一(yi)人稱(cheng)或“以自我為中心(xin)”的視(shi)頻(pin)(pin)進行(xing)分析,由(you)兩個主要部分組成(cheng):一(yi)個開(kai)放的以自我為中心(xin)的視(shi)頻(pin)(pin)數據集和(he)一(yi)系(xi)列Facebook將在未來(lai)賦(fu)予(yu)AI系(xi)統的基(ji)準。

據(ju)(ju)稱(cheng),該數據(ju)(ju)集的(de)開源大(da)大(da)增(zeng)加了在研究界公開可(ke)用的(de)第一人稱(cheng)視(shi)頻的(de)數據(ju)(ju)量,鏡頭時長比任(ren)何其(qi)他數據(ju)(ju)集都高出(chu)至(zhi)少20倍。

一、面向AR,讓AI從第一人稱視角理解世界

Facebook開源Ego 4D數據集,3000小時第一人視角視頻,向AR元宇宙躍進

此前,AI通常從第三人(ren)稱拍攝的(de)照片和視(shi)頻中(zhong)進(jin)行學習,但(dan)下(xia)一代AI將需要從第一視(shi)角來展示世界的(de)視(shi)頻中(zhong)學習。

以此來(lai)看,能夠理解世界的(de)AI系(xi)統將會開啟沉浸式體驗的(de)新時代,因為在未來(lai)AR眼鏡(jing)和(he)VR頭顯(xian)等設備將會和(he)智(zhi)能手機一樣日常。

Ego 4D計劃試想讓AI系(xi)統能夠使用第一人(ren)稱視角不斷分(fen)析(xi)人(ren)們的生活(huo),通過(guo)記(ji)錄人(ren)們的所(suo)見所(suo)聞(wen)所(suo)做(zuo),以幫助他們完成日(ri)常(chang)任務(wu)。

但目(mu)前(qian),任(ren)何AI系統都無法可(ke)(ke)靠地完成此(ci)類(lei)任(ren)務,Facebook強調這是一個研究項(xiang)目(mu),而不是商業開發項(xiang)目(mu)。然而,可(ke)(ke)以很明顯地看出,Facebook將(jiang)這些功能視為AR計算的未來(lai)。“當(dang)然,考慮到增強現實(shi)以及我們希望能夠用它做什么,未來(lai)我們可(ke)(ke)能會對這項(xiang)研究加(jia)以利(li)用。”Facebook AI研究科(ke)學家克里斯汀·格勞曼(Kristen Grauman)在(zai)接受外媒The?Verge采訪時表(biao)示。

但Facebook的野心對用戶(hu)的隱(yin)私(si)(si)數據(ju)具有巨(ju)大影(ying)響。隱(yin)私(si)(si)專家已經(jing)對 Facebook的AR眼鏡表示擔心,該(gai)設備(bei)如(ru)(ru)何讓佩戴者隱(yin)蔽地(di)記錄(lu)其他(ta)公(gong)眾成員,而(er)不會(hui)竊取他(ta)人的數據(ju)。如(ru)(ru)果(guo)未來版本的硬(ying)件將佩戴者變成行(xing)走(zou)的監視機器,用戶(hu)不僅(jin)可(ke)以記錄(lu)鏡頭,而(er)且會(hui)分析和轉錄(lu),只會(hui)加劇這種(zhong)擔憂。

二、數據集:855人3205小時視頻,跨越歐洲中亞

Facebook開源Ego 4D數據集,3000小時第一人視角視頻,向AR元宇宙躍進

Ego 4D計劃包含兩個(ge)任(ren)務(wu),分(fen)別是(shi)推進開放的(de)以自我為中心的(de)視頻數(shu)據集和(he)推進AI系(xi)統完成(cheng)一(yi)系(xi)列基準或任(ren)務(wu)。

Facebook與全球9個(ge)國家(jia)13所大(da)學和(he)實驗室合作收集數(shu)據(ju)。最新數(shu)據(ju)顯示總共(gong)有大(da)約(yue)3,205小時的(de)鏡頭,由居住在9個(ge)不同國家(jia)的(de)855名參與者(zhe)(zhe)錄(lu)制。參與者(zhe)(zhe)佩戴GoPro相(xiang)機(ji)和(he)AR眼鏡來錄(lu)制無腳本活(huo)動的(de)視頻,視頻內容(rong)包(bao)括建筑工作、烘焙(bei)、與寵物玩(wan)耍和(he)與朋(peng)友交往等行為。

13所大學負責(ze)數據(ju)收(shou)集(ji),并對部分圖像(xiang)內容進行處理,會對所有(you)鏡頭進行去標(biao)識化處理,其中包括模(mo)糊(hu)旁觀者的(de)面部并刪除所有(you)的(de)個(ge)人(ren)身份信息。

格勞曼表(biao)示(shi),該數據集(ji)“在規模和(he)多樣性方(fang)面都是同類中的(de)(de)首創(chuang)”。她說,同類中位于(yu)第二的(de)(de)數據集(ji)僅包含100小時,且完全位于(yu)廚房拍(pai)攝的(de)(de)第一人(ren)稱鏡(jing)頭。“我(wo)們讓這些AI系統的(de)(de)視(shi)野(ye)不僅僅面向英國和(he)西西里島(dao)的(de)(de)廚房,還有來自沙(sha)特阿拉伯(bo)、東京、洛(luo)杉磯和(he)哥倫比亞的(de)(de)鏡(jing)頭。”

三、五大基準挑戰:情景記憶、社交互動

Facebook開源Ego 4D數據集,3000小時第一人視角視頻,向AR元宇宙躍進

Ego 4D的(de)第二個組成(cheng)部(bu)分是一系列基準(zhun)或任務,Facebook希望世界各地的(de)研究人員使用在其(qi)數據集上訓練的(de)AI系統,去嘗試解決這些問題。Facebook為開(kai)發更(geng)智能、更(geng)有用的(de)AI助手(shou)制定了以下五個基準(zhun)挑戰,

1、情景記憶(Episodic memory):什(shen)么(me)時(shi)候發生的(例如,“我把鑰匙放(fang)哪兒了?”)

2、預測(Forecasting):接下(xia)來我可能會做(zuo)什么(例如(ru),“等等,你已經在(zai)這個食譜中加了鹽”)

3、手和物體操作(Hand and object manipulation):我在做什么(例如,“教(jiao)我如何打鼓”)

4、視聽日記(Audio-visual diarization):誰在什么(me)時候說什么(me)(例如,“課堂上的主要(yao)話題是什么(me)?”)

5、社交互動(Social interaction):誰(shui)在(zai)與誰(shui)互動(例(li)如(ru),“在(zai)這嘈雜的餐(can)廳(ting)里幫助我更好地聽到對話者的聲音”)

目前,AI系(xi)統對上述問題的解決都非常困(kun)難,但創建數據(ju)集(ji)和基準測試(shi)是一種長效(xiao)方法,可以(yi)刺激AI領域的發展(zhan)。

事實(shi)上,ImageNet項目已經作為創建一個特(te)定的(de)(de)數(shu)(shu)據集和(he)相(xiang)關(guan)的(de)(de)年度競賽而存在,該項目是一個用于(yu)視覺對象識別軟件研(yan)究(jiu)(jiu)的(de)(de)大型可視化數(shu)(shu)據庫(ku),通常被認為掀起了最近的(de)(de)AI熱潮(chao)。ImagetNet數(shu)(shu)據集由研(yan)究(jiu)(jiu)人員(yuan)訓(xun)練AI系統,對大量不同對象圖片(pian)進行(xing)識別而得到(dao)的(de)(de)數(shu)(shu)據組成(cheng)。2012年,該比賽的(de)(de)獲勝者(zhe)使用一種特(te)殊的(de)(de)深(shen)度學習方法,擊敗了競爭對手,開啟了當前的(de)(de)研(yan)究(jiu)(jiu)時代。

Facebook希(xi)望(wang)其Ego 4D項目能夠對AR領域產生(sheng)類似的影響(xiang)。該公司表示,在Ego 4D上訓練的系統有(you)朝一(yi)日不僅可以用于可穿戴相機,還可以用于家(jia)庭助理機器(qi)(qi)人(ren),這些機器(qi)(qi)人(ren)也(ye)將依靠第(di)一(yi)人(ren)稱相機來(lai)分析周圍世界(jie)。

“該項目有(you)機會以一(yi)種尚未真(zhen)正實現的(de)(de)方式(shi),對該領域(yu)的(de)(de)工(gong)作(zuo)起到促進(jin)作(zuo)用。”格勞(lao)曼說,“為了將我們的(de)(de)領域(yu)從(cong)分析人(ren)類拍攝的(de)(de)大(da)量照(zhao)片和視(shi)頻(pin)的(de)(de)能力(li),轉移到這(zhe)種流(liu)動的(de)(de)、持(chi)續的(de)(de)第一(yi)人(ren)稱(cheng)視(shi)覺流(liu),AR系統、機器(qi)人(ren)需要(yao)在連續的(de)(de)背景下理解活動。”

四、Facebook“黑料”頻出,數據隱私引爭議

Facebook不斷(duan)探索AI領域(yu),開發人(ren)工智能監(jian)控系統(tong)。盡管Facebook概述(shu)的任務(wu)確實(shi)看起來很實(shi)用,但(dan)該(gai)公司(si)在這(zhe)一領域(yu)的繼(ji)續探索會讓很多(duo)人(ren)感到擔(dan)憂(you)。

原因在于Facebook在隱私方面的記錄(lu)非常糟(zao)糕,曾經發(fa)生過(guo)數據泄露事件,并收到聯(lian)邦貿易(yi)委員會(hui)(FTC)對其?50億美元的罰款。它還反復表明,該公(gong)司在許多領域只重視增長(chang)和參與,而不是用戶的利益。

令人(ren)(ren)擔憂的(de)是,這個(ge)Ego 4D項目中的(de)基準不包括突(tu)出的(de)隱(yin)私(si)保護(hu)措(cuo)施。例如,“視聽日記”功能可(ke)以轉(zhuan)錄不同人(ren)(ren)所說(shuo)的(de)內(nei)容(rong),從未提及刪除有關(guan)不想被記錄的(de)人(ren)(ren)的(de)數據。

當被問及這些問題時(shi),Facebook的(de)(de)(de)一(yi)(yi)位發言人(ren)(ren)在(zai)(zai)接(jie)(jie)受外媒The Verge采訪時(shi)表(biao)示(shi),它預計將(jiang)進一(yi)(yi)步引(yin)入(ru)隱私保護措施(shi)。發言人(ren)(ren)說:“我們(men)(men)預計,在(zai)(zai)公司使用此(ci)(ci)數據集和(he)基準開(kai)發商(shang)業應用程序的(de)(de)(de)范圍(wei)內,他(ta)(ta)(ta)(ta)們(men)(men)將(jiang)為此(ci)(ci)類應用程序開(kai)發保護措施(shi)。例如(ru),在(zai)(zai)AR眼(yan)鏡可以增強某(mou)人(ren)(ren)的(de)(de)(de)聲(sheng)音之前,他(ta)(ta)(ta)(ta)們(men)(men)可能(neng)會(hui)遵循一(yi)(yi)個協(xie)議來征求其(qi)他(ta)(ta)(ta)(ta)人(ren)(ren)的(de)(de)(de)眼(yan)鏡許可,或(huo)者他(ta)(ta)(ta)(ta)們(men)(men)可以限制設備的(de)(de)(de)范圍(wei),使其(qi)只能(neng)從正在(zai)(zai)與(yu)佩戴者交談或(huo)在(zai)(zai)其(qi)附近的(de)(de)(de)人(ren)(ren)那里(li)接(jie)(jie)收聲(sheng)音。”

但到目(mu)前(qian)為止,此類保障措施仍只是假設(she)性的。

結語:Facebook大步邁向元宇宙

Facebook以(yi)(yi)第一人(ren)(ren)稱視(shi)頻數(shu)據訓練人(ren)(ren)工(gong)智能(neng)模型,有(you)望開辟新的具有(you)沉浸(jin)式甚至是自我意識(shi)的AI,從(cong)而應用在(zai)AR、機器(qi)人(ren)(ren)等(deng)領域。結(jie)合其今年以(yi)(yi)來對元宇宙的推崇,可以(yi)(yi)想象(xiang)這個非商業化的項(xiang)目日后可能(neng)發揮更(geng)大的商業價值。

值得一提的(de)(de)是(shi)(shi),用(yong)(yong)戶(hu)隱私與(yu)數(shu)據分析的(de)(de)界限(xian)如何(he)把(ba)握,Facebook將AI系統落地時如何(he)讓用(yong)(yong)戶(hu)信賴(lai),能夠讓更多用(yong)(yong)戶(hu)參與(yu)其中,這(zhe)是(shi)(shi)橫跨在Facebook與(yu)發展AI系統面前的(de)(de)鴻溝。

來源、Facebook、The Verge