
芯東西(ID:aichip001)文 | 云鵬 心緣
芯(xin)(xin)東西3月5日(ri)消息,《Nature》刊登(deng)一則新研究(jiu),提(ti)供了一種新穎的AI視覺(jue)芯(xin)(xin)片研發方向。
維也納大(da)學的電(dian)氣工程師Lukas Mennel和(he)他的同事們研發了一種新型的超高速機器(qi)視覺設備,用圖像傳感器(qi)將圖像處(chu)理速度提升至傳統技術的數(shu)千(qian)甚(shen)至上萬倍。
Mennel介紹說:“我們(men)的(de)圖(tu)像傳感器在工作(zuo)時(shi)不會(hui)消耗任何電能,被檢(jian)測(ce)的(de)光(guang)子(zi)本身就可以作(zuo)為(wei)電流(liu)供能。”
他著重(zhong)提到,傳(chuan)統的機器視(shi)覺技術通常(chang)能夠每(mei)秒處理100幀(zhen)(zhen)圖像,一些更快的系統則可(ke)以每(mei)秒處理1000幀(zhen)(zhen),相比之(zhi)下,“我(wo)們的系統每(mei)秒可(ke)以處理2000萬幀(zhen)(zhen)。”
據悉(xi),其視覺系(xi)統設計(ji)模仿了大腦(nao)對信息(xi)處理的(de)方式,只用納(na)秒級時(shi)間就能完成簡單圖像的(de)分類。
Nature?579, 32-33 (2020)
doi: 10.1038/d41586-020-00592-6
?一、將圖像傳感器變成人工神經網絡
現代圖像傳感器最早在1970年代初開發出來,主要分為電荷耦合器件和有源像素傳感器兩種類型。
這些傳感器能(neng)從環境中準確捕獲(huo)視覺(jue)信息,但同時(shi)也(ye)會生成大量冗余(yu)數(shu)據(ju),而傳感器與處理(li)單元之間(jian)大量數(shu)據(ju)的(de)移動,往往會導(dao)致高功耗和延遲問題。
如今(jin)汽車(che)、機器人、工業制造等領域的視(shi)覺應用都對延遲(chi)非(fei)常敏感,要(yao)求盡可能實(shi)現(xian)實(shi)時(shi)處理和(he)決策,而(er)受帶(dai)寬限(xian)制,把所(suo)有(you)數據都送到(dao)云(yun)端處理很(hen)難解決延時(shi)問題,邊緣計算(suan)逐漸(jian)成為剛需。
另外,由(you)于傳感器(qi)通常會產(chan)生模(mo)擬輸出,而模(mo)數轉換既(ji)耗時又耗能,因(yin)此(ci)模(mo)擬處(chu)(chu)理(li)要好過數字(zi)處(chu)(chu)理(li)。
維也(ye)納大學(xue)研(yan)究人員們(men)試圖通過減少中間步驟來加快機器視覺,他們(men)直接在圖像傳感器中實現(xian)了(le)人工神經網絡(ANN)。
▲ 輸入信息在視覺傳感器內進行計算,實現(xian)智能,高效的預處理
傳統AI視覺傳感器(qi)的處理過程如圖(a)所示,傳感器(qi)收集信號,通過模數(shu)轉換器(qi)(ADC)將(jiang)模擬信號轉換為數(shu)字信號,放大(da)后輸入到外部人工神(shen)經網絡(ANN),經參數(shu)調(diao)優訓(xun)練神(shen)經網絡。
ANN的(de)輸入層(ceng)接收(shou)編碼簡(jian)單(dan)物(wu)理(li)元(yuan)素的(de)信號(點、線(xian)),這些信號在隨后(hou)(hou)的(de)層(ceng)中(zhong)被優化為中(zhong)級(ji)特征(簡(jian)單(dan)形(xing)(xing)狀),最(zui)后(hou)(hou)在輸出層(ceng)上形(xing)(xing)成(cheng)精細的(de)圖像(3D形(xing)(xing)狀),總體(ti)響應(ying)可能(neng)很慢(man)而且(qie)耗能(neng)。
而(er)Mennel等人研發(fa)的視覺(jue)系統如圖(b)所示(shi),芯片上的互連傳感器(qi)(正方形)不僅(jin)可以采集信(xin)號,而(er)且還可以用作ANN來(lai)識別簡單特征,從而(er)減少了傳感器(qi)和外部電路(lu)之(zhi)間的冗余數(shu)據移動。
二、傳感器中集成權重,減少冗余數據移動
研究人員(yuan)們在芯片上構建了(le)一個光電二極(ji)管網絡。
這(zhe)些光(guang)電二(er)極管是(shi)對(dui)光(guang)敏(min)感的(de)微小單元(yuan),每個(ge)單元(yuan)都包(bao)含幾個(ge)原(yuan)子層的(de)二(er)硒化鎢,二(er)硒化鎢是(shi)一(yi)種可調節光(guang)響應(ying)的(de)二(er)維半導體材料。
▲浮柵光電二極管示意圖
通(tong)過更(geng)改施加的電(dian)壓,可以增加或(huo)減少該(gai)半導體(ti)對光的響應,從(cong)而分(fen)別調節每個二極管的靈敏(min)度。
改變光電二(er)極(ji)管的(de)光響應(ying)性,會改變網絡中的(de)連接權重。
▲epoch 1和(he)epoch 30時的編碼(ma)器光(guang)響應(ying)值(左)和(he)解(jie)碼(ma)器權(quan)重(zhong)(右)
相當于把網絡的訓練(lian)結果直接(jie)放在(zai)傳感器端,不(bu)用經(jing)過把訓練(lian)權重送(song)到(dao)外部存儲器這一過程。
這就將光電傳感器網絡(luo)變成(cheng)了神經網絡(luo),并使其能夠執行簡單的計(ji)算任務(wu)。
▲ ANN光電二極管陣列的電路
三、功能演示:分類和自動編碼
研究人員們(men)將(jiang)光電二極(ji)管排(pai)列成9個(ge)像(xiang)素(su)的正方形陣列,每個(ge)像(xiang)素(su)3個(ge)二極(ji)管。
當圖(tu)像(xiang)投影到芯(xin)片(pian)上時,芯(xin)片(pian)會生(sheng)成、讀取各種二(er)極管產生(sheng)的電流。
硬件陣列提(ti)供了一種模擬計(ji)算形式:每個光電二極管(guan)都會產生與入(ru)射光強(qiang)度(du)成(cheng)比(bi)例的輸出電流,并且根據基爾霍夫(fu)定律(lv)將沿行(xing)或列得出的電流相加。
然后就(jiu)可(ke)以訓練陣列(lie)來(lai)執行(xing)相(xiang)應任務(wu)了。
▲訓(xun)練(lian)算法流程圖(tu)(藍色陰影框是(shi)與ANN光電二極管陣列(lie)的相互作用)
芯(xin)片外分析(xi)陣列(lie)產生的電(dian)流與預測電(dian)流之間的差異(yi),并用于調(diao)整突觸(chu)權重(zhong)以進行下一次訓練周期。
這個學習階段(duan)會(hui)(hui)占用時間和(he)計算資源(yuan),但是一旦(dan)經過(guo)訓練,該芯片就會(hui)(hui)迅速(su)執(zhi)行(xing)其設定(ding)的(de)任務。
使用不同神(shen)經網絡(luo)算法,該團隊演示了兩種神(shen)經形態功能(neng):分類和(he)自動編(bian)碼(ma)。
▲a:用于(yu)訓練分類(lei)器和自動編碼器的實(shi)(shi)驗設置(zhi);b:用于(yu)時間分辨測量的實(shi)(shi)驗設置(zhi)
(1)分類
他們用3×3像素陣列制(zhi)作了三個簡化字母(mu):n、v、z。
圖像(xiang)傳感器經訓(xun)練后,只需測量對應(ying)電路(lu)電流是否為0,就能在納秒級時間內識別該(gai)字母。
如果按比例增加陣列的大小(xiao),該神經網絡還可以識別更復雜的圖像。
▲識別“n”、“v”、“z”三個字母
(2)自動編碼
即使在存在信號噪聲(sheng)的情況下,該神經(jing)網絡也(ye)可(ke)以通過學習圖像的關鍵特征,來生成處理后圖像的簡化(hua)表(biao)示。
編碼器僅包(bao)含最基本(ben)的信息,但可以對其進行解碼以重建接近原(yuan)始(shi)圖像。
▲對有噪聲(sheng)圖像(xiang)的簡化表示
Mennel指出,系統運行的速度僅受電路中電子移動速度的限制。從原則上講,這種策略的工作速度可以達到數萬億分之一秒,或者比目前演示的速度快三到四個數量級。
▲分類器(a)和自動編碼器訓練(b)30 epoches的數據集,其測試數據噪聲水平分別為σ??= 0.4和σ??= 0.15
四、離落地還有距離
這樣的傳感器可以用來做什么(me)?
Mennel說:“目前,這(zhe)些主要用在特定(ding)的科(ke)學應用,例如,流體動(dong)力學、燃燒(shao)過程(cheng)或機械故障過程(cheng)可從更快的視覺(jue)數據獲(huo)取中受益。”
不過(guo),這(zhe)項(xiang)技術在(zai)實際落地(di)應用之前,還有許多工作要做。
首先(xian),用于自動駕駛車輛和機器(qi)人(ren)技術的(de)神經形態(tai)視覺系統,需要捕獲具有(you)廣闊(kuo)視野的(de)三維動態(tai)圖(tu)像(xiang)和視頻。
而當前使用的圖(tu)像(xiang)捕獲技術通常將3D現(xian)實世(shi)界轉換為2D信(xin)息,丟失運動信(xin)息和(he)深(shen)度,現(xian)有圖(tu)像(xiang)傳感(gan)器(qi)陣列的平面形狀也限制了(le)廣(guang)角相機的發展。
其次,該研究(jiu)描(miao)述的(de)設(she)備很(hen)難在(zai)昏暗的(de)光(guang)線(xian)下成像(xiang),需要(yao)重(zhong)新(xin)設(she)計(ji),以改善薄(bo)半導體中的(de)光(guang)吸收,并增加可以檢測到的(de)光(guang)強(qiang)度范圍(wei)。
再者,該設計需要高電壓并消耗大量功率。相比之下,生物神經網絡中每項操作的能量消耗為10?-15至10?-13焦(jiao)耳。擴展(zhan)對紫外線和紅外光的(de)響應,以捕獲在可見光譜不可用的(de)信息也(ye)是有用的(de)。
另外所使用的薄半導體難以在大面積(ji)上(shang)均(jun)勻地(di)生產,并且難以加工(gong),因此(ci)它們(men)可(ke)以與硅(gui)電(dian)子器件集(ji)成(cheng)在一起(qi),例如用于讀出或反饋控(kong)制(zhi)的外部(bu)電(dian)路。
使用(yong)這(zhe)些傳感(gan)器的設備的速度和(he)能源效率將不取決(jue)于(yu)圖像捕獲過程,而是取決(jue)于(yu)傳感(gan)器和(he)外部電路之間的數據(ju)移動。
而且,盡管傳感器計算單(dan)元在模(mo)擬域中采(cai)集和計算數(shu)據,減(jian)少(shao)了(le)模(mo)數(shu)轉換,但是(shi)外(wai)圍(wei)電路(lu)仍然存在固有延遲問(wen)題(ti)。傳感器和外(wai)部電路(lu)將(jiang)需要共(gong)同開發來(lai)減(jian)少(shao)整個系統的等待時間。
結語:實時邊緣計算的創新路徑
Mennel及其同(tong)事的(de)“傳感器中計(ji)算”系統是對AI硬件(jian)研究非常有(you)趣的(de)探索。
此前(qian)少數公(gong)司已(yi)經(jing)開(kai)發了(le)基(ji)于硅電(dian)子的(de)AI視覺芯片(pian),但這些芯片(pian)的(de)固有(you)數字體(ti)系結(jie)構往(wang)往(wang)帶來延遲和電(dian)源(yuan)效率問題。
更廣泛地說,該研(yan)究團隊的策(ce)略不僅限于(yu)視覺系統,它可以擴展到用于(yu)聽覺、觸覺、熱(re)感以及嗅覺等其他(ta)物理輸入(ru)。
此類智能系統的開(kai)發以及5G高速無(wu)線網絡的到(dao)來,會讓實時(shi)(低延(yan)遲)邊緣計算成為(wei)可能。
文章來源:IEEE,Nature