車東(dong)西(公眾號:chedongxi
| 曉寒

39日,上周五(wu),由(you)車東(dong)西(xi)兄弟單位智東(dong)西(xi)主辦(ban)的GTIC 2018全球AI芯片(pian)創新峰會在上海召(zhao)開(kai),大(da)會邀(yao)請到來自芯片(pian)、安防、汽車(che)和(he)消費電子等(deng)領域的近40位業界(jie)翹楚到場分享研發(fa)AI芯片的經歷(li)與思考。

地平線黃暢:BPU為什么比CPU/GPU更適合自動駕駛? | GITC 2018

▲GTIC現場

整場(chang)大(da)會有超過(guo)1萬(wan)人報名(ming)(ming),并且有(you)數千名(ming)(ming)觀眾到場,乃(nai)至于出現了大量觀眾因為沒座而不(bu)(bu)得不(bu)(bu)站在大廳外(wai)面觀看電視直(zhi)播(bo)的情況。

在大會下(xia)午場的自動駕(jia)駛加速落地,AI芯片引領(ling)計(ji)算平(ping)臺板塊,地平線公(gong)司(si)的聯合創始(shi)人、算法副總裁黃暢(chang)做了主(zhu)題為(wei)《AI芯片在(zai)自動駕駛的(de)應用實踐》的(de)主題演講,就地平線公司的(de)產品研發歷程、AI芯片與(yu)傳統(tong)計算芯片的區別等關(guan)鍵(jian)問題進行了(le)分享,下面為黃暢演講的要點精析。

地平線黃暢:BPU為什么比CPU/GPU更適合自動駕駛? | GITC 2018

▲黃暢

一、AI算法與AI芯片(pian)齊頭并進(jin)

地平線(xian)由前百(bai)度百(bai)度研究(jiu)院副院長(chang)、百(bai)度深度學習實驗室主(zhu)任余凱創辦(ban)于20157月,致力于為B端用戶提供涉及算法(fa)和硬件在內完整的嵌入式(shi)人工智能(neng)解決方案(機器人大(da)腦),說白一點就(jiu)是其(qi)完整方案里既包(bao)含有AI算法,又(you)有AI芯(xin)片,還有(you)工具鏈和云服務(wu)。

地平線黃暢:BPU為什么比CPU/GPU更適合自動駕駛? | GITC 2018

▲余凱

黃暢(chang)表示(shi),機器人大腦需(xu)要做的(de)不僅僅包括圖像(xiang)和視(shi)頻感知(zhi),還包括語音、語義處理,以及決策、規(gui)劃等比(bi)較復雜比(bi)較高階的(de)人工智能程序,同時也(ye)需(xu)要非常關(guan)注解決方案的(de)性能、成本、功(gong)耗的(de)平(ping)衡,因此地平(ping)線在研發(fa)之初(chu),也(ye)遇(yu)到了一(yi)些困難。

那么(me)地平線為什么(me)要(yao)選擇這樣一條看上(shang)去(qu)比(bi)較(jiao)復雜比(bi)較(jiao)困難的路(lu)徑呢?黃暢解釋(shi)稱(cheng)是受(shou)到圖靈獎獲得者、現(xian)代計算(suan)機的奠基人Alan Kay的影(ying)響(xiang)。

據黃暢介紹,Alan Kay不僅(jin)提出(chu)了面向對(dui)象編程(cheng)設計(ji)的概(gai)念,還曾說過(guo)一句(ju)對(dui)目(mu)前(qian)IT產(chan)業影(ying)響深遠的名言——“如果你真的關注軟(ruan)件,就應(ying)該做自己(ji)的硬件。正是這句名言(yan),也(ye)促使喬布斯(si)一直堅持軟硬件一體的產(chan)品開發策略,打造(zao)出了蘋果這樣的頂級科技巨頭。

同樣的,Alan Kay這句名(ming)言,也激勵了包括余凱、黃暢等人在(zai)內的地平線團隊走(zou)上了軟硬(ying)結(jie)合的道(dao)路。

二、地平線的3代AI芯片架構

黃暢在GTIC現場講到,如果按照(zhao)智能(neng)決策處理順序,AI可(ke)以分(fen)成感知、建模、決(jue)策和規(gui)劃三(san)個階段,基于(yu)這種(zhong)分(fen)類,地平線也對應規(gui)劃了名為高(gao)斯、伯努利和貝葉斯的三(san)代BPU架構。

地平線黃暢:BPU為什么比CPU/GPU更適合自動駕駛? | GITC 2018

▲地(di)平線3代(dai)BPU架(jia)構

201712月,地平(ping)線(xian)正式推(tui)出了兩款AI芯片——征(zheng)程1.0和旭日1.0。雖然兩者都基于高斯架(jia)構打造(zao)而來,但(dan)是用處卻大(da)相徑庭,征程(cheng)面向(xiang)的是智能駕駛(shi)后裝(zhuang)市場,而旭日(ri)則主攻(gong)智能攝像頭領域(yu)。

黃暢(chang)稱,從AI處(chu)理器的發展變革可以(yi)看(kan)出,越(yue)(yue)是(shi)面向(xiang)專(zhuan)門計算的芯片架構越(yue)(yue)能達(da)到更好的功耗性(xing)能比,因此地平線(xian)就在高斯架構的(de)(de)基礎(chu)上同時推(tui)出了這兩款芯片,每(mei)款芯片都針對相應的(de)(de)領域進行專門設計,從而有利(li)于發揮出最大運算效能(neng)。

性能上,征(zheng)程1.0處(chu)理器能(neng)夠處(chu)理攝(she)像頭拍攝(she)的(de)1080P@30幀的視頻流,并最多對其中200+個物體(ti)進行實時的跟蹤和(he)識(shi)別(bie),涉及行人、機動車、非機動車、車道線、交通(tong)標(biao)志牌、紅(hong)綠燈(deng)等多類交通(tong)元素,可(ke)實現FCW前部碰撞預警、LDW車道偏離預警等駕駛輔助功能。此外(wai),地平線還推出了(le)基于征程1.0芯片(pian)的(de)量(liang)產后裝ADAS產品。

黃暢表示,地平線做第一代芯(xin)片還是比(bi)較順利的,但(dan)是也存在(zai)(zai)約束(shu)和限制(zhi)。在(zai)(zai)第二代BPU架構伯(bo)努利中,地平(ping)線(xian)增加(jia)了(le)其圖像(xiang)識別的(de)細(xi)粒(li)度,并加(jia)入(ru)了(le)建模的(de)能力。在基于FPGA進行(xing)驗證(zheng)的階段,伯努利架構就已經可同時處(chu)理來自攝像(xiang)頭、雷達、激光(guang)雷達等傳感器的最多8路數(shu)據(ju),以期能(neng)在其(qi)上做無人車(che)所(suo)必須的傳感器數(shu)據(ju)融合功能(neng)。

由(you)于細粒(li)度得以(yi)提升(sheng),黃(huang)暢稱(cheng)其第(di)二代BPU架構能夠在像素(su)級(ji)別進行感(gan)知,能夠更精確(que)地(di)分辨出路(lu)(lu)面、人體、汽車(che)、建筑、樹木等物體,進行圖像分割。此外,更精準、更多路(lu)(lu)的(de)感(gan)知結果(guo)將(jiang)最終(zhong)為環境的(de)建模服務,可以從各個(ge)角度進行(xing)觀(guan)測(ce)。

地平線黃暢:BPU為什么比CPU/GPU更適合自動駕駛? | GITC 2018

▲二代BPU感知能力演示

從黃暢(chang)在現場通過視頻(pin)演示了基于伯努利架構(gou)的早期產品(pin)(FPGA)在高速公路(lu)、城市道路(lu)上(shang)進(jin)行(xing)感知測試的視頻來看,第二代BPU架構的(de)計算能力確(que)實較強(qiang),不(bu)管(guan)是(shi)識(shi)別、追蹤還是(shi)語義分割,都有不(bu)錯的(de)效(xiao)果(guo)。

三、用BPU提升AI計算效率

黃暢在進行完視頻(pin)演(yan)示后講到,其利用(yong)BPU給自動駕駛(shi)提供感(gan)知能力的(de)核心理念(nian)是在不同尺度(du)的(de)空間中進行信息的(de)融合,利用了非常底層的(de)配準對齊,利用冗余度(du)降(jiang)低復(fu)雜(za)度(du)等軟(ruan)件技術(shu)。

但他同時也強調道,僅有算(suan)法的進(jin)步是不(bu)夠的,如(ru)果只有算法的(de)進步,而(er)計算的(de)原器件(jian)(處理器)不相(xiang)應(ying)進行迭代,就無(wu)法體現新技(ji)術的(de)優勢(shi)。即(ji)使經過精(jing)密設計過的(de)CPUGPU通用處(chu)理器也遠遠不能(neng)滿(man)足現今的(de)計(ji)算(suan)需求,使得(de)器件利用率(lv)變得(de)相當低。

為此,地平(ping)線才推(tui)出了自主(zhu)設計(ji)研發的BPU架構。據黃暢介紹,地平(ping)線的BPU是一款典型的異構多(duo)(duo)指令多(duo)(duo)數據的系(xi)統,架構中心(xin)處理器是完整的系(xi)統,存(cun)儲器架構設計進(jin)行了(le)特(te)別優化,能(neng)使(shi)數據自由傳遞,進(jin)行多(duo)(duo)種計算,讓(rang)不(bu)同部件同時運轉起來,提高AI運算的效(xiao)率。

地平線黃暢:BPU為什么比CPU/GPU更適合自動駕駛? | GITC 2018

▲BPU架構

那么為什么通用處理(li)器的算(suan)理(li)就(jiu)不如BPU呢?

除(chu)了上述(shu)異構多(duo)指(zhi)令多(duo)數據流(liu)計算(suan)(suan)架(jia)構對多(duo)種算(suan)(suan)法的支持,黃暢解(jie)釋道,如果(guo)按照(zhao)通用(yong)處理器的(de)(de)方法去做的(de)(de)話會非(fei)常難取(qu)舍(she),如果(guo)脫離開應(ying)用(yong)場景、算(suan)法不斷迭代以(yi)及對算(suan)法的(de)(de)預估,其實你對每個東(dong)西的(de)(de)取(qu)舍(she)以(yi)及規(gui)模大小是無從下手的(de)(de)。而恰恰我(wo)們更加(jia)關注應(ying)用(yong),關注算(suan)法的(de)(de)取(qu)舍(she),因此其在對芯片架構的(de)(de)取(qu)舍(she)、規(gui)模以(yi)及元器件(jian)的(de)(de)掌握(wo)都比較準確(que)。

結(jie)語:AI芯(xin)片(pian)時代開啟

近兩年,已經(jing)有幾十年歷史的(de)老技(ji)術——人工智能迅(xun)速(su)躥紅(hong),不僅(jin)出(chu)現在(zai)了科技(ji)圈,還出(chu)現在(zai)了電視、手(shou)機、音箱、APP,甚至是政府(fu)工作報告里,其火熱(re)程(cheng)度可見一斑(ban)。而這輪人工智能(neng)熱(re)潮的崛起(qi),又與深(shen)度學習和(he)神經網絡等底層技術(shu)密(mi)切相關。

在深(shen)度學習框架、AI算法等軟件技術演進的同時,AI相關硬件也在發(fa)生變化(hua)。

2011年,谷歌等AI先行者(zhe)主要使用CPU來推進AI項目,2012年,百度(du)深度(du)學(xue)習實驗室引(yin)入了業內比較前沿的(de)通過GPU來運行深度學習算法的玩法。

但(dan)需要指出的是,雖然適合并行(xing)計算的GPU天生比CPU更適合做深度(du)學習運算,但GPU與(yu)CPU本質上(shang)也(ye)都屬于通用處理器,因此其在深度學習這(zhe)種單一領域,其單位(wei)計算性(xing)能(neng)不如ASIC這(zhe)種特(te)定用途的處理器那么強,乃(nai)至也不(bu)如可編(bian)程的FPGA

而隨著深度(du)學習、神經網(wang)絡等底層技(ji)術的持(chi)續演進與AI技術(shu)在自動駕駛、智慧(hui)(hui)城(cheng)市(shi)、智慧(hui)(hui)金融(rong)等領域(yu)的落地與部(bu)署(shu),人工(gong)智能(neng)(neng)技術(shu)對計算能(neng)(neng)力的需求繼續快速提(ti)升。

因此(ci),百度深度學(xue)習(xi)實驗室(shi)在(zai)2014年又(you)將FPGA引入(ru)了AI運算中;地(di)平線在2015年(nian)推出了BPU架構;谷歌在2016年又推出了(le)TPU等專用(yong)的AI芯片,進而正式拉開了AI芯(xin)片時代的大幕。

地平線黃暢:BPU為什么比CPU/GPU更適合自動駕駛? | GITC 2018