
芯東西(公眾號:aichip001)
編輯 | 高歌
智東西6月4日(ri)消息,近日(ri)GTIC 2021嵌入(ru)式AI創(chuang)新峰(feng)會在(zai)北京圓滿收官!在(zai)這(zhe)場全(quan)天座(zuo)無(wu)虛席、全(quan)網直播觀看人數逾150萬(wan)次的(de)高規格產業(ye)峰(feng)會上,來自產業(ye)鏈上下游的(de)16位大佬共聚一堂,圍繞嵌入(ru)式AI的(de)軟硬件生態(tai)創(chuang)新、家居AIoT、移動機(ji)器(qi)人和工業(ye)制造產業(ye)4大版塊地(di)圖,帶(dai)來了深入(ru)淺出(chu)的(de)分享。
會上,安謀中國AI技術高級市場經理吳彤以《構建AI智能“芯”生態》為題,對當前AI芯片發展趨勢以及安謀自研人工智能專用處理器IP“周易”AIPU進行解讀。
如今行業已進入以數據為驅動的計算時代,也稱為第五波計算浪潮,從網絡架構到計算架構都產生了大量需求。依托Arm世界領先的生態系統資源與技術優勢,安謀中國面向國內市場獨立研發了“周易”AIPU。
▲安(an)謀(mou)中國AI技術高級市場經理吳彤
吳彤談到當下AI芯(xin)片市(shi)場(chang)有四大發展趨勢(shi),一是端側芯(xin)片市(shi)場(chang)增速非常高(gao),二是未來5-10年端側推(tui)理市(shi)場(chang)的增速最快,三是ASIC定制(zhi)化芯(xin)片將成為未來的主流,四是細(xi)分市(shi)場(chang)規模將會保(bao)持高(gao)速增長。
另一方面,AI芯片行(xing)業專用架構(gou)(DSA)正在(zai)興(xing)起(qi),主流AI算(suan)法也(ye)呈現輕量化趨勢。在(zai)這(zhe)些(xie)趨勢下(xia),安謀中(zhong)國(guo)自研的“周(zhou)易”AIPU擁有(you)完全自主可控(kong)、完整(zheng)生態等(deng)特點,目前已經推出兩(liang)代產品,分別為“周(zhou)易”Z1和“周(zhou)易”Z2。
其中(zhong),“周易(yi)(yi)”Z1是(shi)邊緣計(ji)算(suan)通用(yong)的AI IP,面向IoT&Edge,基于(yu)“周易(yi)(yi)”Z1研發(fa)的全志R329智能(neng)語音芯(xin)片即將(jiang)大(da)規模(mo)商用(yong);“周易(yi)(yi)”Z2面向邊緣計(ji)算(suan)中(zhong)高性能(neng)場景,基于(yu)“周易(yi)(yi)”Z2開發(fa)的芯(xin)片也即將(jiang)應用(yong)落(luo)地,主要覆蓋(gai)中(zhong)高端安防(fang)和自(zi)動駕駛/智能(neng)座艙(cang)領域(yu)。
此(ci)外,吳彤還介紹了兩款AI IP的應用(yong)案(an)例,包括人(ren)體關鍵點檢測、駕駛員疲勞監測(DMS) 和DTV超級分辨(bian)率應用(yong)等。
以下是吳彤的演講實錄整理:
一、第五波計算浪潮或助推Arm芯片出貨超萬億
吳彤:首(shou)先(xian)感(gan)謝主(zhu)辦方智(zhi)東西的(de)邀請(qing),我是安(an)(an)謀(mou)中國AI技(ji)(ji)術市(shi)場吳彤。今(jin)天給大家帶來的(de)分享主(zhu)題《構(gou)建AI智(zhi)能“芯(xin)(xin)”生態(tai)》。我的(de)主(zhu)題分享分為三部(bu)(bu)分,第一部(bu)(bu)分是介(jie)紹整個(ge)Arm架構(gou)的(de)賦能情(qing)況(kuang)(kuang),第二部(bu)(bu)分是一個(ge)對AI芯(xin)(xin)片(pian)以(yi)及AIoT市(shi)場簡單的(de)分析(xi),最后(hou)一部(bu)(bu)分是我們(men)整個(ge)安(an)(an)謀(mou)中國自研的(de)AI IP“周易”兩代產品的(de)市(shi)場、技(ji)(ji)術情(qing)況(kuang)(kuang)。
首先,有一(yi)個概念叫(jiao)做(zuo)第五波計(ji)算(suan)浪潮,大(da)家都(dou)知道在(zai)以前最開始的(de)時(shi)(shi)候,我(wo)們有PC、個人(ren)計(ji)算(suan)、互(hu)聯網(wang)和移動(dong)互(hu)聯網(wang),可以稱(cheng)之(zhi)為前四波計(ji)算(suan)浪潮。什(shen)么叫(jiao)第五波計(ji)算(suan)浪潮?一(yi)句話總結,一(yi)個以數據(ju)為驅動(dong)的(de)計(ji)算(suan)時(shi)(shi)代。第五波計(ji)算(suan)浪潮主要(yao)特點除了芯(xin)片層面多(duo)樣(yang)化的(de)需(xu)求以外(wai),從網(wang)絡架(jia)(jia)構(gou),包括(kuo)從計(ji)算(suan)架(jia)(jia)構(gou)都(dou)有大(da)量的(de)需(xu)求產(chan)生。作為Arm的(de)一(yi)家生態型公司,我(wo)們一(yi)直在(zai)思考怎么樣(yang)在(zai)這個體系(xi)下通過和我(wo)們合作伙伴提供(gong)更多(duo)定制化的(de)服務,包括(kuo)架(jia)(jia)構(gou)以及芯(xin)片類的(de)創新,能夠(gou)賦能整個生態。
這是我們整個(ge)Arm的(de)一(yi)(yi)個(ge)從(cong)1991年(nian)(nian)一(yi)(yi)直(zhi)到(dao)(dao)現在Arm計算(suan)架構(gou)走(zou)向萬億(yi)級生態的(de)圖。大家可以看到(dao)(dao),從(cong)1991年(nian)(nian)一(yi)(yi)直(zhi)到(dao)(dao)2017年(nian)(nian)用了(le)26年(nian)(nian)的(de)時間(jian),(Arm)達到(dao)(dao)了(le)全球(qiu)第(di)(di)一(yi)(yi)個(ge)一(yi)(yi)千億(yi)芯片(pian)(pian)的(de)出貨(huo)量。從(cong)2017年(nian)(nian)到(dao)(dao)2021年(nian)(nian),其(qi)實我們只用了(le)四年(nian)(nian)時間(jian)就達到(dao)(dao)了(le)第(di)(di)二個(ge)一(yi)(yi)千億(yi)芯片(pian)(pian)的(de)出貨(huo)量,這個(ge)增長非常快(kuai)。(在)第(di)(di)五(wu)代計算(suan)浪潮的(de)驅動(dong)下,我們希望未來能達到(dao)(dao)一(yi)(yi)萬億(yi)芯片(pian)(pian)的(de)出貨(huo)量。
安謀中國(guo)(guo)從成立之初到現在,幾年內(nei),安謀中國(guo)(guo)在國(guo)(guo)內(nei)服務的(de)(de)客戶超過兩(liang)百(bai)家以上,在國(guo)(guo)內(nei)的(de)(de)(芯片)出貨量將(jiang)近兩(liang)百(bai)億。
二、端側AI芯片增速快,領域專用架構興起
下面(mian)給大家分享一下AI芯(xin)片以及整個AIoT市場(chang)整體的情況。這里有四張圖從AI芯(xin)片的市場(chang)規模、按場(chang)景、按架構、按應用層面(mian)對AI芯(xin)片的整體介紹。
1、AI芯片發展趨勢:端側增速最快
首先第一(yi)張圖是整個(ge)(ge)AI人工(gong)智能芯(xin)片的(de)市場規模,2017年到2025年接近十(shi)年的(de)區間,有一(yi)個(ge)(ge)趨勢可以(yi)看到,從紅色(se)數值可以(yi)看出,和云端(duan)相比,端(duan)側AI芯(xin)片的(de)市場增速非常高,尤(you)其在未(wei)來的(de)5—10年的(de)區間之內。
第(di)二張(zhang)圖是AI芯片按場(chang)景來劃(hua)分的(de)趨(qu)勢,這(zhe)個(ge)場(chang)景分成四塊,兩大部分。第(di)一(yi)個(ge)維(wei)度是整(zheng)個(ge)的(de)云(yun)(yun)端(duan),包括云(yun)(yun)端(duan)推理(li)(li)和(he)云(yun)(yun)端(duan)訓(xun)練。第(di)二維(wei)度Edge端(duan)側(ce),包括推理(li)(li)和(he)訓(xun)練。這(zhe)張(zhang)圖得出一(yi)個(ge)結論,在未(wei)來5—10年內,我們可以看(kan)到,在整(zheng)個(ge)端(duan)側(ce)包括云(yun)(yun)端(duan)還有Edge端(duan)推理(li)(li)市場(chang)的(de)增速是最快的(de)。
第三個圖是AI芯(xin)(xin)片(pian)按(an)架(jia)構(gou)劃(hua)分,能夠(gou)看(kan)(kan)到(dao)人工智能芯(xin)(xin)片(pian)所有看(kan)(kan)到(dao)的(de)主流架(jia)構(gou),包(bao)(bao)括(kuo)(kuo)GPU、FPGA、包(bao)(bao)括(kuo)(kuo)ASIC等等。從(cong)中也可(ke)以看(kan)(kan)到(dao),ASIC定制類的(de)芯(xin)(xin)片(pian)也會在未來的(de)五(wu)到(dao)十年內成為(wei)市場上(shang)的(de)一個主流。
最(zui)后一張圖,是(shi)按照人工智(zhi)能的細(xi)分(fen)垂(chui)直領(ling)域場(chang)景來看(kan),這里面我們(men)看(kan)到,手(shou)機端不用(yong)說(shuo)了(le),也是(shi)Arm比(bi)較主流的一個(ge)行(xing)業,手(shou)機端依然保持相對比(bi)較高速的增長。同(tong)時像可穿戴設備、包括(kuo)智(zhi)能音(yin)箱幾(ji)個(ge)細(xi)分(fen)市場(chang)未來幾(ji)年之(zhi)內也會保持比(bi)較高的增長。
2、AI芯片領域專用架構(DSA)開始流行
這(zhe)個(ge)是從垂直市場(chang)的(de)層面來講(jiang),我(wo)們談到(dao),整個(ge)人工智能芯片有一(yi)個(ge)比較(jiao)重(zhong)要的(de)概念叫DSA。談到(dao)之前,我(wo)們先看一(yi)個(ge)很有意思的(de)試(shi)驗,這(zhe)個(ge)試(shi)驗是一(yi)個(ge)算法(fa),這(zhe)個(ge)算法(fa)主要以矩(ju)陣(zhen)乘法(fa)為主。
我(wo)們(men)可(ke)以看到(dao),增速很(hen)快的(de)這(zhe)條曲(qu)線在不同(tong)的(de)硬件(jian)環(huan)境(jing)(jing)包(bao)括(kuo)軟件(jian)環(huan)境(jing)(jing)下做的(de)實驗。從最開始在Python環(huan)境(jing)(jing),第二個是在純(chun)C的(de)環(huan)境(jing)(jing)下做,再(zai)往后我(wo)們(men)加(jia)入(ru)了很(hen)多并(bing)行(xing)計算包(bao)括(kuo)memory優化、包(bao)括(kuo)目前主流的(de)SIMD助理,在不同(tong)的(de)體系架構下,同(tong)一套算法(fa)從最原始的(de)Python到(dao)最后的(de)SIMD形式(的(de)執行(xing)效率)增長63000多倍。
這個試驗說明什么問題?在我們現在AI芯片領域里面,其實DSA也就是專用架構可以處理特定領域的一些問題,目前甚至將來應該會成為一個主流。這種DSA我給大家舉一個例子,就是什么樣的(架構)屬于DSA呢?比較知名的像是NVIDIA GPU、包括很多網絡處理器芯片、包括現在我們比較熱門的NPU神經網絡處理器都可以理解為一種處理某些特定領域問題的架構,我們都(可以)叫DSA。
這是我們看到的目前、包括未來有可能AI芯片架構整體技術演進的趨勢。從最上面的GPU,以英偉達和AMD為代表,GPU本身做圖形處理,最開始不是給AI人工智能來用,英偉達為代表的這些公司在GPU里面做了大量改進,加入HWA(Hard·Wired·Accelerator),也就是我們叫TensorCore,把它(GPU)變成(cheng)面向人工智能領域很(hen)好的處理器(qi)芯片。
還(huan)有(you)一(yi)類(lei)也(ye)是傳統(tong)做信(xin)號(hao)處理(li)的DSP,現(xian)在也(ye)有(you)很(hen)多公司(si)把(ba)它變成人(ren)工(gong)智(zhi)能(neng)芯(xin)片,在DSP基礎上(shang)加入大量的MAC陣(zhen)列。比如英特爾收購(gou)的一(yi)家公司(si)較Habana他們的架構(gou)(gou)也(ye)是基于這個(ge)架構(gou)(gou)設計的。
另(ling)有一類,以(yi)ARM為代表的異(yi)構計(ji)算,加(jia)了CPU,同(tong)時也有DSA的專用領域,加(jia)入專業面(mian)向矩陣加(jia)速(su)(su)的HWA加(jia)速(su)(su)器,構成了一種(zhong)(zhong)異(yi)構計(ji)算模(mo)(mo)式。這種(zhong)(zhong)模(mo)(mo)式我們(men)認為,在目(mu)前包(bao)(bao)括未來將會(hui)成為主(zhu)流(liu),它可(ke)以(yi)同(tong)時滿足很好的PPA(Power Perform Area),包(bao)(bao)括各種(zhong)(zhong)能效比都(dou)會(hui)達到(dao)很高的數值(zhi)。
3、6大維度評判AI芯片
這里(li)是(shi)我們(men)根據很(hen)(hen)多客戶的(de)需求,我們(men)大概總結了一(yi)下(xia),當很(hen)(hen)多公(gong)司(si)都在(zai)談一(yi)款好的(de)AI芯片,不(bu)管你自己設(she)計還是(shi)用各種(zhong)成(cheng)熟的(de)IP也好,什么樣的(de)芯片才能稱之(zhi)為好的(de)AI芯片?我大概分了六個維度。
一顆好的(de)(de)(de)AI芯(xin)片經(jing)過各(ge)種國際主流的(de)(de)(de)benchmark評測,包括像MLPerf;像人工智能聯盟(meng)的(de)(de)(de)benchmark,也是在國內很知(zhi)名的(de)(de)(de)benchmark;還有等等。這個是衡量AI芯(xin)片算法模(mo)型很主流的(de)(de)(de)評測標準。
還有一個,我(wo)們不(bu)光從(cong)(cong)硬件(jian),我(wo)們還要(yao)從(cong)(cong)整個生態(tai)鏈(lian)、軟(ruan)件(jian)棧,也就是(shi)我(wo)們經常說的(de)工(gong)具(ju)鏈(lian)(來看)。從(cong)(cong)工(gong)具(ju)鏈(lian)層面,很(hen)多公司尤(you)其像(xiang)我(wo)們設(she)計了很(hen)完整的(de)工(gong)具(ju)鏈(lian)體系。工(gong)具(ju)鏈(lian)的(de)完整是(shi)衡量你AI芯(xin)片(pian)是(shi)否成熟的(de)一個標準,同時(shi)也是(shi)看到你能(neng)夠(gou)給客戶提供什么樣的(de)這(zhe)種支持。
還(huan)(huan)有(you)一(yi)個很多(duo)媒體都在談的(de),AI芯(xin)片一(yi)定要談算(suan)(suan)力(li)TOPS。其(qi)實TOPS不(bu)是唯一(yi)衡量(liang)AI芯(xin)片算(suan)(suan)力(li)的(de)標準,還(huan)(huan)有(you)很多(duo)其(qi)它(ta)因素(su),比(bi)如有(you)TOPS/瓦能效比(bi),跟微觀、功耗(hao)包括算(suan)(suan)力(li)利(li)用率(lv)都是有(you)關(guan)的(de)。還(huan)(huan)有(you)很重(zhong)要的(de)因素(su),就(jiu)(jiu)是存儲帶寬。剛(gang)剛(gang)知存科技的(de)王(wang)總(zong)也提到(dao)了,為什(shen)么我們(men)現在存算(suan)(suan)一(yi)體芯(xin)片非常熱門(men),就(jiu)(jiu)是它(ta)能夠解決數據搬移的(de)問題。
當然(ran)了,還有(you)幾個維度關(guan)于(yu)AI芯(xin)片這塊。
首先AI芯片要(yao)(yao)有很好的(de)靈活性,因為我們的(de)算力(li)不是(shi)固定的(de)東西,需要(yao)(yao)支持常見的(de)神(shen)經(jing)網絡,同時有很強的(de)擴展能力(li),比如客戶能力(li)很強,會自(zi)定義(yi)(yi)自(zi)己的(de)算子,作為IP或(huo)者芯片供(gong)應商來說,我們需要(yao)(yao)能夠(gou)支持客戶做自(zi)定義(yi)(yi)算子的(de)擴展。
當然了(le),還有除了(le)AI層(ceng)面的(de)(de)其(qi)它因素,我把(ba)它列了(le)叫(jiao)非AI功能。我們接觸了(le)很多(duo)(duo)客戶(hu)(hu)后發(fa)現,客戶(hu)(hu)對我們的(de)(de)需(xu)求不僅(jin)(jin)僅(jin)(jin)只在AI一個(ge)層(ceng)面。比(bi)如(ru)對于(yu)安(an)防場景來說,安(an)防客戶(hu)(hu)不僅(jin)(jin)僅(jin)(jin)需(xu)要(yao)你只提(ti)供一個(ge)AI芯片,希望你提(ti)供更多(duo)(duo)的(de)(de)Solution解決(jue)方案,比(bi)如(ru)需(xu)要(yao)ISP、VPU、視頻處理等等。
其(qi)實很多(duo)非AI功能如果你能把它(ta)變成一個總體解決(jue)方(fang)案,在未來很多(duo)垂直(zhi)領域是(shi)非常有競爭力(li)的(de)(de)。目前安謀中(zhong)國也在打(da)造這樣比較完整的(de)(de)IP組(zu)合平臺。
4、AI算法正趨于輕量化
這是一個對(dui)AIoT芯(xin)片市場(chang)的分析。簡單(dan)說(shuo),整(zheng)個AIoT芯(xin)片剛才(cai)幾位嘉賓也講過,AIoT整(zheng)個市場(chang)其實比較碎片化,目前看它的增(zeng)速非常快,端側的芯(xin)片增(zeng)速也非常快。
但是首先(xian)它(ta)有很多(duo)(duo)這種需求,比如對低功(gong)耗要求非常高(gao),在很多(duo)(duo)低功(gong)耗的場景,甚至達到毫瓦級的水平,比如可穿戴設備等。同時,對于很多(duo)(duo)場景來講,可能算(suan)力要求沒有特別(bie)高(gao),尤其(qi)對于AIoT領域,在100 GOPS下(xia)就可以覆蓋大部分場景。
這(zhe)個(ge)是(shi)我們看到的(de)整(zheng)個(ge)AI算(suan)(suan)法市場的(de)一個(ge)輕量(liang)(liang)化(hua)趨勢。左(zuo)邊(bian)這(zhe)張圖來說(shuo),2014年(nian)開(kai)始市面上主流(liu)的(de)輕量(liang)(liang)化(hua)算(suan)(suan)法,對算(suan)(suan)力需(xu)求越(yue)來越(yue)低(di)。我們看到,很多主流(liu)的(de)算(suan)(suan)法輕量(liang)(liang)化(hua)趨勢非常明顯(xian),它的(de)計(ji)算(suan)(suan)量(liang)(liang)包括權重跟之前相(xiang)比已經減(jian)少了(le)幾十倍(bei)左(zuo)右。舉個(ge)例子,我們做(zuo)多目標檢測的(de)時候(hou),如果想做(zuo)30FPS Throughput(吞吐量(liang)(liang)),只需(xu)要大概百(bai)GOPS算(suan)(suan)力就可以了(le),每幀計(ji)算(suan)(suan)量(liang)(liang)可以降低(di)到5GOPS以內。
此(ci)外,算法輕量化(hua)的(de)(de)趨(qu)勢商湯(tang)的(de)(de)閆(yan)總也(ye)提(ti)到了,我(wo)們(men)有大量模型輕量化(hua)的(de)(de)手段(duan),都是一些很主流的(de)(de)量化(hua)、剪枝、共享、知識(shi)蒸(zheng)餾(liu)等等。那(nei)么這(zhe)種模型量化(hua)的(de)(de)手段(duan)是日益的(de)(de)在(zai)演進,也(ye)就(jiu)把我(wo)們(men)算法輕量化(hua)的(de)(de)趨(qu)勢推(tui)的(de)(de)越(yue)來越(yue)明顯。
三、“周易”AIPU:兩代產品覆蓋全場景、全棧平臺
前面(mian)分享了Arm架構和(he)AI芯片和(he)AIoT芯片的(de)趨勢。后面(mian)重點講一(yi)下安謀中國“周(zhou)易(yi)”AIPU的(de)一(yi)個整體情況。“周(zhou)易(yi)”AIPU是安謀中國自(zi)研(yan)IP產(chan)品線中AI人工智能(neng)部分,我們還有CPU、ISP其他(ta)等等的(de)產(chan)品線。
這是(shi)我們(men)(men)目(mu)前,“周易”也是(shi)AIPU產品線(xian)上(shang)看到的(de)市場上(shang)幾個(ge)比較熱(re)門的(de)機會。第(di)一(yi)個(ge)是(shi)比較熱(re)的(de)安防(fang),我們(men)(men)目(mu)前有客戶和合作(zuo)伙伴已經(jing)在基于(yu)我們(men)(men)的(de)AIPU定制自己安防(fang)前端的(de)芯片,應(ying)該很快(kuai)產品就會出來(lai)(lai)。手(shou)機是(shi)ARM在手(shou)機端生(sheng)態里面比較優(you)勢的(de)一(yi)塊,未(wei)來(lai)(lai)作(zuo)為(wei)安謀中國自研“周易”AIPU將(jiang)來(lai)(lai)關(guan)注的(de)市場。
還有(you)另(ling)外一個市場(chang)就(jiu)是(shi)自動駕駛和(he)智能座艙。如果大家去看各種峰(feng)會、媒體(報道),智能汽車已(yi)經成為目(mu)前最熱的一個詞,而不是(shi)之一。
從安謀中國(guo)來講,我們(men)對自動駕駛以(yi)(yi)及智能(neng)座(zuo)艙領域非常關(guan)注(zhu)。首先,Arm能(neng)夠(gou)提供(gong)的(de)(de)(de)(de)IP組(zu)合(he)通過(guo)級聯等,做到幾百(bai)體T(TOPS)以(yi)(yi)上的(de)(de)(de)(de)算(suan)力(li)(li),同時(shi)我們(men)可以(yi)(yi)提供(gong)的(de)(de)(de)(de)不(bu)僅(jin)(jin)僅(jin)(jin)是AI,而是包括AI完整(zheng)的(de)(de)(de)(de)一(yi)套(tao)面向智能(neng)汽車完整(zheng)的(de)(de)(de)(de)解(jie)決方案(an),(這)也是未來我們(men)希望(wang)著力(li)(li)去(qu)發(fa)展的(de)(de)(de)(de)領域之一(yi)。而且目(mu)前我們(men)有比較知名的(de)(de)(de)(de)合(he)作伙伴(ban),也會在(zai)今年或(huo)者明年推出基(ji)于我們(men)AIPU的(de)(de)(de)(de)座(zuo)艙類(lei)產品。
其他幾種,像智(zhi)能(neng)家(jia)(jia)居(ju)、機器人、新(xin)零售,目(mu)前智(zhi)能(neng)家(jia)(jia)居(ju)已經有落地的(de)芯片,今(jin)年(nian)年(nian)內有智(zhi)能(neng)音箱的(de)產品(pin)出來,也是一家(jia)(jia)TOP的(de)公司。
1、“周易”AIPU四大特點:本土研發、生態完整、架構創新、滿足高PPA指標
安(an)謀中國的“周易”AIPU有四個特點(dian),這是我們硬件一個比較簡單(dan)的框(kuang)架圖:
1)首先(xian)“周(zhou)(zhou)易”AIPU由中國本土團隊研發(fa),所有的(de)知識產權(quan)完(wan)全自主可控,目前“周(zhou)(zhou)易”AIPU在幾(ji)個比較重點(dian)的(de)領域(yu)安防、汽車、智能語音領域(yu)開始即將大(da)規(gui)模商用;
2)同時,我們(men)會(hui)給客戶、合作伙伴(ban)提(ti)供完整的(de)技(ji)術生態,它是一個硬件加上完整的(de)工具鏈以及(ji)適配整個硬件算法的(de)體系;
3)從(cong)架構層面(mian),自(zi)(zi)研一套專門面(mian)向深(shen)度學(xue)習的指令集架構,也是安謀(mou)中國(guo)技(ji)術(shu)團隊自(zi)(zi)主研發;
4)從PPA的(de)(de)三個指(zhi)標來講,通過我(wo)們的(de)(de)實(shi)際測試和客戶的(de)(de)反饋,可以達到很好的(de)(de)匹配。
這是我們(men)整個“周(zhou)易(yi)”架構相對(dui)(dui)比(bi)較詳細的介紹。從技(ji)術層面,指(zhi)令集(ji)層面分成三(san)類,第一類指(zhi)令集(ji)叫做(zuo)張量指(zhi)令集(ji),也就是我們(men)經常常見的向量Vector,能(neng)夠(gou)對(dui)(dui)一般的神經網(wang)絡進行運算和處理(li)。
第二(er)類我們把(ba)它(ta)叫做AI Fix Function,這(zhe)一類有點類似硬(ying)件加速單元,它(ta)是針(zhen)對卷(juan)積(ji)操作里面很常(chang)見的(de)一些(xie)操作來(lai)做特定的(de)硬(ying)件加速,能夠(gou)提供很好的(de)效率,比如像(xiang)卷(juan)積(ji)、池化、激活等等。
最后一類(lei)屬于算力(li)需求比(bi)較低的(de)(de)我們叫(jiao)標量,主要做(zuo)一些(xie)循(xun)環跳轉類(lei)的(de)(de)處理,有點類(lei)似CPU模(mo)式(shi)。“周易(yi)”從(cong)架構級(ji)層面來說,三(san)種不(bu)同的(de)(de)處理混(hun)合在(zai)(zai)一起,能夠滿足客戶(hu)從(cong)算力(li)很低到算力(li)很高(gao)不(bu)同的(de)(de)需求。同時,Arm還有一個知名度(du)比(bi)較高(gao)的(de)(de)Trustzone可安全擴展,本(ben)身在(zai)(zai)“周易(yi)”里面也集成了我們的(de)(de)安全保(bao)護,可以有效保(bao)護用戶(hu)信息,比(bi)如算法(fa)的(de)(de)數據等。
最后一點,也(ye)是比(bi)較(jiao)關鍵的(de)(de)(de)(de)(de)(de)(de)一點,我(wo)們(men)跟很(hen)多(duo)客(ke)戶接觸中發現,很(hen)多(duo)客(ke)戶如果選用(yong)比(bi)較(jiao)成(cheng)熟(shu)的(de)(de)(de)(de)(de)(de)(de)IP做自(zi)(zi)己的(de)(de)(de)(de)(de)(de)(de)SoC的(de)(de)(de)(de)(de)(de)(de)時候(hou),有(you)(you)很(hen)多(duo)客(ke)戶的(de)(de)(de)(de)(de)(de)(de)算(suan)法能力(li)非(fei)常強,需(xu)要有(you)(you)算(suan)子(zi)自(zi)(zi)定義的(de)(de)(de)(de)(de)(de)(de)需(xu)求。根據我(wo)們(men)的(de)(de)(de)(de)(de)(de)(de)調研,大概50%以上的(de)(de)(de)(de)(de)(de)(de)客(ke)戶有(you)(you)算(suan)子(zi)自(zi)(zi)定義的(de)(de)(de)(de)(de)(de)(de)需(xu)求、本身我(wo)們(men)的(de)(de)(de)(de)(de)(de)(de)“周(zhou)易”AIPU就(jiu)有(you)(you)很(hen)好(hao)的(de)(de)(de)(de)(de)(de)(de)支持客(ke)戶算(suan)子(zi)的(de)(de)(de)(de)(de)(de)(de)自(zi)(zi)定義擴展。
本身AIPU關鍵的(de)一(yi)(yi)點就是(shi)(shi)靈活(huo)可(ke)編程(cheng)(cheng)。在設(she)計一(yi)(yi)款(kuan)芯(xin)片的(de)時候,其生命周期(qi)在5年左右。在這5年的(de)區間里,算(suan)法本身的(de)迭代是(shi)(shi)非(fei)常快的(de)。在設(she)計芯(xin)片之初,就要考慮有很(hen)完整的(de)算(suan)子支持,甚至IP的(de)變化是(shi)(shi)完全可(ke)編程(cheng)(cheng)的(de),這才能滿足算(suan)法的(de)不(bu)同需求。本身我(wo)們的(de)IP也是(shi)(shi)朝這個方向去做。
“周易(yi)”AIPU可以提供一個(ge)比較完整的(de)可擴展能(neng)力(li)(li)。因為“周易(yi)”本身是比較通用的(de)AIPU平臺,可以提供從(cong)最(zui)小0.2T算力(li)(li)甚至上百T算力(li)(li)的(de)組合。這里面對很多比如常見神經網(wang)絡層,包括算子可以完全(quan)實現可編程,通過TEC張(zhang)量(liang)來做的(de)。
針(zhen)對特定的卷(juan)積(ji)類(lei)操作,比如(ru)池化、激活、權重、特征圖壓縮等,我(wo)們通過一(yi)個特定的AI指令集也就是AI Fix Function來做,同時支持客(ke)戶(hu)的擴展。
從(cong)工(gong)具鏈層面(mian)(mian),我(wo)們(men)會給客戶提供完整易用的(de)(de)SDK。舉個(ge)(ge)例子(zi)來說(shuo),我(wo)們(men)有命(ming)令行(xing)甚至圖形的(de)(de)方式讓客戶能(neng)夠快速一(yi)(yi)鍵(jian)生(sheng)成我(wo)們(men)的(de)(de)模(mo)型,比(bi)如你有一(yi)(yi)個(ge)(ge)TensorFlow或者Caffe的(de)(de)模(mo)型,通(tong)(tong)過命(ming)令行(xing)輸入,直接通(tong)(tong)過SDK一(yi)(yi)鍵(jian)轉化,很快生(sheng)成AIPU可執行(xing)的(de)(de)文件(jian),整個(ge)(ge)操作非常(chang)方便。同(tong)時,從(cong)模(mo)型框架(jia)方面(mian)(mian),目前支持現在市面(mian)(mian)上比(bi)較(jiao)主流的(de)(de)一(yi)(yi)些模(mo)型,包括(kuo)TensorFlow、Python、TensorFlowLite等(deng)。
這是我們的(de)(de)總(zong)結,面向人工智(zhi)能領域(yu)端、邊、云三大類,“周(zhou)易(yi)”基本可以覆(fu)蓋全場景人工智(zhi)能解決(jue)方案,從端側(ce)、邊緣側(ce)、云端做(zuo)一(yi)個總(zong)結。端側(ce)有門鎖、可穿戴設備(bei),像TWS、智(zhi)能音箱、包括手機智(zhi)能終端等每年(nian)市(shi)場的(de)(de)規模,包括需要的(de)(de)算(suan)力需求以及它的(de)(de)功(gong)耗,我大概做(zuo)了一(yi)個整體的(de)(de)分(fen)析(xi)。
從這里面,我(wo)們可以得出一(yi)個結論,目前市場(chang)主(zhu)(zhu)流(liu)的解決方案基(ji)本還是以GPU包(bao)括DSP為(wei)主(zhu)(zhu),但是未來(lai)的趨勢,也就是最(zui)佳(jia)的解決方案,面向所(suo)有(you)的場(chang)景來(lai)說(shuo),ASIC定(ding)制化(hua)的芯片將成為(wei)主(zhu)(zhu)要(yao)的解決方案。對于“周(zhou)易”AI IP來(lai)講(jiang),兩代產品包(bao)括今(jin)年年末發的第三(san)代產品基(ji)本上(shang)可以覆蓋從端側到邊緣側所(suo)有(you)的人工智能場(chang)景。
人(ren)工智能芯片除了硬件(jian)層(ceng)面,整(zheng)(zheng)個軟件(jian)棧(zhan)就是(shi)我(wo)(wo)們的(de)(de)生態是(shi)非常重(zhong)要(yao)的(de)(de),這是(shi)目(mu)前“周(zhou)易”全(quan)棧(zhan)式異構平臺的(de)(de)軟件(jian)棧(zhan)。最底層(ceng)對Arm整(zheng)(zheng)體(ti)Cortex CPU、Mali GPU以(yi)及(ji)(ji)我(wo)(wo)們自(zi)研的(de)(de)AIPU硬件(jian)體(ti)系的(de)(de)支持(chi);到上(shang)層(ceng)很多計算庫,包括合作伙(huo)伴完整(zheng)(zheng)的(de)(de)driver以(yi)及(ji)(ji)run time庫,像Arm NN、Tengine的(de)(de)支持(chi);到最上(shang)面像TensorFlow、Caffe、PyTorch等等支持(chi),“周(zhou)易”覆(fu)蓋了整(zheng)(zheng)個軟件(jian)站各(ge)個層(ceng)面的(de)(de)支持(chi)。
從工具鏈層面,我們目(mu)前針對一顆芯(xin)片來說,所有的(de)工具鏈全部都(dou)是(shi)支持的(de),包括Simulator、Debugger、Profiler、Compiler還有Build Tool,也是(shi)構建整(zheng)個完(wan)整(zheng)生態非常重要的(de)一個環節。
這(zhe)里(li)面是(shi)我(wo)們剛剛講的(de)(de),“周(zhou)易”是(shi)通(tong)用的(de)(de)AIPU平臺(tai),如果通(tong)用的(de)(de)話,我(wo)們一定要談到(dao)對目前市場上主流的(de)(de)深度學習算子支(zhi)持,內置(zhi)的(de)(de)Model Zoo預訓練模型的(de)(de)支(zhi)持,涵(han)蓋了目前市面上可(ke)以看到(dao)的(de)(de)主流算法,比較熱門的(de)(de)transformer等等。
在算子層面,“周易”的(de)第二代產(chan)品支(zhi)持超過(guo)(guo)120個(ge)以上的(de)主流算子,而且(qie)還在持續的(de)增加過(guo)(guo)程(cheng)中。
在安防、自(zi)動(dong)駕駛很多(duo)場景里面,客戶需(xu)要完(wan)(wan)整(zheng)的(de)(de)(de)解決方案,針對客戶需(xu)求(qiu)我們打造了面向CV視(shi)覺領域完(wan)(wan)整(zheng)的(de)(de)(de)IP解決方案。這里面不僅僅包(bao)括AI,包(bao)括ISP、CPU,通過互(hu)聯的(de)(de)(de)方式組成完(wan)(wan)整(zheng)的(de)(de)(de)生態鏈。
Arm的M和A系列是完全支(zhi)持(chi)的,ISP也有Arm中國(guo)自研(yan)的玲瓏,(該產品(pin))前段(duan)時間剛剛發布,ISP和“周(zhou)易(yi)”、Video Encoder等一起,可以為客戶提供一個(ge)完成比(bi)較(jiao)完整的視覺(jue)IP解決(jue)方案。
2、“周易”Z1:邊緣計算通用的AI IP,面向IoT&Edge
這是我們(men)(men)“周易(yi)”的(de)第一代產(chan)品,叫“周易(yi)”Z1。這是我們(men)(men)跟全(quan)志科技(合作(zuo))已經正式量產(chan),今年很快大(da)規模商用。全(quan)志R329用的(de)是周易(yi)Z1的(de)AIPU,提(ti)供的(de)算力在(zai)0.2TOPS左右。
這個(ge)(ge)算(suan)(suan)力也讓我(wo)們看(kan)到了(le)在智能音箱領(ling)域算(suan)(suan)力的(de)(de)一(yi)個(ge)(ge)趨勢,我(wo)們可以(yi)看(kan)到,端到端的(de)(de)語(yu)音算(suan)(suan)法(fa)將(jiang)會成為一(yi)個(ge)(ge)主流(liu)的(de)(de)趨勢。
“周(zhou)易”可以(yi)很快(kuai)解(jie)決(jue)端到(dao)端的處理,把數(shu)據直接通過神經網(wang)絡送進來,不(bu)需要單獨(du)像(xiang)之前(qian)由DSP做(zuo)前(qian)端處理,可以(yi)通過AIPU處理。通過試驗對(dui)比,我(wo)們跟一些(xie)DSP做(zuo)了一些(xie)測算(suan)。能效比包括算(suan)力(“周(zhou)易”AIPU)相當于(yu)它(ta)(DSP)的七倍以(yi)上。
這也是(shi)“周易”Z1,可以提(ti)供不同的(de)算力組(zu)合。這是(shi)我(wo)們做了一個人(ren)體關(guan)鍵(jian)(jian)點(dian)檢測的(de)應用案(an)例,實際應用去跑,支(zhi)持人(ren)臉(lian)關(guan)鍵(jian)(jian)檢測的(de)算法,像Open pose、Deep pose等,在1TOPS計(ji)算力環境(jing)下吞吐量基(ji)本(ben)可以做到80FPS。而且在這個環境(jing)下,我(wo)們的(de)bandwidth(帶(dai)寬)非(fei)常低(di),整個成本(ben)相較(jiao)來說也比(bi)較(jiao)低(di)。
3、“周易”Z2:針對邊緣計算中高端場景優化
“周(zhou)易”Z2(是)第二(er)代產品,跟Z1有一點(dian)不同(tong),“周(zhou)易”Z2更多(duo)面向邊緣(yuan)計算和中(zhong)高端的場(chang)景,比如自動駕駛、中(zhong)高端的安防等(deng)等(deng)。
Z2和上一代(dai)產(chan)(chan)品相比,它的(de)特點在于單核(he)算(suan)(suan)力是上一代(dai)產(chan)(chan)品的(de)兩倍甚(shen)至(zhi)更高,同(tong)時支(zhi)持多核(he)級聯,其(qi)算(suan)(suan)力在128TOPS左(zuo)右(you),可以做到(dao)自動駕駛甚(shen)至(zhi)中高端場景(jing)的(de)需(xu)求,芯片面積(ji)Z2比上一代(dai)產(chan)(chan)品節省30%左(zuo)右(you)
從算法層面來講(jiang),“周(zhou)易”Z2支持混合(he)精度計(ji)算,同時(shi)在同等算力配置下,通過(guo)測算“周(zhou)易”Z2比(bi)(bi)上(shang)一(yi)(yi)代(dai)產品針對(dui)某些網絡模型的性能高很多,兩代(dai)產品做了一(yi)(yi)個對(dui)比(bi)(bi),找了一(yi)(yi)個比(bi)(bi)較知名的網絡模型MobileNet?V2,在帶寬節省30%同時(shi),性能提升接近3倍左右
“周(zhou)易”Z2在今年或者明年也有一些合作伙伴,基于“周(zhou)易”Z2 AI IP做應用(yong)和(he)(he)場景的落地,主要(yao)面向安防和(he)(he)智能(neng)汽車兩個領域。
這是我(wo)們在“周(zhou)易”Z2實際的(de)應用環境做(zuo)的(de)智能汽車(che)比(bi)較(jiao)熱的(de)領域DMS駕(jia)駛員的(de)疲勞監測(ce)。我(wo)們和主流的(de)DMS公司做(zuo)了(le)算(suan)法的(de)合(he)作,涵蓋(gai)了(le)Face Detection、Face landmark、Head pose、Gaze等所(suo)有算(suan)法我(wo)們做(zuo)了(le)一個(ge)融合(he)。“周(zhou)易”Z2在1TOPS算(suan)力(li)環境下,throughput做(zuo)到了(le)70fps左右。
這是(shi)另外一個(ge)應用,“周(zhou)易”Z2做(zuo)了超級(ji)分辨(bian)率(lv)DTV(的(de)一個(ge)案例(li))。我(wo)(wo)們也是(shi)跟主流的(de)超級(ji)分辨(bian)率(lv)公司做(zuo)了合作,用的(de)“周(zhou)易”Z2 1T算(suan)力硬(ying)件環境,經(jing)過我(wo)(wo)們的(de)測算(suan)能夠做(zuo)到4K 60幀左右,同時使用業(ye)內知名(ming)的(de)圖象或者質量評價工具WMAF,其評分達到93分。基本上(該(gai)應用的(de))93分是(shi)非常高的(de)分值,一般做(zuo)到80分以上就非常高了。
最后(hou)跟(gen)大(da)家整體(ti)的(de)總結一下,目(mu)前安謀中國基(ji)(ji)于全(quan)球(qiu)Arm的(de)標準,我(wo)(wo)們在這個基(ji)(ji)礎上做了(le)很多本土創新的(de)工作。第一,我(wo)(wo)們的(de)“周易”AIPU是(shi)面(mian)向安防(fang)、車(che)載甚至移動(dong)很多IT場景(jing)的(de)AI通用處理器。
還有(you)(you)其它的安謀中國自研(yan)產品,包括(kuo)“山海(hai)”,是(shi)面向(xiang)物聯網領域的安全(quan)解決(jue)方(fang)案,目前很(hen)多客戶在落地。還有(you)(you)兩(liang)個(ge)是(shi)我(wo)(wo)們的CPU和ISP解決(jue)方(fang)案,一(yi)個(ge)是(shi)“星辰(chen)”(STAR),(一(yi)個(ge)是(shi)“玲瓏(long)”)。在TWS領域,OPPO用(yong)了我(wo)(wo)們“星辰(chen)”CPU IP(的產品),已(yi)經(jing)大規模量產和出貨。“鈴瓏(long)”是(shi)我(wo)(wo)們近期剛(gang)剛(gang)安謀中國推出的自研(yan)ISP解決(jue)方(fang)案,后面還會推出面向(xiang)安防和智能汽車不同應用(yong)場(chang)景的解決(jue)方(fang)案。
我今天(tian)的介(jie)紹就到這里(li),謝謝大家。
以上是吳彤演講內容的完整整理。