芯東西(ID:aichip001)
編譯 | ?心緣
編輯 | ?漠影

5月25日,覆蓋輕量級神經(jing)網絡模(mo)型設計(ji)、模(mo)型壓縮、AI推理引擎、AI芯片架(jia)構創新等主(zhu)題的(de)GTIC 2021嵌入式AI創新峰(feng)會將在北京舉行(xing)。屆時,嵌入式AI產(chan)業鏈(lian)10+位(wei)技術大牛及業界專家齊(qi)聚,探討(tao)物(wu)聯網與AI融合賽道的(de)核(he)心議題。

峰會前夕,我們與多位嘉賓進行系列深度訪談,提前一睹他們對產業的真知灼見。本期訪談嘉賓為恩智浦半導體IoT解決方案高級經理秦建峰,他將帶來主題為《如何設計高效率MCU AI工具鏈》的演講。

秦建峰(feng)擁有中國(guo)科(ke)學(xue)(xue)技(ji)術大(da)學(xue)(xue)碩(shuo)士(shi)學(xue)(xue)位,負(fu)責AI/ML技(ji)術在恩智浦的(de)(de)MCU及MPU上的(de)(de)應用(yong)開(kai)發(fa)(fa),曾帶(dai)領團隊獨立研(yan)發(fa)(fa)并(bing)發(fa)(fa)布(bu)了(le)全(quan)球第(di)一款基于(yu)MCU RT106F的(de)(de)低功耗、低成本的(de)(de)人(ren)臉(lian)識別方(fang)案,基于(yu)雙目活體(ti)算法的(de)(de)方(fang)案廣泛應用(yong)于(yu)門(men)(men)鎖及門(men)(men)禁等產品(pin)。他帶(dai)領團隊獨立研(yan)發(fa)(fa)的(de)(de)Nano.AI工具鏈,能(neng)快速準(zhun)確地將客戶的(de)(de)算法模(mo)型從(cong)MPU平(ping)臺部署(shu)到MCU平(ping)臺,達到降功耗和(he)降成本的(de)(de)目的(de)(de)。

就MCU部(bu)署AI應(ying)用的痛點、現有AI開源工具鏈(lian)的局限性、恩智浦打磨(mo)軟件工具的經驗與解法(fa)等話題,我們與秦建峰進行了深入(ru)交流。

降低MCU運行AI算法的門檻!恩智浦Nano.AI工具鏈解讀

一、AI跑在MCU上,存在哪些技術挑戰和痛點?

在物聯網與AI交匯之(zhi)處,技術創(chuang)新的(de)火苗正逾(yu)燃逾(yu)旺,從芯片(pian)大廠到創(chuang)業公司(si)都在積極涌(yong)入嵌入式(shi)AI新浪潮,恩智浦(pu)正是其中(zhong)的(de)代表玩家之(zhi)一。

在(zai)理解(jie)物(wu)聯(lian)網客(ke)戶需求方面(mian),很(hen)少有公司能有像恩智浦這樣的深(shen)度和廣(guang)度。一方面(mian),它是MCU(微控制單元(yuan))、應用處理器領域的資深(shen)玩家;另一方面(mian),它的物(wu)聯(lian)網布局還覆蓋到(dao)各種(zhong)無線連接產品(pin)、安全功能芯片(pian)、超寬(kuan)帶(UWB)芯片(pian)及相應軟件(jian)和方案。

從與客戶(hu)的(de)交流中(zhong),秦建(jian)鋒發現恩智浦(pu)的(de)物聯網(wang)客戶(hu)有(you)一些共性需求,除(chu)了關注成本外,也越來越看(kan)重MCU的(de)算力、豐(feng)富的(de)AI功(gong)能,以及尋求產品的(de)差異化。

MCU在低(di)功耗、低(di)成本的物聯網(wang)應用中落地廣泛,比如智能(neng)門鎖、基于電(dian)池的手(shou)持端設備,它們(men)不像(xiang)安防監控設備需要高分辨率(lv)、快(kuai)響應速度,更在乎是否(fou)足夠便宜、耐用性好。

相比初(chu)創公(gong)司(si),恩智浦(pu)手中(zhong)握著沉(chen)甸甸的(de)(de)數十年MCU產品經驗(yan),這是它獨有的(de)(de)技(ji)術財(cai)富。除了持續加(jia)固自身技(ji)術壁壘外,恩智浦(pu)也在思考著怎么解決(jue)客戶最棘手的(de)(de)問題。

不過(guo),當AI應用逐漸遍及MCU領域(yu),新的挑戰開始出現。

第一道難關即是硬件算力的受限和運行內存空間大小的挑戰。

囿于低(di)(di)功耗、低(di)(di)成本,有些中低(di)(di)端MCU不(bu)支持外擴SDRAM,僅支持內部幾百KB的SRAM和受限到幾十兆空間的Flash。

大部分廠商的(de)AP處理(li)器采用基于(yu)Arm Cortex-A系列的(de)多(duo)核、高(gao)主頻CPU,對(dui)于(yu)浮(fu)點數(shu)跟定(ding)點數(shu)的(de)處理(li)能(neng)力(li)都非常(chang)強,功耗和成本也相(xiang)對(dui)偏高(gao)。

功(gong)耗(hao)和成(cheng)本(ben)較(jiao)低的(de)MCU則往(wang)往(wang)是單核的(de),主頻幾百MHz,恩智浦目前主流的(de)是600MHz,1GHz剛(gang)剛(gang)推出,即便這(zhe)樣(yang),Arm Cortex-M MCU處理器面向低功(gong)耗(hao)設計,對于浮點(dian)數的(de)處理能力較(jiao)弱。

這些(xie)MCU需要(yao)設(she)計(ji)輕量(liang)化(hua)的(de)模型,并進行一些(xie)量(liang)化(hua)、裁剪(jian)、融合等(deng)優化(hua)操作。

這就帶來第二個難關——目前MCU轉化及量化缺乏成熟且統一的標準。如果廠商可以針對MCU的(de)特點開發一些好工(gong)具鏈,就(jiu)能在MCU上得到相應非常(chang)好的(de)性能。

而關鍵的(de)難題在(zai)于,盡管各開(kai)源(yuan)大(da)廠對(dui)自身的(de)訓(xun)練(lian)框架、引擎級模(mo)(mo)型支持較好,但對(dui)于一(yi)些(xie)相對(dui)復(fu)雜(za)或(huo)特殊的(de)模(mo)(mo)型,大(da)概率無(wu)法成功地轉化(hua),或(huo)者是看(kan)似成功,實際上(shang)精度丟失比較嚴重。

有(you)些推(tui)理引擎(qing)為了(le)實現跨平臺和兼容性,一(yi)定程度上犧(xi)牲了(le)性能(neng);有(you)些開源推(tui)理引擎(qing)因追求大(da)而(er)全,致使體(ti)量(liang)過于(yu)龐大(da),內存空(kong)間浪費嚴重。

如(ru)果客戶并未深度掌握AI機器學習技術(shu),一旦(dan)工(gong)具(ju)鏈出問題(ti),就無法繼續在MCU上(shang)部署AI模型。因此,開(kai)源工(gong)具(ju)鏈是一種選擇,但存在很大的(de)技術(shu)風險和不確定性。

這(zhe)也是恩智浦嗅到(dao)機會(hui)的(de)(de)地方——針對AI在MCU上的(de)(de)部(bu)署,客戶需要依(yi)賴一些商用工(gong)具的(de)(de)支(zhi)持。

二、AI工具鏈已打磨三年,降低MCU部署AI門檻

2018年底啟動研發至今,恩智浦的Nano.AI工具鏈已經打磨了將近三年,目前已到試用階段。

傳統AI機器學習模(mo)型如果直接在(zai)MCU上(shang)(shang)運行,運行效率(lv)非常(chang)低,可能與優化后的(de)性能大(da)概相差10倍以上(shang)(shang)。因此這些模(mo)型需要通(tong)過(guo)開源工具鏈(lian)或是廠商自己開發的(de)工具鏈(lian)來做轉換。

借助AI工具鏈,客戶無需在原始AI模型轉換方面做過多投入,即便缺乏應用經驗(yan),也能(neng)比較省力地將(jiang)其(qi)原(yuan)始(shi)算法模型轉換成在(zai)MCU上能(neng)直(zhi)接使用的算法庫。

在(zai)MPU領(ling)域(yu),開源標準已(yi)經發展(zhan)的(de)相對成熟(shu),支持范(fan)圍較(jiao)廣(guang),出現(xian)問題的(de)可能性較(jiao)低。但(dan)在(zai)MCU領(ling)域(yu),還沒(mei)出現(xian)一款(kuan)足夠成熟(shu)好用的(de)AI工具(ju)鏈。

發現這一空白后,恩智(zhi)浦決定綜(zong)合(he)各類方案(an)的(de)(de)優缺點,打造一個適用(yong)于MCU的(de)(de)AI工(gong)具鏈,起名(ming)為Nano.AI工(gong)具鏈,并基于自研工(gong)具開發出(chu)一些(xie)完整解決方案(an),交予客戶商用(yong)。

降低MCU運行AI算法的門檻!恩智浦Nano.AI工具鏈解讀▲恩智浦Nano.AI工具鏈系(xi)統(tong)框架設計

恩智浦的AI工具鏈主要包含兩部分,一部分是將原始算法模型轉換成MCU上能夠快速運行的數據和庫,另一部分包含一個輕量級推理引擎,能做出一個能跑在MCU上、只需幾兆Flash甚至幾兆SDRAM的方案。

同時(shi),恩智浦(pu)也可以將具體的(de)優(you)化措施反饋給客戶(hu),包括從算(suan)法、算(suan)法、模(mo)(mo)型本身和(he)源頭上如何做優(you)化從而(er)實現一(yi)(yi)個更適合(he)在(zai)MCU上跑(pao)的(de)算(suan)法模(mo)(mo)型。這需(xu)要一(yi)(yi)個相互支持的(de)合(he)作模(mo)(mo)式。

要做出這樣一套AI工具鏈,首先MCU技術團隊需對自家產品的架構優勢等各方面有深入了解。

比(bi)如(ru),恩智浦之所以能(neng)(neng)在(zai)MCU上實(shi)現(xian)很多視覺與(yu)語(yu)音AI應用,是因為恩智浦對自身在(zai)總線架構設計上的優(you)勢有信心,像大尺(chi)寸(cun)cache、大TCM內存,天然就能(neng)(neng)在(zai)MCU上得到很好(hao)的AI性能(neng)(neng)。

另外,一些終端方案的大廠會推出自家的工具鏈、算法,但它們主要是服務于自身,同時在對MCU的理解深度方面通常不如芯片廠商。

相(xiang)對(dui)而(er)言,恩智浦不是AI軟(ruan)件公司(si),而(er)是一家芯片供應商,天(tian)然就有幫(bang)助(zhu)客戶解決(jue)技術(shu)壁壘(lei)的(de)(de)意愿,會通(tong)過合作幫(bang)助(zhu)客戶解決(jue)基于MCU的(de)(de)AI方案的(de)(de)種(zhong)種(zhong)技術(shu)壁壘(lei)。

三、恩智浦IoT半導體的競爭力:深入客戶、車規標準、供貨穩定、交鑰匙方案

AI工具鏈只是恩(en)智浦(pu)強(qiang)化其IoT半導體(ti)業務實力的一個(ge)能力分支。在交流(liu)過(guo)程中,秦建峰(feng)總結了恩(en)智浦(pu)IoT半導體(ti)方案(an)的4項競爭(zheng)力。

第一,恩智(zhi)浦有(you)幾十年的(de)微控(kong)制器(qi)(qi)和應用(yong)處理器(qi)(qi)的(de)產品經驗,在芯片架構積累(lei)了一些獨到的(de)能(neng)力(li),并對客(ke)戶(hu)應用(yong)有(you)深入理解,能(neng)從廣泛的(de)客(ke)戶(hu)群中挖(wa)掘(jue)出很多共性的(de)需求。

第二,作為一個領先的(de)汽車(che)芯片(pian)供應(ying)商,恩(en)智(zhi)浦在(zai)非汽車(che)芯片(pian)的(de)很多(duo)設計(ji)也遵循車(che)規(gui)的(de)要(yao)求,因(yin)此產品(pin)質量本身過硬。

第三,恩(en)智浦堅持(chi)長(chang)期供(gong)貨,在芯片設(she)計界有優良口(kou)碑,能幫(bang)客戶降低很多風險。

第四,恩智浦長期大量投(tou)入(ru)(ru)軟件和方(fang)案(an),像秦(qin)建峰所(suo)在的解(jie)決方(fang)案(an)部(bu)門(men)(men)一直幫助客(ke)戶基于恩智浦的芯片、算法及工具(ju)鏈做(zuo)交(jiao)鑰匙方(fang)案(an),進而降低方(fang)案(an)開(kai)發(fa)門(men)(men)檻(jian)、減少研(yan)發(fa)投(tou)入(ru)(ru),并能及時支持一些定(ding)制化需(xu)求,使客(ke)戶的方(fang)案(an)快(kuai)速投(tou)入(ru)(ru)到市場。

例(li)如,恩(en)智(zhi)浦(pu)近兩年已成功推出基于MCU的亞(ya)馬(ma)遜(xun)Alexa方案,其中包含(han)多類算(suan)法。如果沒有像恩(en)智(zhi)浦(pu)這樣廠商去(qu)牽頭去(qu)做,普通客(ke)戶很難得到亞(ya)馬(ma)遜(xun)的認證(zheng)。恩(en)智(zhi)浦(pu)把(ba)整(zheng)個交鑰匙方案做好之后,客(ke)戶就能快速出產品(pin)。

四、下一代MCU將集成更豐富的AI特性

在(zai)秦建峰看來,要(yao)衡(heng)量一(yi)個IoT芯片產(chan)品的優(you)劣,首先要(yao)找到整體(ti)成本和性能表現的一(yi)個最佳平(ping)衡(heng)點(dian),除此(ci)以外(wai),還有幾(ji)點(dian)還需要(yao)綜合考慮(lv):

一是整體的(de)(de)功耗和方(fang)案的(de)(de)可(ke)(ke)擴(kuo)展性,二是否引入(ru)了太(tai)多的(de)(de)第三(san)方(fang),導(dao)致開發進度(du)、靈(ling)活(huo)度(du)受到限制,三(san)是有沒(mei)有一個長期路線(xian)圖,能確保方(fang)案設計存在延續性,可(ke)(ke)以持續地(di)迭代更新。

目(mu)前,恩(en)智浦(pu)正(zheng)在(zai)規(gui)劃的下一(yi)代MCU和(he)AP平臺(tai),將集成更豐富的AI功能和(he)無線連接特性,并基(ji)于這些芯片(pian)路線圖(tu)推出更多(duo)交鑰(yao)匙解決方(fang)案,進一(yi)步覆蓋語音和(he)視覺AI的一(yi)些高(gao)性價(jia)比應用方(fang)案。

談及后(hou)續(xu)(xu)計劃,他透露說,恩智浦會在邊緣設備的AI方(fang)面持續(xu)(xu)投入,包括帶有神經(jing)網絡加速(su)器的全(quan)系列微控制器和應用處理器、完整的機器學習工具鏈,以及基(ji)于機器的視覺(jue)、聽(ting)覺(jue)和健康運(yun)動數(shu)據分析處理等各種AI解決方(fang)案。

在MCU上(shang)運行視(shi)覺AI方面,恩智(zhi)浦已推出基于MCU的語音及人臉識別(bie)(bie)的一系列完整方案,后續還(huan)將推出更多的姿態識別(bie)(bie)、手勢(shi)識別(bie)(bie)等方案。

結語:AIoT的核心挑戰:找到AI殺手級應用

長期來看,如果谷歌、Arm等各大軟(ruan)硬(ying)件廠(chang)商(shang)(shang)持續合作,應該能慢慢形成一(yi)(yi)些(xie)基于MCU的(de)標準,并隨著時(shi)間的(de)積淀而(er)做(zuo)得越來越完(wan)備。“很多(duo)客戶仍需(xu)依(yi)賴最(zui)終的(de)芯片廠(chang)商(shang)(shang),來得到一(yi)(yi)個最(zui)優(you)化(hua)的(de)MCU部署AI的(de)工具鏈支持。”秦建峰說。

在他(ta)看(kan)來(lai),AIoT芯(xin)片(pian)領(ling)域仍將(jiang)面臨(lin)的挑戰是(shi)真正找到AI機器學習的殺手(shou)級應用,光有技術是(shi)不夠的,最終(zhong)要(yao)跟客戶需求相匹配,找到一些共性的應用來(lai)持續推動技術前進。

在5月25日(下周二)舉辦的(de)GTIC 2021嵌入式AI創(chuang)新峰(feng)會上,秦建(jian)峰(feng)將帶來圍繞MCU部署AI應用(yong)的(de)主要痛點、如何提(ti)升MCU邊緣端(duan)AI運(yun)算性能和精(jing)度等(deng)方面的(de)分享,并(bing)對恩智(zhi)浦Nano.AI工具鏈系統框(kuang)架設計做更詳細地解讀。