
智東西(公眾號:zhidxcom)
作者|云鵬
編輯|漠影
DeepSeek的火爆給全球AI產(chan)業發展帶來的核(he)心價值之一(yi),就是極大(da)加(jia)快了AI應用(yong)的普及,尤其在國內市場,幾乎各類產(chan)品都(dou)在增加(jia)與AI能(neng)力(li)的融合。
這意味著AI大語言模型將不再只是在天上飛(局限于云端),更是可以真正落地在我們身邊生活中的設備上,走向邊緣和端側,而(er)IoT市場(chang)作為邊緣(yuan)智能的(de)代表性領(ling)域,成為這波邊緣(yuan)AI的(de)最大關注點之一(yi)。
今(jin)天,隨著AI技術的快速發展,IoT等邊緣(yuan)(yuan)AI領域也逐漸涉及(ji)更復雜的算法,且涌現(xian)出(chu)了更多的邊緣(yuan)(yuan)AI推理需(xu)求(qiu)。這(zhe)樣一來,應用對計算性(xing)能(neng)以及(ji)算效比的需(xu)求(qiu)越(yue)來越(yue)高,與此同時(shi),數據安全問(wen)題也愈發凸顯。
從智慧城市、智慧工業、智能家居、智能穿戴到新零售,AI技術的廣泛應用帶來了AI計算需求和安全性方面的新挑戰。面(mian)對這些新的需求,行業正呼(hu)喚新的解法。
就在昨天,Arm發布了全球首個專為物聯網優化,以全新的Cortex-A320 CPU和Arm Ethos-U85 NPU為核心的Armv9邊緣AI計算平臺。它不是CPU和(he)AI加速(su)器的簡(jian)單堆疊,而是實現了CPU和(he)NPU深度融合、相(xiang)得益彰的解決方案。
這是Armv9架構諸多優(you)勢(shi)特性首次在(zai)IoT市場落地(di),其在(zai)效率、性能和安全方面的(de)升級直指(zhi)當下邊緣(yuan)AI新需求(qiu)。與此同時,Arm還將軟件層的(de)KleidiAI拓展到了IoT領域,使邊緣(yuan)AI開(kai)發進一步簡化。
Cortex-A320如(ru)何解決以IoT為代表的邊(bian)緣AI領(ling)域行(xing)業需求痛點、Armv9帶來(lai)了哪些關鍵(jian)技術(shu)升(sheng)級?軟件層面的新(xin)進展又(you)如(ru)何加速IoT領(ling)域的技術(shu)創新(xin)、應(ying)用落地?我們(men)將嘗試(shi)找到答案(an)。
一、邊緣AI風暴來襲,算力和安全成兩大IoT突出難題
近年來,隨著AI技術的發展和廣泛應用、計算需求快速增長,越來越多AI工作負載從數據中心和云端轉向邊緣側進行處理,這給人們的生產和生活帶來了切實的益處,但同時也帶來計算性能瓶頸、安全挑戰等問題。
比如在(zai)工(gong)業(ye)質檢(jian)領(ling)域,AI視覺質檢(jian)系統每帶(dai)來(lai)1%的(de)(de)產線(xian)漏檢(jian)率降(jiang)低,可能(neng)意味著千萬級的(de)(de)成本(ben)節約,但在(zai)復雜(za)的(de)(de)工(gong)廠條件(jian)下實(shi)現這1% 的(de)(de)小目標,從技術上來(lai)講絕(jue)非易事;汽車行業(ye),自動駕駛與駕駛員的(de)(de)生命安全息息相關,它的(de)(de)成功應用需要激光雷達、攝像頭(tou)等傳感(gan)器(qi)的(de)(de)數據需要在(zai)100ms內融合(he)并被模(mo)型處(chu)理。
智慧(hui)醫療領域,邊緣AI系統通過實時分析監護儀數據,預警(jing)相(xiang)關病(bing)(bing)癥的(de)早期癥狀,這一過程(cheng)的(de)高效與精準,高度依賴(lai)于底(di)層芯片的(de)性能表現,算力不(bu)足導致的(de)預警(jing)延遲以(yi)及預測準確率下降,都會(hui)極大影響(xiang)到(dao)病(bing)(bing)人的(de)健(jian)康。
未來隨著AI高清視頻實時分析、AI工業設備故障檢測等復雜任務需求越來越多,邊緣AI計算能力的重要性愈發凸顯。IoT領域正呼喚從芯片架構到算法層的全面革新,進而真正釋放AI帶來的革命性潛力。
在計算性能、效率之外,邊緣AI的發展同樣帶來了數據安全層面的風險。在邊(bian)緣(yuan)計算中,隨著越來越多(duo)的(de)邊(bian)緣(yuan)AI設(she)備(bei)接入網絡,數據在邊(bian)緣(yuan)設(she)備(bei)和云端(duan)或者其他(ta)邊(bian)緣(yuan)設(she)備(bei)之間(jian)傳輸,容易受到網絡攻(gong)擊。
因此面(mian)對邊緣AI迅猛發(fa)展,邊緣設備(bei)必須具備(bei)更強的推理能力、更安全的計算架構。
從行業視(shi)角來看,傳(chuan)統邊緣(yuan)側設備所使用(yong)的(de)芯(xin)片以無法滿足越(yue)來越(yue)多的(de)實(shi)時AI處理、計算密集型推理任(ren)務(wu)。
在(zai)昨(zuo)日(ri)的(de)Arm新(xin)(xin)品發(fa)布會上,Arm物聯網事(shi)業部業務(wu)拓展(zhan)副總裁(cai)馬健提到(dao),在(zai)她近期與許多合作伙伴針對邊緣AI的(de)交流中,大家一致的(de)反饋是,AI將(jiang)使(shi)他們(men)重新(xin)(xin)定義(yi)產品設計——把(ba)具有Transformer這(zhe)種加(jia)速功能(neng)的(de) AI 加(jia)速器加(jia)進去,或者采用能(neng)夠更好支(zhi)持AI的(de)CPU。
▲Arm物(wu)聯網(wang)事業部業務拓展副總裁馬健
IoT產業對于在邊緣側也能擁有更高性能的Cortex-A級別的計算能力以及升級至Armv9架構的需求十分突出,Arm的邊緣AI平臺新品,可以說是直指痛點。
二、10倍AI計算性能,異構計算擴展場景適應力,支持Armv9 四大安全特性
基于(yu)這樣(yang)的(de)行業背景,Arm此(ci)次推出(chu)了首(shou)款基于(yu)Armv9架構、專為邊緣AI設計(ji)的(de) Cortex-A CPU——Cortex-A320,以及(ji)結合了Cortex-A320和(he)Ethos-U85的(de)邊緣AI計(ji)算平臺。
在AI計算性能和能效提升方面,Cortex-A320相比Cortex-A35最高有著10倍的AI計算性能提升,相比Cortex-A53也有6倍以上的提升,這對于增強邊緣(yuan)設備(bei)的推理能力十分關鍵。
相較Cortex-A520,Cortex-A320的能效提升可以達到50%,在相同芯片面積下,Cortex-A320較Cortex-A53有(you)著15%的性能(neng)提(ti)升,相較Cortex-A35有(you)30%左右(you)的性能(neng)提(ti)升。
這樣的性能和能效提(ti)升反應在(zai)產業落(luo)地端,究竟能夠帶來怎樣的改變(bian)?
以(yi)一個(ge)貼近日常的例子來說(shuo),相較于Cortex-M系(xi)列,Cortex-A320在內存(cun)尋址能(neng)力、整體性能(neng)以(yi)及安(an)全防護上均實現了顯著(zhu)提升(sheng),這使(shi)得它能(neng)夠游刃有余地支撐起(qi)多種(zhong)人機交互場(chang)景,特別(bie)是對視(shi)頻流(liu)等視(shi)覺交互應用(yong)有著(zhu)出色(se)的支持。
設想一下,在某(mou)個重要的(de)展覽會上,你偶遇了(le)一位熟人,卻一時(shi)想不起(qi)他的(de)名字,這時(shi),你的(de)智能眼鏡就能即刻為你識(shi)別并提供(gong)對方(fang)的(de)信息(xi),甚(shen)至還能貼心地在你的(de)視線中嵌入(ru)演講要點,助你實現“即興”發言。
隨著技術的(de)不(bu)斷進步,智(zhi)能眼鏡這類邊(bian)緣(yuan)設備正逐步成(cheng)為我們生活中的(de)得力助手,讓我們得以釋放雙手,去專注于更多想要完成(cheng)的(de)事情。
Arm Cortex-A320帶來的不僅是技術參數的變化,在部分領域甚至可以帶來商業模式升級重構。邊緣AI的算力躍遷,本質是在重構人、機器與物理世界的交互范式。
除了性(xing)能(neng)和能(neng)效的提(ti)升,異構計算的特性(xing)支持也同(tong)樣重要。
這次(ci)Arm的(de)Cortex-A320與(yu)Ethos-U85 NPU一起組成了CPU+NPU協(xie)同(tong)計(ji)算架構,形成完(wan)整的(de)異構計(ji)算平(ping)臺。要(yao)知道,Ethos-U85是Arm Ethos-U產品線中的(de)第(di)三(san)代NPU,也是迄(qi)今為(wei)止性能和能效(xiao)最強的(de)Ethos NPU,與(yu)上(shang)一代產品相比,其性能提升了4倍,能效(xiao)提高了20%。
基于異(yi)構計算(suan)能力,任何開發者們不(bu)希望在Ethos-U85上(shang)(shang)運行(xing)的AI操作,都(dou)可以(yi)回(hui)退(tui)到Cortex-A320上(shang)(shang),利(li)用其Neon/SVE2引擎更靈活有(you)效地在CPU上(shang)(shang)執(zhi)行(xing)。
這樣一來,智能物聯網與消費類電子生態系統能夠在正確的時間、合適的地方運行最適合的工作負載。
CPU與(yu)NPU的(de)深度融(rong)合之下,新的(de)AI計算平(ping)臺可以覆蓋更多(duo)應用場景,實現包括視覺和(he)自然語言(yan)在(zai)內的(de)多(duo)模(mo)態的(de)環境感知與(yu)理解,進(jin)而運行AI智能(neng)體、自主規(gui)劃、執行復雜任(ren)務。
8倍(bei)的機器學習計算性能提升,令其(qi)可(ke)以賦(fu)能邊緣AI設備本地(di)(di)運行(xing)超過(guo)10億參數的大(da)模型,讓(rang)基(ji)于(yu)大(da)模型的生成式(shi)AI更好(hao)地(di)(di)在物聯網領域落(luo)地(di)(di)。
值得一提的是,在當下AI大模型需求較高的內存訪問性能方面,Cortex-A320支持更大的可尋址內存空間,能更靈活地管理多層次內存訪問延遲。同(tong)時Cortex-A320還能(neng)運行功能(neng)更(geng)豐富的操作(zuo)系統(tong),讓設備管理更(geng)靈活。
最后在安(an)全性方面,Armv9支持MTE(內存標記(ji)擴展)、PAC(指針認(ren)證(zheng))、BTI(分支目標識別(bie))以及S-EL2虛(xu)擬(ni)化,可以給(gei)邊緣設備(bei)提供端(duan)到端(duan)的安(an)全防(fang)護(hu)。
整體來看,在硬件層面,Arm的Cortex-A320與Ethos-U85異構計算平臺是實實在在地幫助企業解決了性能、能效和安全方面的邊緣AI新需求。Armv9架構層面的諸多優勢特性,開始給IoT領域企業帶來AI創新和應用落地的加速。
據悉,這次Arm發布(bu)的邊緣AI計算(suan)平臺已(yi)經(jing)獲得亞馬遜云(yun)科技、西門子、瑞薩電(dian)子、研華科技等(deng)廠商的支持。
三、Arm軟件大招落地IoT,邊緣AI規模化應用提速
當然,Arm的完整解決方案不止于此。硬件是基礎,軟件是加速器,軟硬件組合拳才能更高效地解決邊緣AI痛點,此次(ci)Arm還(huan)同步將KleidiAI引入IoT領域,加速AI應用在邊緣落地。
縱觀行業發展,完善的軟件生態可以降低開發者門檻,而軟件(jian)也一(yi)直是Arm計算(suan)平臺不(bu)可(ke)或缺的(de)一(yi)部分。
正(zheng)如前文(wen)所提到的,邊緣設備種(zhong)類繁多,硬件(jian)性能和(he)功(gong)能差異大,在這一場景(jing)中,出色軟件(jian)技術(shu)可以優化算法和(he)模(mo)型(xing)(xing),使(shi)AI模(mo)型(xing)(xing)能在各(ge)種(zhong)邊緣設備上高效運行。
對(dui)于邊緣設備(bei)有限的(de)計(ji)算資源,軟件技(ji)術可通過(guo)模(mo)型(xing)壓縮、量(liang)化(hua)(hua)、優化(hua)(hua)算法等手段,在(zai)保證AI性能的(de)前(qian)提(ti)下,降低模(mo)型(xing)對(dui)計(ji)算資源的(de)需求,進(jin)而提(ti)高計(ji)算效(xiao)率。
KleidiAI是一套專為AI框架開發者設計的計算內核,讓開發者可以(yi)無(wu)縫地在(zai)Arm CPU上獲(huo)取(qu)最佳性(xing)能(neng),適用于各類(lei)設備。
從去年初(chu)次面(mian)向終端市(shi)場亮相、隨后擴展至基礎設施領(ling)域(yu),KleidiAI如今進一步覆蓋IoT領(ling)域(yu),給各個(ge)領(ling)域(yu)的開發者(zhe)提供所需的性(xing)能、工具(ju)和(he)軟件庫支(zhi)持。
簡單來說,Arm Kleidi軟件庫最核心的作用(yong)(yong)就是幫助開(kai)發者讓AI應(ying)用(yong)(yong)得到Arm CPU加速,因為(wei)目(mu)前全球大多數AI推理(li)工作負(fu)載都在Arm CPU上運行。開(kai)發者不需(xu)要(yao)額外學習新工具和技能、無(wu)需(xu)復雜的集成工作,IoT應(ying)用(yong)(yong)開(kai)發門(men)檻和成本大幅降低(di)。
在出色的(de)軟件生(sheng)態和豐富開發(fa)工具的(de)支持下,Arm AI計算平臺(tai)的(de)靈活(huo)性得到了極大(da)釋(shi)放。
這次Arm的Cortex-A320兼容Linux、Zephyr、RTOS等多種操作系統,依托Arm Kleidi,可以適配Llama.cpp、ExecuTorch、MediaPipe等主流AI框架,實現70%性能提升,這對于AI應用(yong)在邊(bian)緣落地是非(fei)常關鍵的(de)。
馬健在發布會上特別(bie)提到,這一(yi)優勢讓Cortex-A320在多個(ge)市(shi)場領域、應用場景和操作系(xi)統之間(jian)都具有更好的靈活性,對(dui)于合作伙(huo)伴來(lai)說,選擇空間(jian)極大擴展,規(gui)劃(hua)產品路線時也可以更好地(di)適配(pei)不同場景需求。
此次(ci)Arm Kleidi擴展至物聯網領(ling)域,進一步加(jia)強了(le)Arm在IoT AI領(ling)域的(de)技術優勢,吸(xi)引更多(duo)開發(fa)者和企業(ye)基于Arm架(jia)構開發(fa)IoT應用,促進上下游產業(ye)的(de)合作與創(chuang)新。
展望未來,Arm的邊緣AI計算平臺必然將在IoT生態系統中扮演至關重要的角色,各個細分市場都將從Cortex-A320中受益,Arm無疑給IoT行業帶來了更多可能性,為IoT市場的產品和應用創新打好了新的基礎。
結語:IoT邊緣AI提速,Arm軟硬兩手抓
近年來,Arm持續進行平臺化轉型,此次Arm發布首個面向IoT的Armv9處理器Cortex-A320、以及以Cortex-A320和Ethos-U85為核心的邊緣AI計算平臺,并擴展KleidiAI到物聯網領域,無疑是通過軟硬件協同,為邊緣AI的加速發展、應用落地增添助力,也是Arm近年積極扮演賦能AI在各領域落地的有力展現。
放眼未來,AI計算正加速從云端走向邊緣,未來邊緣AI計算需求必然將持續增長,就像會中馬健說道的,“AI的未來在邊緣,而邊緣AI的未來屬于Arm。”我們拭目以待。