
智東西(公眾號:zhidxcom)
作者 | GenAICon 2024
2024中國生成式AI大(da)會于4月18-19日在北京(jing)舉(ju)行,在大(da)會第一天的主會場(chang)大(da)模(mo)型專場(chang)上,安謀科技產品總(zong)監楊磊以《大(da)模(mo)型端(duan)側部署提速,NPU賦(fu)能終端(duan)算力革新》為題發表演講(jiang)。
從GPT-3.5到GPT-4.0,從多模態交互到插件支持,從閉源到開源,AI任務處理正加速從云側向端側遷移,NPU及其生態迎來全新的發展階段。安謀科技產品總監楊磊談道,生成式AI正逐步成為客戶端設備上的人機交互界面,而具備100億參數級別的大模型已成為現有終端設備的最佳匹配規格。
然而,在終端部署這類AI大模型時,仍面臨成本、功耗及軟件生態等多重挑戰。在當前大模型發展的硬件驅動方面,楊磊認為異構計算才是本地部署端側大模型的理想選擇,它能最大限度地提升SoC的性能、能效以及面積利用率。其中,NPU作為端側AI應用的關鍵算力資源,將為大模型的分布式落地演進提供核心動力。
當前,隨著大模型持續向邊緣側和端側滲透,AI計算和推理工作逐步由云端遷移至手機、PC、智能汽車等終端產品上運行。在這一過程中,NPU能夠以其更簡單的控制流、更高的效率以及更低的功耗,處理AI工作負載。安謀科技自研“周易”NPU面向大模型場景做了架構、內存墻等多方面改進,正在研發的下一代“周易”NPU將采用多核設計,能夠同時支持卷積神經網絡(CNN)和Transformer架構,將會適配國內外多個主流大模型。
一、生成式AI革新人機交互界面,端側大模型應用有望迎來爆發
近年來,大模(mo)(mo)型不(bu)僅在對(dui)話式(shi)文本方(fang)面取得巨大成功,也在圖像處理、音視頻生(sheng)成等多模(mo)(mo)態領域展(zhan)現出強大的潛(qian)能。隨著生(sheng)成式(shi)AI在人(ren)們日常(chang)工作及生(sheng)活(huo)中被(bei)廣泛應用(yong),數據處理和存儲需(xu)求急劇增加,使得智能計算體系結構發生(sheng)根本性轉(zhuan)變。
大模型對人機(ji)交互界面(mian)(mian)產生(sheng)了深刻(ke)的影響(xiang),生(sheng)成(cheng)式AI已成(cheng)為人與終端設備的最新交互界面(mian)(mian)。在生(sheng)成(cheng)式AI加持下(xia),從寫作(zuo)、編程、繪畫到視頻創作(zuo),多種模態的內容創作(zuo)門檻正(zheng)被前所未有地(di)降低(di),人機(ji)交互的流程也被大大簡化。
在楊磊看來,端側設備的核心交互問題關乎入口,這是爭奪用戶時間、持續時長、資金投入的關鍵所在,也是業內競爭的焦點。以典型的端側設備——手機(ji)為(wei)例,在(zai)(zai)本地設備上運行大模型已是兵(bing)家(jia)必爭之地,各家(jia)手機(ji)大廠都在(zai)(zai)想(xiang)方設法占據這一入口。
在此過程中,一方面,多模態模型正成為大勢所趨;另一方面,針對不同的應用場景、設備或成本考量,眾多廠商都推出了不同參數規模的模型。以智能(neng)手機(ji)為例,旗(qi)艦(jian)手機(ji)芯(xin)片算力可達40~50TOPS,中檔(dang)手機(ji)的(de)算力在10~20TOPS的(de)范(fan)圍內,而入門級手機(ji)目前尚未專門配備AI能(neng)力,更多地依賴于CPU的(de)通用計算能(neng)力。
據楊磊預測,隨著半導體技術的持續演進,旗艦手機的算力水平有望達到100TOPS,入門級手機也將從當前的無算力水平提升至5~10TOPS范圍。預計兩(liang)年(nian)后,不論是高價位段的(de)手機,還(huan)是性價比優良的(de)千元機,都(dou)有望具備本地部署AI大模型的(de)硬(ying)件計算(suan)能力(li)。
此外,在楊磊看來,除智能手機和PC等終端設備外,如今智能化水平不斷提速的新能源汽車以及目前炙手可熱的人形機器人也是大模型落地的硬件載體之一。在(zai)大會現場,楊磊列舉了一(yi)些數字:目(mu)前智能汽車(che)的(de)算力(li)已經能達到500TOPS左右(you),一(yi)些機器人方案也(ye)在(zai)按照(zhao)這一(yi)算力(li)規模進行相(xiang)應的(de)技術規劃。
盡管AI大模型的應用日趨普及,比如手機上安裝了Kimi、豆包、文心一言等諸多應用,但這些應用尚未達到殺手級應用的水平,實際上很多端側硬件的計算能力已經領先于相關應用的發展。很多用戶更多是出于獵奇心理來試用這類應用,并沒有產生持續、頻繁且高度黏性的使用需求。
“我們目前仍處于硬件先行、應用后發的階段。安(an)謀科(ke)技則(ze)希望(wang)結合(he)自身獨(du)特的(de)技術優勢,打造軟硬一(yi)體且極具競爭力的(de)解決(jue)方案,推動AI大模型在端側設備加速落(luo)地。”楊磊談道。
二、端側大模型部署面臨三重考驗,異構計算將是最優解
目前,AI PC、AI手機、“大模型上車”等細分領域已成為終端設備廠商以及半導體行業爭相入局的熱門賽道,那多大參數規模的大模型適合在端側部署呢?楊磊將端側大模型的主流參數范圍總結在3億到100億,許多業內(nei)廠商也都在關注百(bai)億參數這一規格。
兵馬未動,糧草先行。盡管大模型應用還未全面爆發,但端側大模型高效落地必然需要一個可靠的硬件載體,其應用需求涵蓋了多個方面,比如大語言模型用于交互、多模態模型用于識別和理解、對實時計算的響應需求等(deng),使得算法能輕松部署(shu)在不同硬件(jian)平臺上,并確保在端側(ce)的(de)運(yun)行(xing)速度足夠快(kuai),而(er)不是(shi)僅僅能在云端運(yun)行(xing)。
在楊磊看來,目前端側大模型部署面臨著(zhu)三重難關:
首先是成本。端側設備由(you)于(yu)使用范圍廣且頻次更高,因而(er)對于(yu)成(cheng)本也更加敏(min)感。不能單純為了增加AI能力而(er)導致手機或PC的(de)售價(jia)上漲太多,由(you)此帶(dai)來的(de)現實(shi)要求則對芯片(pian)面積、存儲帶(dai)寬、能效和(he)計算資源這類與成(cheng)本強(qiang)相關的(de)因素(su)多加考量和(he)平衡(heng)。
其次是功耗。無論是(shi)PC、平板電腦(nao)、手(shou)機還是(shi)智能眼鏡,其大部分的(de)(de)(de)(de)使用模式都由電池(chi)供電,功(gong)耗(hao)和(he)電池(chi)容量決定了設(she)備(bei)的(de)(de)(de)(de)續航(hang)時(shi)長(chang)。一張高性能的(de)(de)(de)(de)GPU動輒(zhe)功(gong)耗(hao)數百瓦(wa),更適合在云端(duan)使用,而非手(shou)持(chi)設(she)備(bei)。相(xiang)比(bi)之下,一般手(shou)機的(de)(de)(de)(de)功(gong)耗(hao)則不超過10瓦(wa),這就要求芯片在兼具算力(li)的(de)(de)(de)(de)同時(shi),也要盡(jin)可能降低功(gong)耗(hao),以保(bao)證設(she)備(bei)的(de)(de)(de)(de)使用時(shi)長(chang)和(he)控(kong)制發(fa)熱。
第三是軟件生態。硬件(jian)(jian)平臺需(xu)要支持不(bu)同(tong)的(de)(de)應(ying)用場景,讓來自不(bu)同(tong)企業的(de)(de)不(bu)同(tong)類型算(suan)(suan)法(fa)都能被輕松部署,并且計算(suan)(suan)效率和速度(du)符合預(yu)期,這就涉及到一(yi)些軟(ruan)(ruan)件(jian)(jian)生態(tai)和投(tou)入(ru)。由此,選擇軟(ruan)(ruan)件(jian)(jian)適(shi)配度(du)高、開發(fa)工具和資(zi)源(yuan)更為豐富的(de)(de)技(ji)術(shu)生態(tai)也非常(chang)重要。而Arm技(ji)術(shu)已成為全(quan)球應(ying)用最廣泛的(de)(de)計算(suan)(suan)平臺之一(yi),具有顯(xian)著的(de)(de)軟(ruan)(ruan)件(jian)(jian)生態(tai)優勢。
對此,楊磊認為,在硬件成本、功耗和軟件生態三重難關之下,即使在端側設備,單純依靠傳統的CPU或者GPU等通用計算單元也難以滿足當前以Transformer架構為主的大模型計算要求。因此,結合各種算力單元特性的異構計算將是端側大模型部署的最優解決方案。
三、搶占端側部署大模型制高點,安謀科技打造高性能異構計算IP平臺
異構計算其(qi)實(shi)是近年來業界比較熱議的(de)話題(ti)。其(qi)核心在(zai)(zai)(zai)于多種(zhong)計算單元(yuan)在(zai)(zai)(zai)SoC上的(de)異構組合(he),即在(zai)(zai)(zai)硬(ying)件方案中協同使(shi)用CPU、GPU、NPU等多種(zhong)不同類型的(de)計算單元(yuan),實(shi)現更高效的(de)計算能力,以平衡成本、功耗、計算性能等。
對此,楊磊在大會現場進一步闡述異構計算為何更適合端側大模型部署的背后原理。舉例來看,要在手機上部署一個“壓縮版”的ChatGPT或Llama大語言模型,其實最大的難點不在于計算量,更為棘手的是數據訪問量,即內存墻。楊磊解(jie)釋說,目(mu)前AI大(da)模(mo)型除了(le)對話式的(de)語言類(lei)應(ying)(ying)用場(chang)景以外,還涵蓋了(le)文(wen)生(sheng)圖、文(wen)生(sheng)視頻等(deng)場(chang)景,這類(lei)應(ying)(ying)用所(suo)涉(she)及的(de)大(da)量AI計(ji)算(suan)任務對于端側(ce)設備里(li)原有的(de)CPU或GPU來說就(jiu)比較吃(chi)力,更適合調(diao)用專為AI設計(ji)的(de)計(ji)算(suan)單(dan)元(yuan)NPU來進行計(ji)算(suan)。
對此,安謀科技將全球領先的(de)Arm CPU、GPU等通用計算(suan)單元,與本土自研的(de)NPU、SPU、VPU等專用計算(suan)單元相結合,打造(zao)一體化、高質量的(de)異構計算(suan)IP平臺,持(chi)續助(zhu)力本土芯片創新。
其中,正如前面提到的,NPU作為面向AI計算場景應運而生的計算單元,自然也是加速端側AI應用的關鍵算力資源。對此,楊磊重點介紹了安謀科技針對深度學習而自研的人工智能處理器——“周易”NPU。
目前,“周易”NPU已迭代了Z系列和X系列的多款產品,滿足多樣化計算需求。其中,Z系列主要面向AIoT市場,為物聯網設備提供AI算力支持;X系列則主要面向車載、邊緣計算等高算力應用場景,進一步提升計算效率。以安謀科技最新發布的“周易”NPU為例,該產品采用第三代“周易”架構,在算力、精度、靈活性等方面均有大幅提升,支持多核Cluster,最高可達320TOPS子系統,為新興領域(yu)不斷迭(die)代的(de)計算需求提供更為完善的(de)解決方案。
據楊磊補充,“周易”NPU將針對端側大模型場景進行專門的升級優化,包括微架構改進、內存優化、并行結構升級等多個方面(mian),并透露(lu)正在研發的(de)下一代“周易”NPU將(jiang)會(hui)適配國內外多個主流的(de)開源大模型方案,覆蓋(gai)硬件及(ji)其配套的(de)軟(ruan)件工具。
在微架構方面(mian),“周(zhou)(zhou)易(yi)(yi)”NPU架構(gou)將面(mian)向Transformer結構(gou)進行專門的加(jia)速改進;在(zai)(zai)內(nei)存方面(mian),“周(zhou)(zhou)易(yi)(yi)”NPU也會針對存儲限制做(zuo)進一步優化,包括常(chang)見的低比(bi)特(te)量化技術等(deng);而(er)在(zai)(zai)并行計算方面(mian),下一代“周(zhou)(zhou)易(yi)(yi)”NPU則重點考慮滿足并行計算的需(xu)求,能(neng)夠同(tong)時支持卷積神經(jing)網絡(luo)和Transformer架構(gou),更好(hao)地滿足當前(qian)應用端的不同(tong)場景需(xu)求。
此外,據楊磊介紹,安謀科技的下一代“周易”NPU將采用多核架構,能夠根據不同場景需求來配置不同的算力,例如AI PC等高算力場景可配置多個NPU核心,而AR眼鏡等更需平衡性能和功耗的場景則可以考慮配置單核,多核架構可以更好地滿足算力從小到大的靈活擴展。
結語:端側大模型爆發將至,安謀科技提供底層核心技術支撐
技術進步為大(da)(da)模(mo)型(xing)在云邊端的(de)(de)部(bu)署(shu)提供(gong)了(le)廣泛(fan)的(de)(de)可能,大(da)(da)至在成百上(shang)千張(zhang)卡的(de)(de)大(da)(da)型(xing)集群(qun)上(shang)做訓練,小至在手持設(she)備上(shang)部(bu)署(shu),大(da)(da)模(mo)型(xing)正通過(guo)越來越多元(yuan)的(de)(de)硬件載體,走進千家萬(wan)戶和千行百業。
在(zai)云端(duan)(duan),國(guo)內外(wai)已有很多(duo)GPU和(he)AI芯(xin)片企業在(zai)開展相關工作(zuo)。但在(zai)邊(bian)緣端(duan)(duan)側,目前還(huan)沒(mei)有一個成熟、統一的硬件(jian)平臺,能夠支撐大(da)模型部署到手(shou)機、PC或機器人等設備(bei)上,因此市(shi)場潛力(li)巨大(da)。
“端側設備已成(cheng)為(wei)大模型部署的兵家(jia)必(bi)爭之地”,楊磊如(ru)此(ci)形容端側大模型的競爭態勢。綜合來看,搶占入口(kou)的不止是(shi)硬件設備制(zhi)造(zao)商,還有眾多(duo)算法開發者,以及像安謀科(ke)技(ji)這類(lei)專注于芯片底層技(ji)術(shu)創新(xin)的企(qi)業,大家(jia)不約(yue)而同地看到了其中(zhong)蘊藏的市場機會。
楊(yang)磊最后談到:“AI大(da)模型不僅(jin)(jin)僅(jin)(jin)部署到云上,未(wei)來在端側也將迎來爆發(fa)式增長,我們非常期待與產業鏈上下游(you)的伙伴們加強溝通與合作,攜手共贏生(sheng)成(cheng)式AI未(wei)來。”