芯東西(公眾號:aichip001)
作者 |? 程茜
編輯 | ?漠影

AI PC正在GPGPU芯片之上(shang)迸發出新的生命力!

智東西3月14日(ri)報道,在一年(nian)一度的行業大會世界移(yi)動通(tong)信大會上(shang),PC、手機、機器人等各(ge)路終端設備(bei)無不與AI深度綁定。

作為全球(qiu)AI PC龍頭的(de)聯想(xiang)亮出了自(zi)家系(xi)(xi)列AI PC解決(jue)方案,其產品背后的(de)AzureBlade M.2加速卡正是支持其AI PC體驗的(de)關鍵動力(li)。AzureBlade M.2加速卡就來自(zi)國內(nei)清華系(xi)(xi)GPGPU創企珠海(hai)芯(xin)動力(li)科技。芯(xin)動力(li)成為聯想(xiang)在筆記本電腦dNPU方案領域的(de)首位合(he)作伙伴(ban)。

在大模型時代,邊緣(yuan)設備迎來了新(xin)的機(ji)遇期(qi),春(chun)節爆火的DeepSeek更(geng)是(shi)加(jia)速了這一進程,以AI PC、AI手機(ji)為代表的諸多硬件連番炸場。

其背后的(de)原因(yin)是,大(da)模(mo)型對數據(ju)處理(li)的(de)實時性(xing)、隱私性(xing)要求(qiu)不斷(duan)提高(gao)(gao),邊(bian)緣(yuan)(yuan)設備(bei)(bei)能夠在(zai)靠近數據(ju)源的(de)地方進行(xing)數據(ju)處理(li);邊(bian)緣(yuan)(yuan)設備(bei)(bei)可承(cheng)擔部分數據(ju)預(yu)處理(li)和(he)簡單推理(li)任務,拓寬(kuan)應用場景邊(bian)界;DeepSeek憑借算(suan)法優化進一步加速(su)了大(da)模(mo)型在(zai)邊(bian)緣(yuan)(yuan)設備(bei)(bei)上的(de)部署與應用進程,讓大(da)模(mo)型以更低(di)資源消耗在(zai)邊(bian)緣(yuan)(yuan)設備(bei)(bei)高(gao)(gao)效運行(xing)。

這股邊緣AI爆發(fa)的熱潮宛如一(yi)把雙刃劍,在為行業(ye)帶來新契機的同時(shi),也向(xiang)AI芯片(pian)企業(ye)拋出了一(yi)連串(chuan)棘手(shou)難(nan)題(ti),高性能、低(di)延時(shi)、低(di)功(gong)耗、兼容多種操作系統(tong)……聯想與(yu)芯動力的合(he)作正(zheng)是這道難(nan)題(ti)的最新解法。

邊緣(yuan)AI時(shi)代(dai)爆發前夜,M.2加(jia)速卡的獨特(te)優勢(shi)是什么?其(qi)為何能(neng)入局AI PC龍頭企(qi)業(ye)聯想的產品(pin)布局中?我們試圖(tu)通過拆(chai)解芯動(dong)力的產品(pin),找(zhao)到這些問題(ti)的答案。

一、DeepSeek引爆邊緣AI,芯片廠商機遇挑戰并存

在當下,端側設(she)備部署大(da)模型(xing)的風潮洶涌。然而,這股熱潮背后橫亙著一(yi)個(ge)核心(xin)命題:端側設(she)備以(yi)及AI芯片(pian)是否(fou)足(zu)以(yi)承載大(da)模型(xing)所需(xu)的性能(neng)。

因此,端側(ce)AI爆(bao)發呈現出兩大顯著(zhu)趨勢(shi)。

一方面,端側設(she)備部(bu)署大模型這把火燒的更(geng)旺了(le)。

此前,受限(xian)于硬(ying)件性能和模型(xing)技術,端側部署的(de)模型(xing)諸多(duo)無法處理復雜任務,這也(ye)導致端側AI應(ying)用(yong)(yong)場景有(you)限(xian),但(dan)更(geng)靠近用(yong)(yong)戶的(de)端側設備在保(bao)護用(yong)(yong)戶數(shu)據隱私(si)方面、實時反(fan)饋方面更(geng)有(you)優勢。

DeepSeek以(yi)(yi)開源(yuan)和(he)低成本的(de)特性(xing)極大拉低了大模(mo)型(xing)(xing)部署的(de)門檻,使(shi)得端(duan)(duan)側設備(bei)部署更高性(xing)能(neng)大模(mo)型(xing)(xing)的(de)可(ke)能(neng)性(xing)增強(qiang)。同時,基于DeepSeek的(de)算法優化策略,使(shi)得支持長文(wen)本處理(li)等復雜任務的(de)高性(xing)能(neng)大模(mo)型(xing)(xing)與端(duan)(duan)側設備(bei)適配,開發(fa)者(zhe)還可(ke)以(yi)(yi)通過蒸餾優化等生成特定(ding)場景(jing)性(xing)能(neng)更強(qiang)的(de)小(xiao)模(mo)型(xing)(xing)。對于中(zhong)小(xiao)企業(ye)或(huo)者(zhe)個人開發(fa)者(zhe)而言,能(neng)更快速相(xiang)關端(duan)(duan)側AI應用。

隨之而來(lai)的(de)是(shi),AI手機、AI PC到AI眼鏡等加速涌現,端側AI爆發已成共(gong)識。

聯想dNPU首個合作伙伴,清華系GPGPU黑馬搶跑邊緣AI爆發

▲華(hua)為、OPPO、榮耀、vivo、小米在手(shou)機端部署大模型

然(ran)而另一(yi)方面,端(duan)側AI的(de)爆發(fa)(fa),于AI芯(xin)片廠商既是(shi)蓬勃發(fa)(fa)展的(de)難得(de)機遇,也帶來了諸多嚴峻挑(tiao)戰(zhan) 。

AI在手機、PC、智能穿戴等(deng)諸多(duo)(duo)端側設(she)備(bei)中(zhong)應用不斷拓展,使得AI芯(xin)片需求大幅增加,并且由于其設(she)備(bei)形態、應用場(chang)景(jing)多(duo)(duo)元(yuan)化,不同場(chang)景(jing)對芯(xin)片需求各(ge)異,為芯(xin)片廠商提(ti)供了更多(duo)(duo)差(cha)異化競(jing)爭的機會。

但更為關(guan)鍵(jian)的是,AI芯片的性能(neng)要符合當下端側設備的發(fa)展趨勢,主要集中(zhong)在性能(neng)、功(gong)耗、成本、可擴展性上。

包括端側(ce)設(she)備對功(gong)耗要求極高(gao),需要芯片(pian)(pian)兼(jian)顧低(di)功(gong)耗、高(gao)性(xing)能,且當下算法和模型仍在不斷更(geng)(geng)新(xin)迭代,芯片(pian)(pian)廠商(shang)需要確(que)保芯片(pian)(pian)高(gao)效(xiao)適配新(xin)的(de)模型和算法。此外,端側(ce)設(she)備的(de)廠商(shang)對成(cheng)本更(geng)(geng)為敏感,芯片(pian)(pian)廠商(shang)需要降低(di)芯片(pian)(pian)的(de)制造(zao)成(cheng)本、研發成(cheng)本等(deng),以提高(gao)產品的(de)市(shi)場競爭(zheng)力。

以(yi)AI PC為例,用戶基于(yu)其(qi)需要(yao)處理的生成任(ren)務各不相同,文字、圖(tu)片、視頻生成等應用盡(jin)有(you),因(yin)此(ci)對于(yu)計算資源和處理能力的要(yao)求也有(you)區別(bie)。

聯想dNPU首個合作伙伴,清華系GPGPU黑馬搶跑邊緣AI爆發

▲聯想AI PC個(ge)人AI助力小(xiao)天(tian)部分功能(圖源(yuan):聯想官方)

這種情況下,以通用(yong)計(ji)算(suan)為核(he)心(xin)的(de)計(ji)算(suan)架(jia)構(gou)在處理生成(cheng)任務時可能面臨性(xing)能有(you)限、效率低下、能耗高、靈活性(xing)不(bu)足等瓶頸,因此從以通用(yong)計(ji)算(suan)為核(he)心(xin)的(de)計(ji)算(suan)架(jia)構(gou)向(xiang)更(geng)加高性(xing)能的(de)異構(gou)AI計(ji)算(suan)架(jia)構(gou)升級,成(cheng)為當下增強端側設備(bei)生成(cheng)式AI體驗的(de)重要(yao)路(lu)徑(jing)。

通(tong)過讓CPU、GPU、NPU等不同(tong)(tong)計算(suan)單元(yuan)“各(ge)司其(qi)職”、協(xie)同(tong)(tong)運作,構建(jian)高性能異構AI計算(suan)架構,便能依據各(ge)類生成任務的特性,實現(xian)任務的合理分(fen)配 。

此(ci)外,對(dui)于AI芯片而(er)言,在滿足性能與功耗等(deng)嚴苛要求(qiu)的(de)(de)同(tong)時,還需提供更高的(de)(de)性價比(bi),才能吸引PC廠商在設備中選用,同(tong)時也(ye)讓終端(duan)用戶更樂于接受搭(da)載此(ci)類芯片的(de)(de)產品(pin)。

在這個(ge)關鍵節點,以AI PC為代表的(de)端(duan)側設備正在呼喚相匹配的(de)AI芯片,加速大模型在端(duan)側的(de)繁榮。

二、小體積、高性能、低功耗、高性價比,M.2加速卡成AI PC致勝利器

就在2025世界移動通信大會(MWC 2025)上,我們看到了AI PC龍頭聯想和國產AI芯片(pian)廠商芯動力聯手的成(cheng)果。

聯想dNPU首個合作伙伴,清華系GPGPU黑馬搶跑邊緣AI爆發

聯想全新升級的(de)AI PC系列(lie)產品亮相,而支(zhi)持其AI體驗的(de)關(guan)鍵(jian)之(zhi)一,正是芯(xin)動(dong)力(li)基(ji)于(yu)可重構(gou)并行處(chu)理(li)器RPP打造的(de)AzureBlade M.2加速卡。

聯想dNPU首個合作伙伴,清華系GPGPU黑馬搶跑邊緣AI爆發

聯(lian)想相(xiang)關(guan)負(fu)責人在(zai)MWC上介紹(shao),聯(lian)想AI PC實現了將(jiang)大(da)模型(xing)放到(dao)本(ben)地(di)端推(tui)理的(de)突(tu)破(po),盡管傳統本(ben)地(di)推(tui)理大(da)都采(cai)用(yong)集成(CPU+iNPU)或獨立顯卡GPU,但經(jing)過多重對比發(fa)現,在(zai)運(yun)行(xing)大(da)語(yu)言模型(xing)時(shi)(shi),通常依賴GPU進(jin)行(xing)加(jia)速(su),iNPU只(zhi)有(you)在(zai)特(te)定的(de)場景中(zhong)才(cai)能(neng)(neng)被調用(yong)。聯(lian)想AI PC最終采(cai)用(yong)了芯動力AzureBlade M.2加(jia)速(su)卡,并(bing)命名(ming)為dNPU。M.2加(jia)速(su)卡在(zai)進(jin)行(xing)大(da)模型(xing)推(tui)理時(shi)(shi)具(ju)有(you)高(gao)效率、低功耗性能(neng)(neng),同時(shi)(shi)可進(jin)一步釋放顯卡能(neng)(neng)力,在(zai)提高(gao)效率的(de)同時(shi)(shi)更節(jie)約能(neng)(neng)耗。

聯想dNPU首個合作伙伴,清華系GPGPU黑馬搶跑邊緣AI爆發

▲AI NOW不做(zuo)大模型(xing)推理:右側GPU usage和dNPU占用率均為0%

聯想dNPU首個合作伙伴,清華系GPGPU黑馬搶跑邊緣AI爆發

▲AI NOW進行大模型推理:右側GPU usage仍(reng)為0%,dNPU在(zai)40%上下

從具(ju)體的(de)效果來看,聯想PC上的(de)個人智能(neng)體AI NOW執行(xing)推理(li)任務主(zhu)要(yao)在dNPU內(nei)完成,無需占用(yong)(yong)(yong) CPU、顯(xian)存或GPU資源(yuan),整個推理(li)過(guo)程中,CPU的(de)資源(yuan)占用(yong)(yong)(yong)極低,僅(jin)在數據預處理(li)以及數據傳(chuan)輸環(huan)節(jie)占用(yong)(yong)(yong)少量資源(yuan),可(ke)以顯(xian)著提高推理(li)速(su)度和整體性能(neng)。

在低功耗方面,通過聯想小新14P實測,芯動力研發人員發現,于本地化大模型部署場景下,運用芯動力dNPU執行大模型推理任務時,整機能耗相較于未使用dNPU的情形,實現節省了60%能耗。這得益于dNPU的深度優化架構,其推理任務可以僅通過CPU適度調用即可完成,避免額外高功耗設備介入。

這種(zhong)設計整體優(you)化了(le)系統運(yun)行的(de)高性能和低功(gong)耗。

具(ju)體(ti)來看(kan),AI PC等(deng)端側設備通常(chang)受限于緊(jin)湊空(kong)間,內部留給各類(lei)組件的體(ti)積十分有限,因此M.2加速(su)卡的體(ti)積也要足夠(gou)小。

芯動(dong)力基于(yu)RPP架構自(zi)主研發的AI芯片(pian)AE7100尺寸(cun)僅為17mm×17mm,集成了(le)該芯片(pian)的M.2加速卡(ka)尺寸(cun)為22mmx88mm,大小與半(ban)張名片(pian)相當。

聯想dNPU首個合作伙伴,清華系GPGPU黑馬搶跑邊緣AI爆發

與之(zhi)相(xiang)匹配的(de)是強大的(de)性(xing)能,M.2加速卡擁有高(gao)達32TOPs的(de)算力以及60GB/s的(de)內(nei)存帶寬(kuan),功(gong)耗也(ye)被(bei)嚴格控(kong)制在(zai)8w以下,同(tong)時可支撐大模型在(zai)AI PC等設(she)備上運行,適配了Deepseek、Llama3-8B、Stable Diffusion、通(tong)義千問等開源模型。

為了讓M.2加(jia)速(su)卡(ka)與PC自然融合,芯動(dong)力(li)采用(yong)扇出型封(feng)裝,用(yong)玻璃載(zai)板(ban)替代(dai)ABF材料,既減小了芯片面積,還實(shi)現(xian)了低成(cheng)本先進封(feng)裝。

值得一(yi)提的是(shi),端側AI應(ying)用(yong)開發(fa)的需求(qiu)多樣化,因此AI芯片需要降低開發(fa)者(zhe)的軟(ruan)件適配和調試難度、成本,讓其(qi)更容易實現AI應(ying)用(yong)的兼(jian)容,幫助其(qi)更快(kuai)開發(fa)出相應(ying)應(ying)用(yong)。

在此基(ji)礎上,AE7100實(shi)現從底層指令集到(dao)上層驅動的全(quan)面兼容,沿用英(ying)偉達軟(ruan)件棧,并(bing)進行了指令集、驅動層和(he)開(kai)(kai)發庫的優化,提升開(kai)(kai)發效率與邏輯(ji)實(shi)現的直觀性(xing)。

同時(shi),由于M.2加速卡兼容CUDA和(he)ONNX,能(neng)夠滿(man)足各類AI應用的多樣化(hua)需求,其高(gao)算力(li)和(he)內存帶寬能(neng)確保數(shu)據的高(gao)效穩定處(chu)理(li)與傳(chuan)輸(shu)。無論是圖(tu)像識別、自然語言處(chu)理(li)等需要大量數(shu)據運算的AI任務(wu),還是對數(shu)據實(shi)時(shi)性要求高(gao)的場景,該加速卡都能(neng)保障數(shu)據處(chu)理(li)和(he)傳(chuan)輸(shu)的順暢,避免因算力(li)不足或數(shu)據傳(chuan)輸(shu)瓶頸導致的應用性能(neng)下降。

在AI和非(fei)AI設備上,M.2加速(su)卡(ka)都(dou)實現(xian)(xian)了兼容。如(ru)AI智(zhi)能(neng)調整、隱私保護(hu)等,聯想AI Monitor內(nei)置M.2加速(su)卡(ka),可以實現(xian)(xian)監控用戶(hu)(hu)的動作和姿勢,實時(shi)調整屏(ping)幕的傾(qing)斜角度(du)和高度(du),以及用戶(hu)(hu)離(li)開(kai)電(dian)腦(nao)前自動模糊屏(ping)幕等;對于非(fei)AI設備,聯想AI Monitor可以與其配(pei)合使用,利用M.2加速(su)卡(ka)的算力處理(li)來自用戶(hu)(hu)的請求。

可以看出,M.2加(jia)速卡針對端側設備部署(shu)大(da)模型的(de)優化是(shi)全方位的(de)。也正因如此,在當前端側AI發展浪潮下,全球AI PC巨頭聯想選擇了與芯動力(li)聯手。

將(jiang)視(shi)角拉長(chang),我們發現(xian),這正是芯(xin)動力(li)在AI時代(dai)精準洞察(cha)行業(ye)趨(qu)勢,積(ji)累勢能的最好體現(xian)。

三、“六邊形戰士”劍指邊緣AI,契合端側大模型部署痛點

想要剖析芯動力在當下的(de)優勢(shi),可以從其針(zhen)對并行計(ji)算設計(ji)的(de)芯片架構說起(qi)。

芯動力將其(qi)自研(yan)的RPP架構稱作(zuo)“六邊形戰士”,主要解決的就是高性能、通(tong)用性可(ke)以(yi)兼得的難題(ti)。

這一架構既結(jie)合(he)了NPU的高(gao)效(xiao)率與GPU的高(gao)通用性優勢,更具備DSP的低延(yan)時,可滿足高(gao)效(xiao)并行(xing)計(ji)(ji)算(suan)及AI計(ji)(ji)算(suan)應(ying)用,如(ru)圖像計(ji)(ji)算(suan)、視覺計(ji)(ji)算(suan)、信號處(chu)理計(ji)(ji)算(suan)等,大大提高(gao)了系統的實時性和響應(ying)速(su)度。

芯動(dong)力的優(you)勢在(zai)于,其是(shi)首(shou)家采用CUDA作(zuo)為(wei)芯片架(jia)構(gou)的設計方向(xiang),利用數據流結構(gou)避免(mian)數據與計算(suan)單元間反復調用帶來(lai)的效率(lv)損失。并且其具有編譯器、運行時環境、高度優(you)化的RPP庫,可(ke)全面兼容CUDA的端到端完整軟件棧,實現(xian)邊緣AI應用的快速(su)高效部署。

這契合了當下大模型部(bu)署在(zai)端側設備的諸多(duo)痛點(dian)。

正如(ru)聯想相關負責人(ren)所說:“dNPU代表了未(wei)來大模型在PC等(deng)本地端(duan)推理的技術方向和趨勢。”

展望未(wei)來(lai),該芯(xin)片可(ke)以(yi)提升大模型在端(duan)側部署(shu)時(shi)的(de)推(tui)理速度,并降低(di)功耗(hao)、提升能(neng)效,推(tui)動多元化AI應用涌現(xian)的(de)同時(shi),為(wei)AI PC帶來(lai)更多增長空間。或許在未(wei)來(lai),dNPU對PC的(de)加持(chi)會使(shi)其成為(wei)與GPU類似的(de)電腦標(biao)配(pei)。

此外,dNPU可以以獨(du)立的(de)標準化插(cha)件(jian)存(cun)在,給用戶(hu)提供了更高的(de)性價比和(he)靈活性,如果其對生(sheng)成式AI能力沒有更高需求,用戶(hu)可以不采用dNPU。反之(zhi),若將dNPU集成至CPU中(zhong),會導致產品價格過高,降低用戶(hu)的(de)購(gou)買欲望。

或許在不遠的將來(lai),dNPU就會作為標準化插件,廣泛出現在市面上所(suo)有可選擇配置的電(dian)腦機型中。邊緣AI時代的爆發(fa)已經有跡(ji)可循。

邊緣(yuan)計算(suan)作為云端算(suan)力有效(xiao)補充(chong),同樣是(shi)大模型落地的(de)必然趨勢。

大(da)(da)模(mo)型由(you)于參數(shu)規模(mo)龐大(da)(da)、計算(suan)復雜度高(gao),對算(suan)力的需(xu)求極為嚴苛,將大(da)(da)模(mo)型部(bu)署在(zai)云(yun)端,雖然能利用(yong)強大(da)(da)的云(yun)端算(suan)力,但數(shu)據往返云(yun)端的過程會產生(sheng)不(bu)可忽視的延遲,這對于如自動駕(jia)駛、智能安防等對實時性(xing)要求極高(gao)的應(ying)用(yong)場景(jing)而言是致命的。

DeepSeek的出現,意(yi)味著邊(bian)緣(yuan)(yuan)AI競賽來到(dao)新(xin)的節點。在邊(bian)緣(yuan)(yuan)設備上(shang)運行更(geng)復雜、更(geng)強(qiang)大的AI模型(xing)成為現實,吸引了眾多企業和開發者投身于邊(bian)緣(yuan)(yuan)AI領域的創新(xin)與競爭。

在(zai)這之前,芯動力基于RPP架構打造的(de)AI芯片,已經憑借高性能、低功耗、低成(cheng)本(ben)等(deng)優勢(shi),在(zai)泛(fan)安防/邊緣(yuan)(yuan)服(fu)務器(qi)、工業(ye)影像/機(ji)器(qi)視(shi)覺、信號處理/醫(yi)療影像、機(ji)器(qi)人等(deng)邊緣(yuan)(yuan)AI應用市(shi)場有眾多應用落地(di),并與浪潮信息等(deng)眾多重(zhong)磅玩家達(da)成(cheng)戰略合作。

可(ke)以確定的(de)是,芯(xin)動力RPP芯(xin)片(pian)架構的(de)應用潛力正(zheng)被(bei)無限釋放出來,看(kan)到這一發展趨勢的(de)芯(xin)動力,也加快了產(chan)品(pin)的(de)發布(bu)節奏(zou)。據了解,今年,芯(xin)動力將推出基于RPP集成Chiplet的(de)8nm R36芯(xin)片(pian),2027年將推出更高(gao)性能的(de)3nm R72芯(xin)片(pian)。

結語:RPP架構為邊緣AI時代爆發積勢

AI時代的(de)(de)產業(ye)(ye)發展(zhan)速度(du)之快、變化之多可謂有目共睹,從日(ri)常生活(huo)中的(de)(de)智能語音(yin)助手,到工業(ye)(ye)領域的(de)(de)智能生產系統,AI的(de)(de)應用正(zheng)以(yi)前所未有的(de)(de)廣度(du)與深度(du)滲透(tou)進各個行業(ye)(ye)。這(zhe)一浪潮下(xia),AI芯(xin)片(pian)需要(yao)具(ju)備更強大(da)的(de)(de)計算能力以(yi)滿(man)足復雜運算需求,才能承接住這(zhe)一波市場紅利。

因此,精(jing)準洞察產業(ye)發展趨勢、堅持(chi)自(zi)研(yan)創(chuang)新、將自(zi)身(shen)業(ye)務體系(xi)做(zuo)到極致才能有效應對(dui)市場變化(hua)。芯動力(li)RPP架構的(de)出現就是很(hen)好的(de)例證,未(wei)來(lai),其將基于這一(yi)“六邊形戰士”帶給(gei)邊緣AI時(shi)代(dai)什(shen)么樣的(de)驚喜,我們拭目以(yi)待。