芯東西(公眾號:aichip001)
作者 | 云鵬
編輯 | 漠影

今天,一(yi)場橫跨各個產業的(de)算力革命正在AI新(xin)時代爆(bao)發,隨著以DeepSeek為代表的(de)國產大模(mo)型加速(su)走向產業,AI從云端(duan)走向端(duan)邊,大模(mo)型和AI應用(yong)的(de)落地熱潮勢不可擋。

在這(zhe)樣的(de)(de)趨(qu)勢下,AI推(tui)理算(suan)力(li)需求的(de)(de)暴漲(zhang)給產業同時帶來了(le)機遇(yu)和挑戰,根據公開數據預(yu)測,未(wei)來3年,推(tui)理算(suan)力(li)年復合增速將達到訓練(lian)算(suan)力(li)的(de)(de)近4倍。如何把百億級參數模(mo)型落地智能(neng)終端(duan)、實現云級推(tui)理能(neng)力(li)走向端(duan)邊(bian),同時兼顧高(gao)性能(neng)、高(gao)能(neng)效(xiao)、高(gao)隱私安全,成為(wei)業內關注的(de)(de)核心焦點在。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

在昨日剛(gang)剛(gang)盛大開幕的2025世(shi)界(jie)人(ren)工(gong)智能大會(WAIC 2025)上,我(wo)們看到數十(shi)家國內AI龍頭鏈主(zhu)企業亮(liang)出了(le)3000多(duo)項前沿技(ji)術和產品,包括40多(duo)個大模(mo)型、50多(duo)個AI終端產品和60多(duo)個機器人(ren),大家對終端產品上各類亮(liang)眼的端側AI應用(yong)體(ti)驗興趣盎然。

作為這場AI算力革命核心玩家的芯片企業們,也紛紛在這場盛會上亮出自己的看家本領。比如國內AI芯片創企后摩智能就發布了面向端邊大模型場景的AI芯片后摩漫界M50,并在(zai)展(zhan)區展(zhan)示了自(zi)家的(de)硬件全家桶和基于存算(suan)一體技術的(de)端邊(bian)大模型落地(di)案例(li)。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

后摩漫界M50以(yi)及(ji)基于(yu)其打造的(de)算力卡,有著極致能效(xiao)比(bi)、高(gao)面(mian)效(xiao)比(bi)、低功耗實現的(de)突出能力,讓產業看到了解開(kai)端邊大模型落(luo)地“算力不足、功耗過高(gao)、隱私泄(xie)露(lu)”三大“癥結”的(de)破局(ju)之道。

繼2023年推出首款存算一(yi)體AI芯(xin)片后,這無疑(yi)是后摩(mo)智(zhi)能向端邊大模型領域再次邁出的關(guan)鍵一(yi)步。

一、端邊大模型落地:高算力、高能效、低功耗、大帶寬、強隱私缺一不可

當下,行業(ye)正迫切需要解開端邊大模型落地三(san)大死結:算(suan)力不(bu)夠用、功(gong)耗(hao)降不(bu)下來、隱(yin)私保(bao)不(bu)住。用戶對于高(gao)算(suan)力、高(gao)能效、低功(gong)耗(hao)、大帶(dai)寬、高(gao)隱(yin)私的需求成為AI推理時代的突出特(te)點。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

在大模型(xing)從云端(duan)(duan)走向端(duan)(duan)邊(bian)設(she)備的過程中,首先要突破(po)算力的瓶頸(jing),端(duan)(duan)側設(she)備算力先天遠(yuan)低于(yu)云端(duan)(duan),目前(qian)即(ji)使(shi)是旗艦消費級PC處理器的NPU算力通常(chang)也(ye)只有數十TOPS。

結合相(xiang)比云端大幅削(xue)減的(de)內存(cun)帶寬(kuan),百億參數模型端側推理速(su)度可能只有(you)10tokens/s左右,完全無法(fa)滿足實(shi)時交(jiao)互的(de)需(xu)求(qiu)(qiu)。與此同時,邊緣節(jie)點往往需(xu)要同時處理海量并發推理需(xu)求(qiu)(qiu),GPU資源利用(yong)率較低,響(xiang)應時間過長,這些都對實(shi)際用(yong)戶體驗有(you)較大影(ying)響(xiang)。

此(ci)外,端(duan)側先天受(shou)制(zhi)于“功耗枷鎖”,絕(jue)大部分端(duan)側移動設備(bei)電池容量有限,同時受(shou)到(dao)整機功耗墻限制(zhi),不可能以大幅犧(xi)牲(sheng)續航體驗來換取AI體驗的提升。

根據三方實測,手機端運(yun)行7B模型的CPU功耗甚至可(ke)以達到8W,這對續航影響十(shi)分顯著。

最后,在(zai)(zai)數(shu)據隱私安(an)全方面,需(xu)求側(ce)的挑戰(zhan)也越(yue)來越(yue)明(ming)顯。端側(ce)AI的發展(zhan)越(yue)來越(yue)快,尤其在(zai)(zai)AI agent浪(lang)潮下,數(shu)據成為關鍵(jian)——無數(shu)據不個性(xing)化。

多模(mo)態大模(mo)型成為(wei)主流,照片、截圖、語音(yin)、文字(zi)、視頻,甚(shen)至(zhi)是(shi)金(jin)融信(xin)息、醫療信(xin)息、用(yong)(yong)戶使用(yong)(yong)習慣、用(yong)(yong)戶深度(du)畫像都會成為(wei)大模(mo)型的(de)數據來源。數據安全被提(ti)到前所(suo)未(wei)有的(de)高度(du),對企業(ye)來說尤其(qi)如(ru)此。

落(luo)地(di)側需求的(de)涌現也不斷激勵芯片產業尋找和(he)探(tan)索(suo)新(xin)的(de)解決(jue)方案,比如通(tong)過(guo)芯片硬件架構(gou)的(de)創新(xin)、資源調度算法(fa)的(de)優化、各類硬件級加(jia)密方式(shi)的(de)升(sheng)級,去提升(sheng)性能(neng)、能(neng)效和(he)安全(quan)性。

從硬件層技術創新來看,存算一體技術路徑(jing)已經被后摩(mo)智能證明行(xing)之(zhi)有效,此(ci)次新品M50的落地(di)進一步鞏固了(le)這(zhe)一技術路線,讓(rang)產(chan)業看到了(le)其實際落地(di)能帶來的產(chan)業價值(zhi)。

二、后摩秀出存算一體王炸升級,解密背后核心軟硬件技術創新細節

此次M50芯片實現的性能突破可以說相當亮眼,同時還兼顧了能效和安全,其最突出的三個特點就是極致能效比、高面效比和低功耗實現。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

單個M50芯(xin)片的(de)典型功耗僅(jin)有10W,但(dan)INT8算力卻(que)直接(jie)達到了(le)160 TOPS,同時有著48GB的(de)大內存,這使其可以支(zhi)持百億級(ji)參數(shu)模型的(de)本地推理。

根據官方實測數據,M50單芯片(pian)就可以實現70億參數大(da)模型(xing)25+tokens/s的推理速度(du),可用性大(da)幅提升。

值得一(yi)提的是,M50還支(zhi)(zhi)持更豐富的混合數據類型(xing),其在Tensor上同樣(yang)支(zhi)(zhi)持浮(fu)點運(yun)算(suan),與此同時,M50支(zhi)(zhi)持通(tong)過芯片互(hu)聯提供更高算(suan)力、擴展(zhan)更多邊端(duan)場景。

在這樣顛覆(fu)式升級的背(bei)后,存算一體架(jia)構(gou)的技術(shu)創新發揮(hui)著關(guan)鍵作用,基于非馮·諾依(yi)曼(man)架(jia)構(gou),存算一體架(jia)構(gou)可以打破芯片設計的“存儲(chu)墻”及“功(gong)耗墻”,實現計算單(dan)元與存儲(chu)單(dan)元的集成,在存儲(chu)單(dan)元內完成部(bu)分(fen)或全部(bu)的運算,進而解決芯片性能瓶頸、提(ti)升能效比。

具體來看,IP創新是關鍵一環,后摩智能自主研發了存算一體創新IP,其可(ke)以滿足多精(jing)度、高(gao)能效(xiao)比、高(gao)帶寬(kuan)、低功耗(hao)等需求。

M50用上了后摩(mo)智能自研的(de)第二代存算(suan)一(yi)體(ti)IP,支持雙端口的(de)加載和計(ji)算(suan)的(de)并行(xing),并且解決了大量(liang)測試和可靠性(xing)難題。此前業內幾乎沒(mei)人做過存算(suan)一(yi)體(ti)芯(xin)片在(zai)這(zhe)方面的(de)測試,后摩(mo)智能是真正腳踏(ta)實地(di)一(yi)點點摸索出來的(de)。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

此外,在極小(xiao)芯片面積(ji)內實現大算力的同時兼顧電(dian)源穩定性也是一(yi)大挑戰,后(hou)摩(mo)智能團隊在這方面積(ji)累了不(bu)少(shao)技(ji)術專利。

在有了(le)高(gao)效存(cun)算一(yi)體IP后,如何高(gao)效利用并落地實現交付給(gei)客戶,還要考(kao)驗AI處理(li)器的(de)設計(ji)能力(li),后摩智能針對大(da)模型(xing)應(ying)用專門(men)設計(ji)了(le)新的(de)IPU架構,包括對自適(shi)應(ying)計(ji)算或者(zhe)彈性加(jia)速的(de)支(zhi)持,以及在存(cun)算上直接進行浮點運算。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

從創始(shi)人兼CEO吳強博士在(zai)演講中提到(dao),團隊從2023年就開(kai)始(shi)研究大模型(xing)和存(cun)算一體(ti)的結合(he),投入很多(duo)資源,在(zai)過去兩(liang)年陸續(xu)發表(biao)了30多(duo)篇國際頂刊論文。

此外,后摩智能還自主研發了易于使用的軟件工具鏈,適(shi)配存(cun)算架構的算子庫,可以高效利用(yong)存(cun)算IP所(suo)帶來的性能、功耗(hao)優勢,簡化部署(shu)流程的同時,提(ti)升部署(shu)能效。

可以(yi)看到(dao),在存算一(yi)(yi)體這(zhe)(zhe)條技術(shu)(shu)路(lu)線(xian)上,后(hou)摩智能做了海量的(de)扎實研發(fa),填(tian)補(bu)了諸多技術(shu)(shu)空白,并一(yi)(yi)步一(yi)(yi)個腳印地探索出(chu)了一(yi)(yi)條切實可行的(de)落地路(lu)徑,從(cong)學(xue)術(shu)(shu)論文到(dao)落地應用,讓產(chan)品真正“work”,是才最(zui)難(nan)的(de),而這(zhe)(zhe)些都是表面上所看不到(dao)的(de)艱辛。

三、“一片口香糖”尺寸解決百億參數大模型落地,多場景端邊設備智能體驗“質變”

在M50過硬的(de)(de)芯片硬實力基礎上,后摩智能推出(chu)了豐(feng)富產品形態,幫(bang)助企業在端(duan)邊(bian)多(duo)場(chang)景完成(cheng)大模型在設備(bei)端(duan)的(de)(de)落地。這些產品已經可以實現消費終端(duan)、智能辦公、智能工業等諸多(duo)場(chang)景的(de)(de)覆蓋,給這些端(duan)邊(bian)設備(bei)的(de)(de)AI體驗(yan)帶來顯著改善。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

當下(xia),AI手機和AI PC是端側AI落地走的最快的兩種產品形態,而PC相比手機,同時兼顧消(xiao)費端和產業端應用(yong),適用(yong)性(xing)更為廣泛,AI PC也(ye)是后摩智能M50芯片以及相關產品表現頗為亮眼的領域(yu)。

其中力(li)擎LQ50 M.2卡(ka)基(ji)于標準M.2 2280規格,將(jiang)M50芯片的算力(li)濃縮至“單(dan)片口香糖”尺寸,可以(yi)“即插即用”,使(shi)用十(shi)分(fen)便捷,這對于緊湊型移動設備非常重要。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

LQ50 M.2卡基于(yu)采(cai)用(yong)存(cun)算一體創(chuang)新架構,搭配了48GB LPDDR5內存(cun),內存(cun)帶寬153.6 GB/s,可以(yi)直接本地(di)運行(xing)百億級(ji)參數(shu)大(da)模型,7B/8B模型推理速度據稱可超過(guo)25tokens/s,小尺寸(cun)低功耗(hao)也令LQ50 M.2卡兼顧了無(wu)風扇設計,適用(yong)性更加廣泛。

值(zhi)得一提的是,在軟件兼容(rong)和開發(fa)生態方面,LQ50 M.2卡兼容(rong)Windows 11/Linux/Android等主(zhu)流(liu)操作系(xi)統,通過后摩(mo)大道(dao)平(ping)臺支持全棧開發(fa),可以靈活部署(shu)在AI PC、AI Stick(AI計算棒)等移(yi)動終端設(she)備中(zhong),在消(xiao)費、辦公(gong)、工(gong)業(ye)等場景中(zhong)提供本地大模型(xing)推(tui)理(li)加速能力(li),同時保障數(shu)據隱私與低延遲響(xiang)應。

在(zai)場景(jing)適配能力方面(mian),M50支持(chi)多芯(xin)互(hu)聯技術,可以(yi)動(dong)態(tai)擴(kuo)展算力適配未來模(mo)型升(sheng)級,這對(dui)更廣泛(fan)場景(jing)的擴(kuo)展覆蓋(gai)十分關鍵。

比如力擎LQ50 Duo M.2卡基于OCP Dual M.2標準(zhun)設(she)計(ji),集(ji)成了兩顆 M50芯片,通過高速互聯技術(shu)實現(xian)320 TOP的(de)算力釋放,同時其配備(bei)了96GB內存(cun),帶寬307GB/s,這樣(yang)的(de)豪(hao)華(hua)規(gui)格使其可以直接突破14B/32B大模型的(de)端側部署(shu)瓶頸。

在邊(bian)緣(yuan)復雜場(chang)景中(zhong),雙(shuang)芯架構(gou)既能(neng)驅(qu)動智能(neng)會議(yi)系統完成多(duo)語種實時翻譯和(he)聲紋識(shi)別會議(yi)紀要,也可以(yi)支持百億(yi)參數大模型(xing)私有(you)化部(bu)署,還能(neng)本(ben)地運行多(duo)模態AI Agent。

基于這些產(chan)品(pin)和(he)解決方案我(wo)們可(ke)以看(kan)到,M50系列產(chan)品(pin)在AI PC、智能(neng)終端、工業邊緣(yuan)設(she)備等場景都具有(you)極高的性能(neng)適配性。

在(zai)消費領域,M50系列可以很好(hao)地(di)賦能平板、PC、AI Stick等移動終端設備;智(zhi)能辦公場景中,智(zhi)能會議系統在(zai)斷網環境下(xia)也(ye)能實現多語種翻譯(yi)、紀要生(sheng)成,會議內容不上云(yun)(yun)、不泄(xie)露;智(zhi)能工(gong)業(ye)領域,產線質檢(jian)與車路云(yun)(yun)協同通過本地(di)算(suan)力完(wan)成實時分析決策,生(sheng)產數據(ju)與運營信息在(zai)設備端閉環處理,避(bi)免云(yun)(yun)端傳輸(shu)隱(yin)患。

把百億大模型裝進終端,存算一體如何“破局”端邊算力困局?

可以看到,“存算一體+端邊大模型”的技術路徑是高效可行的。

這一模式真正給解決有限硬件資源上的高效數據處理的難題提供了行之有效的路徑。對比傳統芯片方案,基于存算一體技術的端邊設備在智能體驗上是有“質變”的,給AI超級應用未來的爆發打牢了端側算力基礎。

可以說,后摩智能存算一體技術和產品,將AIGC等大模型能力融入AI PC、智能終端等場景,也令后摩智能成為推動端邊設備從“功能型”向“智能體”的范式升級的核心玩家之一。

結語:從移動終端、智能辦公到智能工業,存算一體打破端側AI落地“不可能三角”

成立五年(nian)來(lai),后摩智(zhi)能(neng)長期(qi)專(zhuan)注(zhu)深耕存算(suan)一(yi)體技術(shu),從M30到M50,其(qi)已經實(shi)(shi)現(xian)了端邊AI芯(xin)片的(de)良性迭(die)代落地(di)閉環,在諸多場景中實(shi)(shi)現(xian)了對企業的(de)賦能(neng)加速,成為推動AI普(pu)惠落地(di)的(de)關(guan)鍵芯(xin)片玩家(jia)。

在今(jin)年的(de)WAIC 2025大(da)會上,國(guo)內(nei)AI芯片(pian)玩家作為(wei)中(zhong)國(guo)智(zhi)算(suan)產業的(de)核心力(li)量,無疑成為(wei)業內(nei)關注的(de)焦點,結(jie)合當下“算(suan)力(li)即國(guo)力(li)”的(de)大(da)背景(jing),夯(hang)實智(zhi)算(suan)底座也成為(wei)國(guo)內(nei)不少(shao)省份在AI領(ling)域的(de)重要(yao)布(bu)局方向之一。

沿著這一(yi)大趨(qu)勢方(fang)向,后摩(mo)智(zhi)能無疑在端邊大模型AI芯片(pian)領域(yu)跑在了技(ji)術(shu)力的第一(yi)梯隊,用硬(ying)核技(ji)術(shu)創新(xin)給解決行業(ye)頑疾帶(dai)來(lai)新(xin)的解法(fa)。隨著技(ji)術(shu)的快速迭代,我們相信后摩(mo)智(zhi)能會給產(chan)業(ye)帶(dai)來(lai)更多(duo)有價值的技(ji)術(shu)創新(xin)和(he)優秀產(chan)品(pin)。