
智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 漠影
端側(ce)模型的產(chan)業坐標系正(zheng)在被重塑(su)!
一方面,昨日凌晨,AI濃度大大降低的蘋果WWDC中,蘋果智能(Apple Intelligence)正加速融入到系統各個功能中,同時蘋果宣布向所有App開放權限允許開發者直接訪問蘋果智能核心的設備端大語言模型,提出“Foundation Models框架”也引發了不小的討論;另一方面,上周面壁智能發新一代面壁小鋼炮MiniCPM4.0端側模型,0.5B模型性能超Qwen-3-0.6B、以及參數規模1B的Llama 3.2、Gemma3。
這些(xie)可以證明,端(duan)側(ce)智能從可用(yong)到能用(yong)、好用(yong),從技(ji)術概(gai)念到人人可及的(de)距離(li)正在被(bei)迅速(su)拉近。相比于云端(duan)模型,端(duan)側(ce)智能以隱私(si)安全(quan)、響應高效、成本可控、場景適(shi)配的(de)天然優勢,與(yu)我們(men)生活中的(de)硬件設備緊密相連。
端側AI變得無處不在的背景下,當蘋果以生態級框架降低端側AI開發門檻時,面壁智能MiniCPM4.0的技術突破更具底層革新價值,進一步擊穿了端側智能的性能天花板。
MiniCPM4.0的技(ji)術(shu)突破具備何(he)等價值?其(qi)在AI應用爆發(fa)的當下有何(he)重要性?我們將從端(duan)側(ce)模型(xing)發(fa)展(zhan)的底層邏輯(ji)出發(fa),找到(dao)這些問題的答案。
一、端側AI發展已成必然趨勢,技術創新陷入“增量困境”
端(duan)側模型部(bu)署已成為行(xing)業(ye)公認的(de)技術趨勢,然而當前(qian)革命(ming)性的(de)技術創新相對匱乏,且在實(shi)際(ji)應(ying)用(yong)中面臨推理速度瓶頸、功耗控制難題(ti)以及上(shang)下文理解能力不足等(deng)多(duo)重挑戰,這會直接(jie)影(ying)響終端(duan)用(yong)戶的(de)交互體驗。
蘋果作為智能手(shou)機的重要玩(wan)家,其(qi)這次(ci)在WWDC上發布的Foundation Models框架,背后隱(yin)隱(yin)折射(she)出(chu)端側(ce)AI生態即將爆發的趨勢。
Foundation Models框架的作用(yong)是(shi)讓開發(fa)者(zhe)將自己的App輕(qing)松調用(yong)蘋果智能(neng),實現離線(xian)運行、隱私(si)保護且無推理成(cheng)本,更直觀來(lai)說就是(shi)開發(fa)者(zhe)無需支(zhi)付(fu)調用(yong)云(yun)端大(da)模型(xing)API產生的token費用(yong),用(yong)戶(hu)亦(yi)無需為(wei)此(ci)支(zhi)付(fu)額外成(cheng)本。
可以(yi)看出,這(zhe)樣的(de)端(duan)側AI生(sheng)態(tai)本(ben)質上可以(yi)打破傳(chuan)統云端(duan)AI的(de)“成本(ben)-隱私-延遲”三角制約(yue),讓技(ji)術價(jia)值在開發(fa)者、用戶等各環(huan)節實現高效傳(chuan)導。
與此同時,端側AI的爆發亦體現到了設備覆蓋的廣泛性之上,從(cong)智能(neng)手機、筆記(ji)本電腦(nao)到智能(neng)汽車,乃至(zhi)機器(qi)人品類(lei),端側模型(xing)部署正全面滲透(tou)至(zhi)各類(lei)智能(neng)終(zhong)端場景。
然而,與端側AI蓬勃發展的現狀形成鮮明反差的是,在現有技術路徑(jing)下探尋端側基座模型躍升的突破口仍困難重(zhong)重(zhong),類似(si)DeepSeek在基礎(chu)模(mo)型領域引發的現象級(ji)突(tu)破事件更是(shi)鳳毛麟角。
如今參(can)數規(gui)模小到足(zu)以(yi)在端側部署的(de)(de)模型已不在少數,這些模型雖(sui)具(ju)備(bei)基礎的(de)(de)理(li)解與生成能(neng)力,但在性能(neng)突破方面仍(reng)面臨顯著瓶頸。
這與端側設備本(ben)身的諸多特(te)性有關。
端側設備的一大特征就是電池容量和散熱設計等硬(ying)件架構受限,面臨嚴格的能耗約束,需動態進行功耗管理與分配,且容錯率較云端更低。
再加上為了適配內存,端側模型會通過剪枝、蒸餾等技術壓縮模型規模,此舉一定程度上會丟失長序列建模能力,導致多路對話時丟失歷史信息。
在推理速度方面,雖然端側設備距離用戶數據更近,但其芯片往往會受限于制程工藝和面積,使(shi)得典(dian)型端(duan)側算力較云端(duan)GPU相對較低。
盡管面臨這些現實挑戰,但端側模型的突破,正是當下行業將重點聚焦于AI應用之際,使得應用爆發的前提條件之一。正如面壁智能CEO李大海所說,端側基模是(shi)AI時代(dai)端側操作系統級基礎(chu)設施,其能力直接決(jue)定上層應用的天花板(ban),就(jiu)像Windows之(zhi)(zhi)于PC應(ying)用、Android之(zhi)(zhi)于移動應(ying)用,沒有強大的(de)基模支撐,上層應(ying)用就(jiu)難有突破。
二、首個原生稀疏模型,攻克端側(ce)長文本難題(ti)
那么,端(duan)(duan)側模型破局(ju)的關(guan)鍵(jian)突破口究竟在哪?我們(men)可以從(cong)上周面壁智能新(xin)發的端(duan)(duan)側模型MiniCPM-4可以窺見這個問題的答案之一。
此次面壁智能發布的MiniCPM4.0共有8B和0.5B兩種參數規模,這兩個“以小搏大”的模型關鍵特性可以用廣泛覆蓋中端場景(jing)、長文本登陸端側、低開銷比肩同規模模型概括。
具體來看,稀疏注意力模型MiniCPM 4.0-8B,在MMLU、CEval、MATH500、HumanEval等基準測試中,以22%的(de)訓練開銷(xiao),性能(neng)比肩Qwen-3-8B,超越Gemma-3-12B;MiniCPM 4.0-0.5B則以2.7%的(de)訓練開銷,相較(jiao)Qwen-3-0.6B、1B參數規模(mo)的(de)Llama 3.2實現了性(xing)能翻倍,且通過原生QAT(量化感知訓練)技術實現INT4低精度量化,實現高達600 Tokens/秒的推理速度。
在128K長文本場景下,MiniCPM 4.0-8B相較于Qwen3-8B僅需1/4緩存存儲空間,量化版實現90%的模型瘦身。在顯存受限極限場景下,8B模型實現長文本推理速度5倍常規加速以及最高220倍加速。
同時為了保(bao)證運行流暢,其(qi)在注意力(li)機制層面實現高效雙頻動態換(huan)擋,長(chang)文本自動激(ji)活稀疏計(ji)算(suan)模式(shi),短(duan)文本智(zhi)能切換(huan)稠密計(ji)算(suan)模式(shi)。
為了進一步提升端側長(chang)文本的應用范(fan)圍(wei),面壁智能在8B模(mo)型之上微調出兩個特定能力模(mo)型,分別可以用做MCP Client和純(chun)端側性能比肩Deep Research的研究報告神器MiniCPM4-Survey。
值得注意的(de)是,與云端(duan)(duan)模型處(chu)理(li)長(chang)文本場景(jing)不同,端(duan)(duan)側模型要實(shi)現同等(deng)性能(neng)面臨更(geng)高技術挑戰,此前堆參數(shu)、堆算力(li)等(deng)路線在端(duan)(duan)側很難(nan)走通,因此技術創新成(cheng)為端(duan)(duan)側突破瓶頸的(de)核心(xin)驅(qu)動力(li)。
面壁智(zhi)能(neng)在架構、推理(li)層面的系列創新就驗證了這(zhe)條路。
從MiniCPM4.0的前綴就可以看出長文本在端側落地的殺手锏——首個開源原生注意力稀疏(shu)模型(xing)。
模型采用的新(xin)一代InfLLMv2稀疏(shu)注意力架構,一改傳統Transformer模(mo)型的相關(guan)性計(ji)算(suan)方式,而是(shi)實現分塊(kuai)分區(qu)域(yu)高效“抽查(cha)”,即將文本劃分為多個獨立區(qu)域(yu),然后通過(guo)智能化選擇機制(zhi)對最有(you)相關(guan)性的重(zhong)點區(qu)域(yu)進(jin)行(xing)注意力計(ji)算(suan)“抽查(cha)”,可以避免逐字重(zhong)復計(ji)算(suan),適配于移動端或輕量化部署。
▲InfLLMv2稀疏(shu)注意力架構
基于更(geng)精準的上(shang)下文塊選擇算法(fa)、更(geng)細(xi)粒(li)度(du)的查詢(xun)詞元分(fen)組、更(geng)高效的算子實現(xian),InfLLMv2將(jiang)稀(xi)疏度(du)從(cong)行業普遍的40%-50%降至(zhi)5%,注意力(li)層僅需1/10的計(ji)算量即可完成長文本計(ji)算。
另一個殺手锏針對的是推理加速——自研全套端側高性能推理框架。
這同樣是面壁智能系列自研(yan)成果(guo)的(de)體現(xian):CPM.cu自研(yan)推理框(kuang)架、P-GPTQ前綴敏感的(de)模(mo)型(xing)訓練后量化、BitCPM極致低位寬(kuan)量化、ArkInfer自研(yan)跨平臺部署框(kuang)架等(deng),欲補齊端(duan)側推理加速(su)的(de)每一塊短(duan)板。
大模型部署時(shi)要(yao)考慮計算與內存消耗難題,同時(shi)端側芯片碎(sui)片化會導致多平臺(tai)適配與部署工程(cheng)痛點。
在此基礎上,面壁智能專為端側英偉達芯片優化了自(zi)研輕量化(hua)推理框架CPM.cu,能集成靜態內存管理、算子融合、高效投機采樣、前綴敏感的量化算法等多種能力,高效組合稀疏、投機、量化的同時,實現5倍速度提升;同時采用P-GPTQ和BitCPM三值量化方法,以進(jin)一步優化資(zi)源消耗(hao)。
▲輕量化推理框架CPM.cu
對于芯片碎片化帶來的復雜模型適配和部署過程,面壁智能提出的ArkInfer引入跨平臺兼容的(de)架(jia)構(gou)設(she)計、可復(fu)用(yong)且高效(xiao)的(de)推(tui)測采樣與約束解碼方案、可擴展的(de)模型庫前(qian)端等解決方案。
總的來看,從投機采樣、模型壓縮量化到端側部署框架,無一不是面壁智能在算力、內存局限性都更高的端側發力的關鍵,讓端側長文本能力實現從0到1的進階。因此,李大海將MiniCPM4.0的發布定義為“其在模型架構設計、數據治理、學習方法、軟硬協同等方面突破的一次集中成果展示,是一次創新的勝利”。
三、端側應用爆發的基礎設施革命開啟,重構端側應用的場景邊界
從宏觀維度來看,端側基座模型性能的升級對于產業(ye)發展(zhan)有(you)兩方(fang)面重大意義。
最直觀的影響就是加速端(duan)側應用(yong)的爆發。
基(ji)(ji)礎模(mo)型(xing)是一切上層(ceng)應用的(de)(de)發動機(ji),但如今(jin)端側基(ji)(ji)座(zuo)模(mo)型(xing)并不夠好。李大海將(jiang)當前端側的(de)(de)基(ji)(ji)座(zuo)模(mo)型(xing)類比(bi)為19世紀的(de)(de)蒸汽(qi)機(ji),其雖已在一定程度上產生了改變世界的(de)(de)基(ji)(ji)因(yin),但效(xiao)率、可靠性和普適性遠未達(da)標,距離(li)成為推(tui)動AI普及(ji)的(de)(de)“萬用發動機(ji)”還有一段(duan)距離(li)。
因此(ci)訓練更(geng)智能、更(geng)好用的端側模型在(zai)當下顯得更(geng)為(wei)迫切(qie)。
此外,端側模型需要更好理解長文本的整體結構和語義才能使其精準捕捉用戶需求。端(duan)(duan)側設備之上(shang)有(you)大(da)量涉及聊天記錄、位置、瀏覽等(deng)信(xin)息的用戶個人(ren)(ren)信(xin)息,這些信(xin)息不僅是模型(xing)發(fa)揮強大(da)能力的關(guan)(guan)鍵,同時(shi)也承載了用戶的私人(ren)(ren)信(xin)息無(wu)法上(shang)傳(chuan)到云端(duan)(duan),因此長文本對于端(duan)(duan)側AI應用場景的擴(kuo)展(zhan)至(zhi)關(guan)(guan)重要。
MiniCPM4.0的長(chang)文(wen)本能力就進一步擴展了端側(ce)模型(xing)部署(shu)、應用(yong)開發的想象空間。
從更長遠的視角來看,新行業發展機遇的破土而出,向來與技術創新的迭代演進同步,行業發展共識與底(di)層創新技術(shu)驅(qu)動相(xiang)輔相(xiang)成。
面壁(bi)智能(neng)在端側模型領域的布局就是很好的證明(ming),其專注于通過科學化、成本可控的底層(ceng)(ceng)創新。區別于業(ye)界(jie)普遍采(cai)用(yong)的“大(da)力出(chu)奇(qi)跡”路線(xian),其從數據、訓練(lian)、學習、推理等層(ceng)(ceng)層(ceng)(ceng)流程,均(jun)實現研發投入產出(chu)比的最大(da)化。
上文提到的稀疏注(zhu)意(yi)力研究InfLLM,正是(shi)2024年面壁智能與清華大學NLP實驗室聯合發布的研究成(cheng)果,并(bing)在當下為產業創新提供了(le)動力,這一(yi)思(si)路就體現(xian)到了(le)DeepSeek采用的長文本處理架構NSA(Native Sparse Attention)中,二者在稀疏注(zhu)意(yi)力機制(zhi)的技術(shu)本源上一(yi)脈相承。
到如今(jin),在此基(ji)礎上面壁(bi)智能推(tui)出(chu)了InfLLM新(xin)版本(ben)(ben),補齊(qi)在短文本(ben)(ben)推(tui)理(li)的短板。
這一從基礎研究突破到工程化改進,再到不同場景能力擴展的技術良性循環閉環,恰是當下大模型產業良性發展的生動注腳。
更為底層的就是當下大模型開源生態的爆發,李大海透露,面壁智能堅持開源,小鋼炮MiniCPM系列全平臺下載量已累(lei)計破(po)1000萬。
而此次伴隨MiniCPM4.0的發布,其開源屬性進一步透明,從參數(shu)、高(gao)質量(liang)預訓練數(shu)據、稀疏加速(su)算子和框架(jia)都實現了開源。
在(zai)技術創新與應用(yong)場(chang)景(jing)擴(kuo)展的雙(shuang)重(zhong)突(tu)圍下(xia),端側AI的爆發(fa)指日(ri)可待。
回溯近兩年(nian)來大(da)模(mo)型產業發展(zhan),關(guan)于大(da)模(mo)型Scaling Law發展(zhan)遇到瓶頸、互聯網低成(cheng)本公開可用數(shu)據即將用盡的爭(zheng)論頻(pin)發,均使得業界開始重新(xin)思(si)考如何(he)實現AGI;今年(nian)初DeepSeek V3/R1系列(lie)高效模(mo)型全球出圈(quan),通(tong)過技術(shu)創(chuang)新(xin)推動模(mo)型訓(xun)練和推理成(cheng)本持續(xu)下降正逐漸成(cheng)為業界共識,這(zhe)些都是端側AI爆發的種(zhong)子。
清華大學長聘副教授、面壁智能首席科學家劉知遠認為,智能革命的到來不可能依賴模型越大能力越強的規模法則(Scaling Law),而要通過技術創新提升模型能力密度,從而用更低成本構建和使用更強智能,實現AI的高質量、可持續發展。
因此,我(wo)們也(ye)可以感受到端(duan)側基礎(chu)模型在當下AI發展中(zhong)的重(zhong)要性。他也(ye)大(da)膽(dan)發出預測:“只要是這(zhe)個世(shi)界上(shang)已經實現的大(da)模型能力,隨著時間的演進和技術(shu)的進步(bu),最(zui)終(zhong)都(dou)可以在主流終(zhong)端(duan)如PC、手(shou)機、汽車或機器(qi)人上(shang)流暢運(yun)行。”
面壁智能正在朝(chao)著這一(yi)目標沖刺(ci)。
結語:端側智能邁入新時代
面壁智能一(yi)直致力于將大模(mo)型(xing)技術推向(xiang)端側(ce),實現高效的(de)端側(ce)智能,新一(yi)代面壁小鋼(gang)炮模(mo)型(xing)MiniCPM4.0的(de)發(fa)布更具里程碑意義,其標志著端側(ce)智能進入全新時代,
基于此,未來我們(men)有望看到更多(duo)的智能(neng)設(she)備(bei)(bei)具備(bei)(bei)強大的AI能(neng)力(li),伴隨著從(cong)消費級終端(duan)到行業(ye)解決方案,AI或許可以通過端(duan)側化,真正實現從(cong)實驗(yan)室到千(qian)家(jia)萬戶、千(qian)行百業(ye)的普惠落地(di),開啟(qi)人機智能(neng)協同的全新時代(dai)。