智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影

2025年(nian),以(yi)DeepSeek、QwQ等為代表(biao)的(de)推(tui)理大模型火爆(bao)全球,并在復雜任(ren)務上展現出強大實力。這(zhe)也讓不少(shao)企業考慮,如何(he)能利用(yong)此(ci)輪推(tui)理大模型的(de)技術進步(bu),來優化自身的(de)決策、提升(sheng)企業運行效(xiao)率并促進創新。

然而,傳統的CPU服(fu)務器在(zai)處理(li)當前的AI推(tui)理(li)需求時顯得(de)力不(bu)從心(xin),而GPU推(tui)理(li)服(fu)務器動(dong)輒上百萬的高昂成本又(you)將許(xu)多中小企業擋在(zai)門(men)外(wai)。

在這(zhe)樣的背景下,市場(chang)亟需一種既能控(kong)制(zhi)成本又(you)能保證性能的服(fu)務(wu)器解決方案,以(yi)滿足(zu)企業(ye)對便捷、高性價比(bi)AI推理服(fu)務(wu)的需求。

隨(sui)著AI技術的(de)快速發展,CPU服務器(qi)也在不斷進化(hua)。近(jin)日(ri),浪潮信息發布的(de)元腦CPU推(tui)理服務器(qi),能高效運(yun)(yun)行DeepSeek-R1 32B和QwQ-32B等(deng)適合(he)企(qi)業日(ri)常需求的(de)推(tui)理模型,還能與企(qi)業原有(you)的(de)業務兼容,具備(bei)性價比高、運(yun)(yun)維簡單等(deng)優(you)勢。

▲元腦CPU推(tui)理服務器,基于QwQ-32B模(mo)型(xing)生(sheng)成猜數字游戲

在GPU服務器(qi)之外,新一代CPU推理服務器(qi)為企業(ye)提供了(le)快速、易(yi)獲取且低成本的算力供給,正成為更(geng)多企業(ye)的理想選擇(ze)。

一、跑大模型GPU并非唯一解,CPU推理服務器成中小企業理想新選擇

當談及(ji)部署(shu)大(da)(da)模型時(shi),不少企業的(de)第一反(fan)應都是“買卡”。的(de)確,在(zai)大(da)(da)模型訓練、推(tui)理(li)的(de)場景中,GPU加速(su)卡憑(ping)借強大(da)(da)的(de)浮點運(yun)算能力和大(da)(da)規模并行(xing)處理(li)架(jia)構,在(zai)高吞吐量的(de)AI推(tui)理(li)任(ren)務(wu)上展現(xian)出(chu)明(ming)顯優(you)勢。

但GPU并不是唯一解。

CPU更擅長處(chu)理復(fu)雜的(de)邏輯運算和通用(yong)計(ji)算任務(wu)(wu),雖然在高并行計(ji)算任務(wu)(wu)上不如GPU,但在處(chu)理多樣(yang)化工作(zuo)負(fu)載(如數據庫(ku)查詢、業務(wu)(wu)邏輯處(chu)理)時性能(neng)表(biao)現優秀。而且(qie),隨著(zhu)技術的(de)不斷迭(die)代(dai),具(ju)備AI計(ji)算能(neng)力的(de)CPU服務(wu)(wu)器也開(kai)始(shi)在AI推理場景(jing)中展現獨到優勢。

在大(da)模(mo)型推(tui)理過程中(zhong)(zhong)(zhong),不少模(mo)型采用(yong)KV Cache(鍵值緩(huan)存(cun)(cun)),用(yong)于(yu)存(cun)(cun)儲解碼(ma)過程中(zhong)(zhong)(zhong)生成的中(zhong)(zhong)(zhong)間結果,以減少重復計算,提(ti)升(sheng)推(tui)理效率。隨著模(mo)型規模(mo)的增大(da),KV Cache的存(cun)(cun)儲需求也隨之增加。

與GPU服務(wu)(wu)器相(xiang)比,CPU推理(li)服務(wu)(wu)器以(yi)更低的(de)硬件投入,支(zhi)持(chi)更大(da)容量的(de)系(xi)統內存(cun)(cun),能夠輕松存(cun)(cun)儲(chu)更大(da)規(gui)模的(de)KV Cache,避免頻(pin)繁的(de)數(shu)據交(jiao)換,從而提升推理(li)效(xiao)率。CPU推理(li)服務(wu)(wu)器還(huan)可通過(guo)多通道內存(cun)(cun)系(xi)統,進一(yi)步支(zhi)持(chi)大(da)規(gui)模KV Cache的(de)高效(xiao)訪問。

當CPU推理(li)服(fu)務(wu)器與高效的中等尺寸(cun)推理(li)模型結合后(hou),能(neng)夠(gou)形(xing)成顯(xian)著(zhu)的協同效應,在(zai)保證(zheng)性能(neng)的同時進一步(bu)壓縮成本(ben)。

以(yi)業界多(duo)款32B推(tui)理模型(xing)為(wei)例(li),這些模型(xing)通過采用(yong)更高效的(de)注意(yi)力(li)機(ji)制、模型(xing)量化(hua)與壓(ya)縮(suo)技術以(yi)及(ji)KV Cache優化(hua),顯(xian)著降低了(le)計(ji)算和存儲需求。例(li)如,DeepSeek-R1 32B在(zai)知識問答、智能(neng)寫(xie)作和內容生(sheng)成(cheng)等方面(mian)表(biao)現優異,而QwQ-32B則在(zai)數學推(tui)理、編程(cheng)任務(wu)和長文本處理等領域展現出強大(da)的(de)性能(neng)。

此外(wai),DeepSeek-R1 32B和QwQ-32B的(de)訓練數據中(zhong)包含(han)了海(hai)量(liang)的(de)高質量(liang)中(zhong)文語(yu)料庫,使其更加適合國內企業的(de)應(ying)用(yong)需(xu)求。

在企業(ye)知(zhi)識(shi)庫問答、文檔寫作、會議(yi)紀要(yao)整理(li)(li)等場景中,32B參(can)數級別的模型往(wang)往(wang)是最(zui)佳選擇,既(ji)能(neng)(neng)(neng)提供強(qiang)大的能(neng)(neng)(neng)力支持,又能(neng)(neng)(neng)保持合理(li)(li)的硬件投(tou)入,僅基于CPU推理(li)(li)服務器,企業(ye)用戶即可實(shi)現(xian)本地(di)化部(bu)署,滿足對(dui)性能(neng)(neng)(neng)、成本和易(yi)用性的多重需求。

從成本角(jiao)度(du)來看,相比GPU服務器(qi)高昂(ang)的硬件成本,更(geng)嚴格的電源(yuan)、散(san)熱和機架空間,CPU服務器(qi)對(dui)環境的要求較為寬松(song),對(dui)于(yu)輕量使用和預算有限的企(qi)業而言,更(geng)具性(xing)價比。

二、軟硬件協同優化成效顯著,解碼速度翻番、效率提升至4倍

浪潮(chao)信息本次推出的元腦CPU推理服(fu)務(wu)器(qi),正是這樣一款支(zhi)持(chi)中(zhong)等(deng)尺寸模型(xing)推理,能為中(zhong)小企(qi)業(ye)提供高效AI推理服(fu)務(wu)的CPU推理服(fu)務(wu)器(qi)。

僅靠CPU也能跑DeepSeek、QwQ!浪潮信息發布全新方案,更懂中小企業的AI服務器來了

在實際(ji)測試中(zhong),單臺元腦CPU推理服務器在使用(yong)DeepSeek-R1 32B進行帶思維鏈(lian)深度思考(kao)的(de)短(duan)輸入長(chang)輸出的(de)問答場景下,解碼性能超過(guo)20tokens/s,20個并(bing)發(fa)用(yong)戶下,總(zong)token數達到255.2tokens/s。

僅靠CPU也能跑DeepSeek、QwQ!浪潮信息發布全新方案,更懂中小企業的AI服務器來了

▲基于DeepSeek-R1 32B 并發性能(neng)測試數據(ju)

在使用QwQ-32B進行(xing)模型推理時(shi),20個并發用戶(hu)數下總token數達到224.3tokens/s,可以提供流暢穩定的用戶(hu)體驗。

僅靠CPU也能跑DeepSeek、QwQ!浪潮信息發布全新方案,更懂中小企業的AI服務器來了

▲基于QwQ-32B 并發性能測(ce)試數據

元腦CPU推理服(fu)務器的性能,得益于浪潮(chao)信息的軟(ruan)硬件協同優化。

算(suan)力方面,元腦CPU推理服(fu)務器采用4顆32核心的英特爾至強處理器6448H,具有AMX(高級矩(ju)陣擴展(zhan))AI加速功能(neng),支(zhi)持(chi)張量(liang)并行計算(suan)。與傳統(tong)雙路(lu)服(fu)務器方案的有限內(nei)存不同,元腦CPU推理服(fu)務器的多(duo)通道內(nei)存系(xi)統(tong)設計可(ke)支(zhi)持(chi)32組DDR5內(nei)存。

在這些硬(ying)件的加持下,元腦CPU推(tui)理(li)(li)服(fu)務器單機具備(bei)BF16精度AI推(tui)理(li)(li)能力、最大16T內(nei)(nei)存容量和1.2TB/s內(nei)(nei)存帶寬(kuan),可以更好滿足(zu)模型權重、KV Cache等計算和存儲(chu)需(xu)求,快速讀取和存儲(chu)數據,大幅(fu)提升(sheng)大模型推(tui)理(li)(li)性能。

僅靠CPU也能跑DeepSeek、QwQ!浪潮信息發布全新方案,更懂中小企業的AI服務器來了

▲元(yuan)腦(nao)CPU推(tui)理服務器NF8260G7配置(zhi)

在算法(fa)方面(mian),元腦CPU推(tui)理服(fu)務(wu)器(qi)對(dui)業(ye)界主流(liu)的企業(ye)級(ji)大模型推(tui)理服(fu)務(wu)框(kuang)架vLLM進行深(shen)度定(ding)制優化,通過張量并行和(he)內存綁定(ding)技術,充分釋放服(fu)務(wu)器(qi)CPU算力(li)和(he)內存帶(dai)寬(kuan)潛能,實現(xian)多處理器(qi)并行計算,效率最高提升至4倍(bei)。

僅靠CPU也能跑DeepSeek、QwQ!浪潮信息發布全新方案,更懂中小企業的AI服務器來了

面對內(nei)存(cun)帶寬的挑(tiao)戰,元腦CPU推理(li)服(fu)務器(qi)為進一步提(ti)升(sheng)解碼性能,采用了AWQ(Activation-aware Weight Quantization激活感知權(quan)重量化)技(ji)術。

AWQ技術能確定模型中(zhong)對性能影響最大的(de)少部分重(zhong)要權重(zhong),并通過(guo)保(bao)護這些權重(zhong)來減少量化帶來的(de)誤差。AWQ還避(bi)免(mian)了混合(he)精(jing)度計算帶來的(de)硬件效(xiao)率損(sun)失。

采用了AWQ的元腦CPU推理服(fu)務器在解碼任務中的性(xing)能提升了一倍,讓大模型(xing)在保持高性(xing)能的同(tong)時,跑得更(geng)快、更(geng)省(sheng)資源。

僅靠CPU也能跑DeepSeek、QwQ!浪潮信息發布全新方案,更懂中小企業的AI服務器來了

元腦CPU推理服(fu)務(wu)器還通過(guo)浪潮(chao)信息打造的AI Station平臺,支持用戶靈活(huo)選擇(ze)適配的大模(mo)型算(suan)法,包括DeepSeek全系模(mo)型、QwQ和Yuan等不同參數量的模(mo)型。

三、更懂中小企業需求,通用性、成本效益突出

在智東西與浪潮信息副總經理趙帥的溝通中(zhong),我(wo)們了(le)(le)解到,元腦CPU推理服務(wu)(wu)器僅推出1周,便(bian)吸引了(le)(le)多家來自大模型、金融、教育(yu)等行業的客戶(hu)咨詢和測試,這款CPU推理服務(wu)(wu)器精準地填(tian)補了(le)(le)中(zhong)小企業市場中(zhong)的一個關鍵空白。

目前,許多(duo)企(qi)業對(dui)將(jiang)私有數(shu)據上(shang)云仍持(chi)保留態度,更傾(qing)向(xiang)于(yu)(yu)(yu)在本地完成AI推(tui)(tui)理任務。然而(er),如果企(qi)業選擇使用(yong)(yong)GPU服務器來部(bu)署高(gao)性能AI模型,往(wang)往(wang)需要承擔高(gao)昂的初始投資成本。對(dui)于(yu)(yu)(yu)中小企(qi)業而(er)言,這(zhe)種投資的性價(jia)比并不(bu)高(gao)——它(ta)們通常(chang)不(bu)需要極致(zhi)的AI性能或(huo)超高(gao)的并發處理能力,而(er)是更關注易于(yu)(yu)(yu)部(bu)署、易于(yu)(yu)(yu)管理、易于(yu)(yu)(yu)使用(yong)(yong)的入門級AI推(tui)(tui)理服務。

在這種(zhong)情況下,生態更(geng)(geng)為成熟(shu)、開發工具更(geng)(geng)為健全的CPU推理(li)服(fu)務器展現出了顯著的優勢。CPU推理(li)服(fu)務器不(bu)僅(jin)能(neng)夠(gou)更(geng)(geng)好地融入(ru)企業現有的IT基(ji)礎設施(shi),還因其通用性而具備(bei)更(geng)(geng)高的靈活性。

與(yu)專用AI硬件(jian)(如GPU服(fu)務器)不同,CPU推理服(fu)務器在AI推理需(xu)求(qiu)空閑期,還(huan)可以兼顧企(qi)業的(de)其(qi)他通用計算需(xu)求(qiu),如數據庫管理、ERP系統(tong)運(yun)行等,從而最大化硬件(jian)資源的(de)利用率。

在部署便(bian)捷(jie)性(xing)方面,元腦CPU推理服務(wu)(wu)(wu)器(qi)功耗2000W左右,降低(di)了對(dui)供電設備(bei)的要求,還(huan)使(shi)得服務(wu)(wu)(wu)器(qi)的冷卻需(xu)求大幅減少,僅需(xu)家用級(ji)空調即(ji)可(ke)滿足散熱要求。這意味著(zhu)元腦CPU推理服務(wu)(wu)(wu)器(qi)能夠輕松(song)適應大部分企(qi)業自建的小型機房環(huan)境,無需(xu)額外投資高成本(ben)的冷卻設施(shi)或(huo)對(dui)現(xian)有機房進行大規模改造。

元(yuan)腦CPU推理(li)服務(wu)器(qi)還具(ju)備高可靠性的(de)(de)特點,平均無故障(zhang)時間可達200000小時,能夠(gou)保障(zhang)關鍵(jian)應用和(he)AI推理(li)任(ren)務(wu)的(de)(de)持續穩定(ding)運(yun)行(xing)。這一特性對于(yu)企業(ye)(ye)來(lai)說尤為重要,尤其是在金(jin)融(rong)、醫療(liao)、制造等(deng)對系統穩定(ding)性要求極高的(de)(de)行(xing)業(ye)(ye)中(zhong),高可靠性意味著(zhu)更(geng)低的(de)(de)業(ye)(ye)務(wu)中(zhong)斷風險(xian)和(he)更(geng)高的(de)(de)運(yun)營效率。

談(tan)及未來,趙帥分享,浪潮信息(xi)還將進一步提(ti)升(sheng)元腦CPU推理服(fu)務器(qi)的(de)(de)能力。依(yi)托于融合架構開發的(de)(de)經驗積累,他們(men)已在開發內存資(zi)源池化的(de)(de)新(xin)技術,結合長文本(ben)等算法特(te)征進行軟件(jian)優化,更好(hao)地支持企(qi)業的(de)(de)使用需求。

結語:CPU推理服務器有望推動AI普惠

隨著AI技術往行(xing)業深水區發(fa)展,大模型推理需求正從(cong)大型企(qi)(qi)業逐步向中(zhong)小企(qi)(qi)業滲(shen)透(tou),從(cong)少部分(fen)企(qi)(qi)業所享(xiang)有的(de)“奢侈品”轉化為大部分(fen)企(qi)(qi)業的(de)“必(bi)需品”。

在這(zhe)一進程(cheng)中,如元腦CPU推理(li)服務器(qi)這(zhe)樣(yang)的高(gao)性價比AI推理(li)解決方案(an),有望(wang)成(cheng)為中小企業實(shi)現AI普及化(hua)和(he)行業智能化(hua)的重要(yao)工具。