
芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影
芯東西12月(yue)(yue)18日(ri)報道,在12月(yue)(yue)15日(ri)舉(ju)行的(de)2023英(ying)特爾(er)新(xin)品發(fa)布會(hui)暨AI技術創新(xin)派對上(shang),英(ying)特爾(er)正式推出第五代英(ying)特爾(er)至強可擴(kuo)展處(chu)理器(qi)(代號Emerald Rapids)。這也是第五代英(ying)特爾(er)至強可擴(kuo)展處(chu)理器(qi)首次在中國亮(liang)相。
第五代英特爾(er)至強可(ke)擴展處(chu)(chu)理(li)器在(zai)(zai)(zai)每(mei)個核心中內置了人工(gong)(gong)智(zhi)能(neng)(AI)加(jia)速(su)器,在(zai)(zai)(zai)提(ti)(ti)高AI、科學計算、網絡、存儲、數據庫、安全等關(guan)鍵(jian)工(gong)(gong)作負載的(de)(de)每(mei)瓦性(xing)能(neng)以及降(jiang)低總(zong)體擁有成本(TCO)方(fang)面具有出色表現。英特爾(er)執行副總(zong)裁兼數據中心與人工(gong)(gong)智(zhi)能(neng)事業部總(zong)經理(li)Sandra Rivera稱該處(chu)(chu)理(li)器為(wei)AI加(jia)速(su)而生,旨(zhi)在(zai)(zai)(zai)為(wei)在(zai)(zai)(zai)云、網絡和邊緣環境中部署AI的(de)(de)客(ke)戶提(ti)(ti)供更(geng)高的(de)(de)性(xing)能(neng)。
英特爾與生態伙伴分享了(le)這款全(quan)新處理器在京東云(yun)、百度智能云(yun)、阿(a)里(li)云(yun)、火山引擎的成功實踐及其應(ying)用價值。會(hui)后,英特爾數據中心與人工智能集團副總裁兼中國區(qu)總經(jing)理陳葆立、阿(a)里(li)云(yun)服務器研發事(shi)業部高級總監(jian)王偉、火山引擎IAAS產(chan)品負責人李越淵接受(shou)芯東西等媒體(ti)的采訪(fang),從云(yun)計算廠商(shang)的視角分享了(le)生成式AI所需的關鍵(jian)芯片能力。
超過(guo)(guo)20家(jia)中國OEM/ODM合(he)作伙(huo)伴(ban)已研發并(bing)(bing)將(jiang)提供(gong)基于第五代英(ying)特(te)爾至(zhi)強可(ke)擴展(zhan)處理器(qi)的系列服務(wu)器(qi)產品,超過(guo)(guo)7家(jia)中國云(yun)(yun)服務(wu)提供(gong)商已驗證(zheng)并(bing)(bing)將(jiang)提供(gong)基于第五代英(ying)特(te)爾至(zhi)強的云(yun)(yun)服務(wu)實例。
一、每個內核內置AI加速功能,可微調200億個參數的大模型
第(di)五(wu)代英特爾至強可擴展處理(li)器(qi)每個內核均具(ju)備(bei)AI加速功能(neng)(neng),無需添加獨立加速器(qi),即可處理(li)要求嚴(yan)苛的(de)端(duan)(duan)到(dao)端(duan)(duan)AI工作(zuo)負載,能(neng)(neng)夠微調多達(da)200億個參(can)數量的(de)大語言(yan)模型,推(tui)理(li)性能(neng)(neng)相較上一(yi)代提高42%,延遲(chi)低于100毫秒。
該處理器擁有多達64核,L3緩存是上一代產品的近3倍(bei);具備8條DDR5通道(dao),內存帶寬高(gao)達5600MT/s,且采用英(ying)特爾超級通道(dao)互(hu)聯(英(ying)特爾UPI)2.0以(yi)增加(jia)跨插槽(cao)內帶寬,提供高(gao)達20GT/s的傳輸。
阿(a)里云服務器研發事業部高級總監(jian)王偉認為,大模型是(shi)顯存帶寬密集(ji)型、顯存容量密集(ji)型的,有時對于算力(li)的“饑(ji)渴度”并不是(shi)非常高,因此在支撐生成(cheng)式AI應(ying)用場景方面,建議未來(lai)通用處理器應(ying)更多關注內存帶寬和內存容量的提(ti)升(sheng)。
得益于(yu)L3緩存、內存帶寬(kuan)及一些加(jia)速(su)引擎的提(ti)升(sheng),基于(yu)第五代(dai)至(zhi)強的阿里云(yun)第八代(dai)實(shi)例g8i實(shi)現了(le)更好的性(xing)(xing)能(neng)表(biao)現,AI推理性(xing)(xing)能(neng)提(ti)升(sheng)25%,QAT加(jia)解密性(xing)(xing)能(neng)提(ti)升(sheng)20%,數據庫(ku)性(xing)(xing)能(neng)提(ti)升(sheng)25%,音視(shi)頻性(xing)(xing)能(neng)提(ti)升(sheng)15%。第八代(dai)實(shi)例g8i已經能(neng)夠為用(yong)戶實(shi)現快速(su)的通義(yi)千問模(mo)型部(bu)署(shu)。
相(xiang)(xiang)較上一代(dai)產品,在相(xiang)(xiang)同的熱設(she)計(ji)(ji)功率(lv)范圍內(nei),第五(wu)代(dai)英特爾(er)至(zhi)強可(ke)擴(kuo)展處理器(qi)可(ke)在進行通用計(ji)(ji)算時將整體性能(neng)提升高達21%,并在一系(xi)列客戶工作(zuo)負載中將每瓦(wa)性能(neng)提升高達36%。對(dui)于遵循典型(xing)的五(wu)年更新(xin)周(zhou)期并從更前一代(dai)處理器(qi)進行升級的客戶而言,其TCO最多可(ke)降低77%。
▲第五代英特爾(er)至強可擴展處理器Emerald Rapids
由于該處理(li)器(qi)與(yu)上(shang)一代產(chan)品的軟件和(he)平臺兼容,客戶能(neng)夠升級并大(da)幅增加基(ji)礎設施(shi)的使用壽命(ming),同時降低成本和(he)碳排放。
王偉(wei)說(shuo),同架(jia)構帶(dai)來(lai)的(de)好處(chu)是后(hou)續不需(xu)要(yao)再重新研(yan)發,云(yun)廠(chang)商更多(duo)考慮將自身較有優勢的(de)基礎軟件(jian)棧與第(di)五(wu)代至強(qiang)的(de)算力提(ti)(ti)升、加(jia)速引(yin)擎相(xiang)結合,給云(yun)上(shang)客戶提(ti)(ti)供更簡潔(jie)易用(yong)(yong)的(de)云(yun)端算力、更好的(de)應(ying)用(yong)(yong)推薦。
火山引擎(qing)IAAS產(chan)品負責人李(li)越(yue)淵(yuan)分享了類似(si)看法(fa),火山引擎(qing)更(geng)多關注的是如何讓云(yun)上客戶(hu)非(fei)常容(rong)易地(di)從上一(yi)代(dai)過渡到新版本上,其(qi)策略是在(zai)第三代(dai)實(shi)例上進行(xing)算力的迭代(dai)和(he)升級,以便其(qi)客戶(hu)能(neng)夠更(geng)平滑、更(geng)友(you)好、更(geng)低門檻地(di)將第五代(dai)至強用起來。在(zai)遷移(yi)過程中,火山引擎(qing)和(he)英特(te)爾進行(xing)了很多深度交流和(he)定制方面(mian)的互動(dong),確保針對不同(tong)場景、不同(tong)應用的情況下,其(qi)CPU最后(hou)的產(chan)出是最符(fu)合客戶(hu)需(xu)求的。
李越淵認為(wei),云上彈性(xing)(xing)非常(chang)關(guan)鍵,很(hen)多服務器天(tian)然會(hui)閑置,以(yi)確保能(neng)撐住大的(de)(de)(de)應用(yong)需(xu)求量(liang)。有(you)了彈性(xing)(xing)能(neng)力后(hou),需(xu)要考(kao)慮(lv)性(xing)(xing)能(neng)和(he)成(cheng)本的(de)(de)(de)性(xing)(xing)價(jia)(jia)比,在閑置集群上其實對成(cheng)本的(de)(de)(de)容忍(ren)度會(hui)很(hen)高,就(jiu)像今天(tian)業界很(hen)成(cheng)熟的(de)(de)(de)搶占式實例模式,價(jia)(jia)格(ge)根據供需(xu)變(bian)化(hua)而浮動,客戶能(neng)獲得一個比較低(di)廉的(de)(de)(de)價(jia)(jia)格(ge),在這樣的(de)(de)(de)情(qing)況下CPU也能(neng)獲得較高性(xing)(xing)價(jia)(jia)比。
他談道,目前一(yi)些大(da)客(ke)戶上已經(jing)跑通了這樣的(de)模式,火山(shan)引擎(qing)與(yu)一(yi)些大(da)客(ke)戶已經(jing)在(zai)(zai)用(yong)CPU做一(yi)些比較大(da)規模的(de)推理了,隨著CPU在(zai)(zai)AI能力上越(yue)來越(yue)強、性(xing)能越(yue)來越(yue)好(hao),這個性(xing)價比會(hui)更高(gao)。
他(ta)還強調(diao)了(le)互(hu)(hu)連技(ji)術的(de)重(zhong)要(yao)(yao)性,生成式(shi)AI不僅對CPU的(de)算力(li)、內(nei)存、帶寬提(ti)出了(le)更(geng)高要(yao)(yao)求,隨著模型變(bian)大,單(dan)芯(xin)片甚至但服務器的(de)能(neng)力(li)未(wei)必(bi)能(neng)夠滿足生成式(shi)AI的(de)訴(su)求,因(yin)此互(hu)(hu)聯(lian)互(hu)(hu)通的(de)能(neng)力(li)也非(fei)常(chang)重(zhong)要(yao)(yao)。
王偉補充說,今天(tian)在(zai)一(yi)個(ge)大(da)模型訓(xun)(xun)練中,通(tong)信(xin)(xin)時(shi)(shi)長(chang)大(da)概占整(zheng)個(ge)時(shi)(shi)長(chang)的(de)20%,需要通(tong)過大(da)規模網(wang)絡(luo)互連來(lai)降低這部分的(de)時(shi)(shi)長(chang),獲得更(geng)好的(de)收益。互連網(wang)絡(luo)拓撲(pu)會隨著選擇的(de)芯片(pian)與每家企業的(de)技術方向(xiang)有一(yi)定區別,物理帶(dai)寬可以有效減少在(zai)訓(xun)(xun)練過程中因(yin)為模型被拆(chai)分導致(zhi)CPU或AI芯片(pian)之間通(tong)信(xin)(xin)量對整(zheng)個(ge)訓(xun)(xun)練時(shi)(shi)長(chang)的(de)影響(xiang)。
“未來(lai)效(xiao)率提(ti)(ti)升(sheng)(sheng)是軟件+硬件來(lai)做組合,進一(yi)步提(ti)(ti)升(sheng)(sheng)算力(li)利用(yong)率。”王偉提(ti)(ti)到(dao)大(da)模(mo)型(xing)還在初(chu)期階(jie)段,業界正在嘗試(shi)通過框架、引(yin)擎去做軟件優化,或(huo)通過一(yi)些算子優化,來(lai)提(ti)(ti)升(sheng)(sheng)模(mo)型(xing)訓練或(huo)推理的(de)效(xiao)率。
二、CPU已經能跑大規模生成式AI推理,未來AI應用對算力需求會逐漸下降
CPU是(shi)當前AI推(tui)理(li)(li)市場的(de)(de)主(zhu)(zhu)流芯(xin)片。據王偉分(fen)(fen)享,GPU適合高并(bing)發、單(dan)指令多數據處(chu)理(li)(li)模式,如果單(dan)看AI訓練(lian)或推(tui)理(li)(li)場景(jing)的(de)(de)數據處(chu)理(li)(li),GPU架構比CPU有(you)更(geng)大(da)優勢,這也是(shi)為(wei)什么英(ying)(ying)特爾(er)要在(zai)CPU中(zhong)內置(zhi)英(ying)(ying)特爾(er)AMX加速器(qi);而CPU強大(da)在(zai)對(dui)分(fen)(fen)支預測和串行(xing)(xing)和高頻處(chu)理(li)(li)上(shang)有(you)更(geng)好的(de)(de)表(biao)現,以通用計算為(wei)主(zhu)(zhu)的(de)(de)芯(xin)片在(zai)推(tui)理(li)(li)上(shang)更(geng)多側重于發揮SoC內部集成的(de)(de)向量執(zhi)行(xing)(xing)單(dan)元(yuan)、高并(bing)發執(zhi)行(xing)(xing)單(dan)元(yuan)來做AI處(chu)理(li)(li)過程(cheng)中(zhong)的(de)(de)一(yi)部分(fen)(fen)數據并(bing)行(xing)(xing)加速。
“任(ren)何(he)訓練和推理過程(cheng)都不是(shi)(shi)說(shuo)(shuo)數(shu)據在那里一放,CPU就去處(chu)理了。”王(wang)偉說(shuo)(shuo),“無論是(shi)(shi)數(shu)據預處(chu)理還(huan)是(shi)(shi)數(shu)據后加工(gong),都有CPU必須(xu)要去承(cheng)擔的角色,所(suo)以它是(shi)(shi)沒有辦法完全拆(chai)開(kai)的。”
“我們(men)發(fa)現目前生成式AI對于CPU已經不算挑(tiao)戰(zhan)了,你可以輕松在(zai)CPU上跑(pao)各種生成式AI的(de)(de)模(mo)型。”他談道(dao),阿里云已經嘗(chang)試用CPU跑(pao)一(yi)些較大規模(mo)的(de)(de)推理,如12B、70B、72B的(de)(de)模(mo)型,目前都(dou)已經可以在(zai)單臺通(tong)用服(fu)務器上運(yun)行。
據英(ying)(ying)特爾數據中心與(yu)人工智能集(ji)團副總裁兼(jian)中國區總經理陳葆立分(fen)享,做(zuo)芯(xin)片需要兩三年,根據客(ke)戶(hu)(hu)反饋(kui)進行(xing)(xing)修(xiu)改的工作需要提(ti)早(zao)進行(xing)(xing),多年來,英(ying)(ying)特爾一(yi)(yi)直在與(yu)客(ke)戶(hu)(hu)持續溝通,針(zhen)對(dui)每個客(ke)戶(hu)(hu)的反饋(kui)做(zuo)一(yi)(yi)些針(zhen)對(dui)性的解決方案,以更好地提(ti)供服(fu)務來滿足客(ke)戶(hu)(hu)的需求。
在(zai)第五代(dai)至強的助力(li)(li)(li)(li)下,火山(shan)引擎第三代(dai)彈性計算(suan)實例(li)算(suan)力(li)(li)(li)(li)全新(xin)升(sheng)級,整機算(suan)力(li)(li)(li)(li)、內(nei)(nei)存帶(dai)寬都進一步(bu)優(you)化,在(zai)AI、視頻處理、Java應(ying)(ying)用(yong)、HPC應(ying)(ying)用(yong)等主流(liu)應(ying)(ying)用(yong)上(shang)性能(neng)最(zui)高提升(sheng)43%。李越淵透露道(dao),在(zai)最(zui)新(xin)實例(li)上(shang),火山(shan)引擎計劃推出多種基于英特爾硬件原(yuan)生加速的能(neng)力(li)(li)(li)(li),將給其內(nei)(nei)外部客戶的各(ge)項業務帶(dai)來顯(xian)著(zhu)的性能(neng)提升(sheng)。
京東云研發(fa)并上線了基(ji)于第五代英特爾至強可擴展(zhan)處理(li)器的新(xin)一代金融云服(fu)務器,同時通過(guo)散熱和供(gong)電等(deng)技術創新(xin)實現了整(zheng)體(ti)性能提升,例如在(zai)大(da)語言模型(xing)Llama 2 13B的推理(li)性能測試中比上一代整(zheng)體(ti)提升了51%。
百度(du)采用(yong)4臺基于第五代英特爾至強可擴展處理(li)器(qi)的(de)服務器(qi),通100G的(de)高速(su)網絡實現(xian)多機(ji)分布式推理(li)來運行Llama 2 70B大模(mo)型,相比單臺服務器(qi)實現(xian)2.85倍(bei)加速(su)比,將時延降低(di)至87ms。
陳葆立說,英特爾(er)一(yi)直致力于(yu)生態系(xi)統建設,有著(zhu)龐大的國(guo)(guo)內(nei)合(he)(he)作(zuo)伙(huo)伴(ban)(ban)體系(xi),為用(yong)戶提供廣泛且經(jing)過驗(yan)證的解決方案。目前英特爾(er)已(yi)與(yu)許多國(guo)(guo)內(nei)合(he)(he)作(zuo)伙(huo)伴(ban)(ban)一(yi)起完成了基于(yu)第五(wu)(wu)代(dai)英特爾(er)至強可擴展處理器的驗(yan)證,從(cong)國(guo)(guo)產操作(zuo)系(xi)統的支(zhi)持到(dao)超融合(he)(he)一(yi)體機、一(yi)些代(dai)表性的AI應用(yong)場景均已(yi)在第五(wu)(wu)代(dai)至強上做解決方案并實現了顯著(zhu)的性能(neng)提升。
陳葆立判斷,未來(lai)(lai)應(ying)(ying)用爆發時,在(zai)云邊(bian)端的(de)(de)推(tui)理(li)(li)業(ye)務量(liang)均會增長(chang)。王偉亦給出類似的(de)(de)預測,短期來(lai)(lai)看(kan),模型(xing)發展(zhan)還未收斂,對算(suan)力的(de)(de)需求(qiu)量(liang)是(shi)巨大的(de)(de),需要基于異構計算(suan)的(de)(de)算(suan)力來(lai)(lai)做好訓練(lian),其(qi)中對GPU算(suan)力需求(qiu)更(geng)高一些;但(dan)如果只有訓練(lian),沒看(kan)到(dao)更(geng)好的(de)(de)推(tui)理(li)(li)應(ying)(ying)用,產業(ye)是(shi)不健(jian)康的(de)(de),長(chang)遠來(lai)(lai)看(kan),未來(lai)(lai)更(geng)多AI應(ying)(ying)用場景會傾向于推(tui)理(li)(li),對算(suan)力的(de)(de)需求(qiu)會逐(zhu)漸降下來(lai)(lai)。
在(zai)王偉看來(lai)(lai),需要高算力來(lai)(lai)做(zuo)AI推理的(de)場景不太(tai)有(you)利于AI在(zai)應用(yong)端快速發展,所以(yi)阿里云會更多(duo)關注(zhu)如何通(tong)過降低算力的(de)訴求(qiu),來(lai)(lai)更好孵化大模型在(zai)推理側應用(yong),希望使用(yong)不同的(de)處理器(qi)架構來(lai)(lai)做(zuo)推理,以(yi)滿足(zu)更多(duo)應用(yong)場景的(de)需求(qiu)。
李越淵亦談道(dao),做AI推理(li)(li)需要(yao)講究性價比,對于(yu)一(yi)些場景來說,基于(yu)一(yi)個合理(li)(li)的(de)參(can)數量(liang)去喂很精準的(de)數據、對模(mo)型調(diao)優(you),也(ye)許是(shi)可行之路。
三、云上數據安全是重中之重
李越淵說,安全(quan)是云廠商非常(chang)關注的(de)芯片能力,模型(xing)是每個公司最(zui)重要(yao)的(de)資產之一,很天(tian)然的(de),客戶(hu)會關注自身的(de)數據安全(quan)、模型(xing)安全(quan)。他看(kan)到英(ying)特爾在這上(shang)面做了很多努(nu)力和嘗試,包括TDX能更加透明(ming)、低(di)門檻(jian)的(de)讓客戶(hu)實現端到端安全(quan),火山引擎的(de)AI客戶(hu)對這些非常(chang)關注。
英特(te)爾可信域拓(tuo)展(英特(te)爾TDX)提供虛擬機(VM)層面的隔離和保密性(xing),能(neng)增強隱(yin)私性(xing)和對數據的管理(li)。
在基于英特爾TDX的機(ji)(ji)密(mi)虛擬(ni)機(ji)(ji)中(zhong),客戶機(ji)(ji)操作系統和虛擬(ni)機(ji)(ji)應用被隔離開來,不會被云端主機(ji)(ji)、虛擬(ni)機(ji)(ji)管(guan)理程序和平臺(tai)的其他虛擬(ni)機(ji)(ji)訪問。
今年年初發布的第四代英(ying)特爾至強(qiang)已(yi)集成英(ying)特爾TDX,且(qie)特定CSP已(yi)經能(neng)夠應用該功能(neng),隨(sui)著新一代至強(qiang)的推出,所有OEM和CSP解決(jue)方(fang)案提供(gong)商(shang)均可啟用該功能(neng)。
據(ju)(ju)王偉分(fen)享,阿里云一(yi)向非常(chang)重視客戶(hu)在云上的數據(ju)(ju)安全(quan)(quan),集合英特(te)爾TDX技(ji)術的阿里云g8i機密計算(suan)實例可以(yi)保障用戶(hu)在整個AI推理過程(cheng)中模型(xing)和數據(ju)(ju)全(quan)(quan)流程(cheng)的數據(ju)(ju)安全(quan)(quan)。
面(mian)向金融(rong)服務,平(ping)安科技(ji)同樣采用英特爾TDX技(ji)術來為(wei)大模(mo)型(xing)(xing)和用戶數據(ju)提供更(geng)強保(bao)護,使其聯邦大模(mo)型(xing)(xing)能(neng)夠(gou)平(ping)滑(hua)地(di)部署在(zai)(zai)第五代(dai)至強上,訓練(lian)與推理過程都在(zai)(zai)加密(mi)的(de)虛擬機內存中(zhong)執行(xing),且(qie)節點之(zhi)間(jian)的(de)通(tong)(tong)信也(ye)能(neng)通(tong)(tong)過加密(mi)及(ji)身份認證確保(bao)安全(quan),由此(ci)構建一個可(ke)信的(de)數據(ju)空間(jian),實現(xian)數據(ju)共享,并全(quan)方(fang)位(wei)保(bao)護數據(ju)安全(quan)與數據(ju)隱私。
結語:2024年,生成式AI應用創新與落地的關鍵一年
英特爾(er)在發(fa)布數據(ju)中(zhong)心CPU上的節奏似乎越來越密集:今年1月和12月,英特爾(er)分(fen)別推出第四代和第五(wu)代至強可擴展處理器。具備多達288個核(he)心的能(neng)效(xiao)核(he)(E-core)處理器Sierra Forest將于明年上半年推出,性能(neng)核(he)(P-core)處理器Granite Rapids也將緊隨其(qi)后發(fa)布。這正為(wei)市(shi)場(chang)帶來更加多元化的選擇。
應(ying)對AI計算需求(qiu)的(de)爆發,陳葆立認為,早(zao)期(qi)做溝通(tong)、早(zao)期(qi)做修(xiu)正、以(yi)客戶為優(you)先擁抱市場,是英特(te)爾多年以(yi)來(lai)的(de)優(you)勢(shi),再加上(shang)英特(te)爾如期(qi)推進(jin)先進(jin)制程與(yu)先進(jin)封裝的(de)演進(jin),英特(te)爾對自身的(de)產品(pin)競爭力很有信心。他相信接下來(lai)一(yi)定更多新的(de)生成式AI應(ying)用(yong)出現,英特(te)爾會做好本(ben)業,繼續(xu)推進(jin)在算力、網絡、內存、安全等方(fang)面的(de)關注。
英(ying)特爾正與合作伙伴和廣泛(fan)的(de)生態系統攜手(shou)合作,不斷解鎖AI帶來的(de)新(xin)(xin)增長機遇。陳葆立說:“英(ying)特爾始(shi)終致力于通過全面的(de)產品組合、優化的(de)軟件、多(duo)樣化工具和廣泛(fan)的(de)生態,使更多(duo)客戶(hu)能夠為云計(ji)算、網絡、邊緣和大(da)規模訪問業務設(she)計(ji)、交付和部署(shu)創新(xin)(xin)的(de)解決方案。”
據(ju)他透露,英特(te)爾將(jiang)在(zai)2024年(nian)發(fa)力(li)與開(kai)發(fa)者(zhe)的互動,在(zai)數據(ju)中心(xin)端,做生態做得(de)最成(cheng)熟(shu)(shu)的只有英特(te)爾,英特(te)爾希望通(tong)過一個成(cheng)熟(shu)(shu)的開(kai)發(fa)者(zhe)社區合作(zuo)方式,能夠讓更多人(ren)參與AI開(kai)發(fa)。