苏姿丰2小时激情演讲！发布AMD最强AI芯片，旗舰CPU单颗10万，OpenAI微软都来站台

智東西（公眾號：zhidxcom）
作者 | ZeR0
編輯 | 漠影

猛，實在(zai)是猛！就在(zai)今日，老牌芯片(pian)巨頭AMD交出(chu)了一份令人印象(xiang)深刻的(de)AI答卷。

智(zhi)東西美國舊金(jin)山(shan)10月10日現(xian)場報道，酷熱的(de)天(tian)氣剛剛過(guo)去，舊金(jin)山(shan)正值秋意(yi)涼(liang)爽，今日舉行的(de)AMD Advancing AI 2024盛會卻格(ge)外火熱。

AMD傾囊倒出了一系列AI殺手锏，發布全新旗艦AI芯片、服務器CPU、AI網卡、DPU和AI PC移動處理器，將AI計算(suan)的(de)戰火燒得(de)更旺。

這家芯片巨頭還大秀AI朋友圈，現場演講集齊了谷歌、OpenAI、微軟、Meta、xAI、Cohere、RekaAI等重量(liang)級AI生態伙伴。

備受期待的旗艦AI芯片AMD Instinct MI325X GPU首次啟用HBM3E高帶寬內存，8卡AI峰值算力達到21PFLOPS，并與去年發布的、同樣采用HBM3E的英偉達H200 GPU用數據掰手腕：內存容量是H200的1.8倍，內存帶寬、FP16和FP8峰值理論算力都是H200的1.3倍。

AMD還披露了最新的AI芯片路線圖，采用CDNA 4架構的MI350系列明年上市，其中8卡MI355X的AI峰值算力達到74PFLOPS，MI400系列將采用更先進的CDNA架構。

更高的數據中心算力，離不開先進的網絡解決方案。對此，AMD發布了業界首款支持UEC超以太網聯盟的AI網卡Pensando Pollara 400和性能翻倍提升的Pensando Salina 400 DPU。

另一款重磅新品是第五代EPYC服務器CPU，被AMD稱為“面向云計算、企業級和AI的全球最好CPU”，采用臺積電3/4nm制程工藝，最多支持192核、384個線程。其中頂配EPYC 9965默認(ren)熱設(she)計功耗500W，以1000顆(ke)起訂的單價為(wei)14813美(mei)元（約合人民幣(bi)10萬元）。

與第五代英特爾至強鉑金8592+處理器相比，AMD EPYC 9575F處理器的SPEC CPU性能提高多達2.7倍，企業級性能提高多達4.0倍，HPC（高性能計算）性能提高多達3.9倍，基于CPU的AI加速提高多達3.8倍，GPU主機節點提升多達1.2倍。

自2017年重回數據中心市場后，AMD一路勢頭強勁：其數據中心CPU收入市占率在2018年還只有2%，今年上半年已攀爬到34%，在全球覆(fu)蓋(gai)超過950個云(yun)實例和超過350個OxM平臺(tai)。

AMD是唯一(yi)一(yi)家(jia)能夠提(ti)供全套CPU、GPU和網絡解決方(fang)案來滿足現(xian)代數據(ju)中心所有(you)需求的公司。

AI PC芯片也迎來了新成員——AMD第三代商用AI移動處理器銳龍AI PRO 300系列。它被AMD稱作“為下一代企業級AI PC打造的全球最好處理器”，預計到2025年將有超過100款銳(rui)龍AI PRO PC上(shang)市。。

一、旗艦AI芯片三代同堂：內存容量帶寬暴漲，峰值算力沖9.2PF

AI芯片，正成(cheng)為AMD業(ye)務增長(chang)的重頭戲(xi)。

AMD去年12月發布的Instinct MI300X加速器，已經成為AMD歷史上增長最快的產品，不到兩個季度銷售額就超過了10億美元。

今年6月，AMD公布全新年度AI GPU路線圖，最新一步便是今日發布的Instinct MI325X。在7月公布季度財報時，AMD董事會主席兼CEO蘇姿豐博士透露，AMD預計其今年數據中心GPU收入將超過45億美元。

微軟、OpenAI、Meta、Cohere、Stability AI、Lepton AI（賈揚清創辦）、World Labs（李飛飛創辦）等公司的(de)很多主流生成(cheng)式AI解決方案均已采用(yong)MI300系列(lie)AI芯片(pian)。

微軟(ruan)董事長(chang)兼(jian)CEO薩提(ti)亞·納德拉對(dui)MI300贊譽有加，稱這款AI加速器在微軟(ruan)Azure工作負載(zai)的(de)GPT-4推理上提(ti)供了領(ling)先的(de)價格/性(xing)能。

基于Llama 3.1 405B運行對話式AI、內容生成、AI Agent及聊天機器人、總結摘要等任務時，MI300的推理速度最多達到英偉達H100的1.3倍。

新推出的MI325X進一步抬高性能，跑Mixtral 8x7B、Mistral 7B、Llama 3.1 70B等大模型的推理性能，比英偉達H200快20%~40%。

MI325X擁有1530億顆晶體管，采用CDNA 3架構、256GB HBM3E內存，內存帶寬達6TB/s，FP8峰值性能達到2.6PFLOPS，FP16峰值性能達到1.3PFLOPS。

由8張MI325X組成的服務器平臺有2TB HBM3E內存；內存帶寬達到48TB/s；Infinity Fabric總線帶寬為896GB/s；FP8性能最高達20.8PFLOPS，FP16性能最高達10.4PFLOPS。

相比英偉達H200 HGX，MI325X服務器平臺在跑Llama 3.1 405B時，推理性能可提高40%。

從訓練性能來看，單張MI325X訓練Llama 2 7B的速度超過單張H200，8張MI325X訓練Llama 2 70B的性能比肩H200 HGX。

AMD Instinct MI325X加速器或將于今年第四季度投產，將從明年第一季度起為平臺供應商提供。

下一代MI350系列采用3nm制程工藝、新一代CDNA 4架構、288GB HBM3E內存，新增對FP4/FP6數據類型的支持，推理性能相比基于CDNA 3的加速器有高達35倍的提升，有望在2025年下半年上市。

MI355X加速器的FP8和FP16性能相比MI325X提升了80%，FP16峰值性能達到2.3PFLOPS，FP8峰值性能達到4.6PFLOPS，FP6和FP4峰值性能達到9.2PFLOPS。

8張MI355X共有2.3TB HBM3E內存，內存帶寬達到64TB/s，FP16峰值性能達到18.5PFLOPS，FP8峰值性能達到37PFLOPS，新增FP6和FP4的峰值性能為74PFLOPS。

三代GPU的配置顯著升級：相比8卡MI300X，8卡MI355X的AI峰值算力提升多達7.4倍、HBM內存提高多達1.5倍、支持的模型參數量提升幅度接近6倍。

AMD持續投資軟件和開放生態系統，在AMD ROCm開放軟件棧中提供新特性和功能，可原生支持主流AI框架及工具，具備開箱即用特性，搭配AMD Instinct加速器支持主流生成式AI模型及Hugging Face上的超過100萬款模型。

ROCm 6.2現包括對關鍵AI功能的支持，如FP8數據類型、Flash Attention、內核融合等，可將AI大模型的推理性能、訓練性能分別提升至ROCm 6.0的2.4倍、1.8倍。

此前AMD收購了歐洲最大的私人AI實驗室Silo AI，以解(jie)決消費級(ji)AI最后一英里問題，加快AMD硬件(jian)上AI模型的(de)(de)開(kai)發(fa)和(he)部署。歐(ou)洲(zhou)最快的(de)(de)超級(ji)計算機LUMI便采(cai)用AMD Instinct加速器來訓練歐(ou)洲(zhou)語(yu)言版(ban)的(de)(de)大語(yu)言模型。

二、下一代AI網絡：后端引入業界首款支持UEC的AI網卡，前端上新400G可編程DPU

網絡是實現最佳系統性能的基礎。AI模型平均有30%的訓練周期時間都花在網絡等待上。在訓練和分布式推理模型中，通信占了40%-75%的時間。

AI網絡分為前端和后端：前端向AI集群提供數據和信息，可編程DPU不斷發展；后端管理加速器與集群間的數據傳(chuan)輸，關鍵在于獲(huo)得(de)最(zui)大利用率。

為了有效管理這兩個網絡，并推動整個系統的性能、可擴展性和效率提升，AMD今日發布了應用于前端網絡的Pensando Salina 400 DPU和應用于后端網絡的Pensando Pollara 400網卡。

Salina 400是AMD第三代可編程DPU，被AMD稱作“前端網絡最佳DPU”，其性能、帶寬和規模均提高至上一代DPU的兩倍；Pollara 400是業界首款支持超以(yi)太(tai)網聯盟(meng)（UEC）的AI網卡。

Salina 400支持400G吞吐量(liang)，可實現快速數(shu)據傳輸速率(lv)(lv)，可為數(shu)據驅動的AI應用(yong)優化性(xing)能(neng)、效(xiao)率(lv)(lv)、安全性(xing)和(he)可擴(kuo)展性(xing)。

Pollara 400采用AMD P4可編程引擎，支持下一代RDMA軟件，并以開(kai)放的網絡(luo)生態系統為后盾，對于在后端網絡(luo)中提供加速器(qi)到加速器(qi)通(tong)信的領先性(xing)能、可擴展性(xing)和效率(lv)至關(guan)重要。

UEC Ready RDMA支持智能數據包噴發和有序消息傳遞、避免擁塞、選擇性重傳和快速損失恢復。這種傳輸方式的消息完成速度是RoCEv2的6倍，整體完成速度是RoCEv2的5倍。

在后端網絡，相比InfiniBand，以太網RoCEv2是更好的選擇，具有低成本、高度可擴展的優勢，可將TCO節省超過50%，能夠擴展100萬張GPU。而InfiniBand至多能擴展48000張GPU。

三、服務器CPU：3/4nm制程，最多192核/384線程

今年7月公布財報時，蘇姿豐提到今年上半年，有超過1/3的企業(ye)服(fu)務(wu)器訂單來(lai)自首(shou)次在其數據(ju)中心部署EPYC服(fu)務(wu)器CPU的企業(ye)。

第五代EPYC處理器9005系列（代號“Turin”）專為(wei)現代數(shu)據中心(xin)設計。

該處理器在計算、內存、IO與平臺、安全四大層面全面升級。

第五代EPYC擁有1500億顆晶體管，采用臺積電3/4nm 制程、全新“Zen 5” 及“Zen 5c”核心兼容廣泛部署的SP5平臺，最多支持192核、384個線程，8~192核的功耗范疇為155W~500W。

它支持AVX-512全寬512位數據路徑、128 PCIe 5.0/CXL 2.0、DDR5-6400MT/s內存速率，提升頻率高達5GHz，機密計算的(de)可信I/O和(he)FIPS認證正在進行中。

與“Zen 4”相比，“Zen 5”核心架構為企業和云計算工作負載提供了提升17%的IPC（每時鐘指令數），為AI和HPC提供了提升37%的IPC。

在SPEC CPU 2017基準測試中，192核EPYC 9965的整數吞吐量是64核至強8592+的2.7倍，32核EPYC 9355的每核心性能是32核6548Y+的1.4倍。

跑視頻轉碼、商用App、開源數據庫、圖像渲染等商用工作負載時，192核EPYC 9965的性能達到64核至強8592+性能的3~4倍。

在處理開源的HPC密集線性求解器、建模和仿真任務時，EPYC 9965的性能可達到至強8592+性能的2.1~3.9倍。

達(da)到相同(tong)性能(neng)，第五代EPYC所需的服務器數量更少(shao)，有(you)助于(yu)降低數據中心的TCO（總(zong)擁有(you)成本）以及節省(sheng)空間和(he)能(neng)源。

例如，要達到總共391000個單位的SPECrate 2017_int_base性能得分，相比1000臺搭載英特爾至強鉑金8280的服務器，現在131臺搭載AMD EPYC 9965的現代服務器就能實現，功耗、3年TCO均顯著減少。

通過優化的(de)CPU+GPU解決方案，AMD EPYC CPU不(bu)僅(jin)能(neng)處理(li)傳統(tong)通用目的(de)的(de)計算，而且(qie)能(neng)勝(sheng)任AI推理(li)，還能(neng)作為AI主機處理(li)器(qi)。

相比64核至強8592+，192核EPYC 9965在運行機器學習、端到端AI、相似搜索、大語言模型等工作負載時，推理性能提升多達1.9~3.8倍。

AMD EPYC 9005系列(lie)的新產(chan)品(pin)是64核(he)EPYC 9575F，專為需(xu)要終極主機CPU能力的GPU驅動AI解(jie)決(jue)方案量身定制。

與競爭對手的3.8GHz處理器相比，專用AI主機的CPU EPYC 9575F提供了高達5GHz的提升，可將GPU編排任務的處理速度提高28%。

面向企業級HPC工作負載，64核EPYC 9575F的FEA仿真和CFD仿真&建模的性能，可提升至64核至強8592的1.6倍。

EPYC 9575F可使用其5GHz的最大頻率提升來助力1000個節點的AI集群每秒驅動多達70萬個推理token。同樣搭配MI300X GPU，與64核至強8592+相比，EPYC 9575F將GPU系統訓練Stable Diffusion XL v2文生圖模型的性能提升20%。

搭配Instinct系列GPU的AMD EPYC AI主機CPU型號如下：

同樣搭配英偉達H100，EPYC 9575F可將GPU系統的推理性能、訓練性能分別相比至強8592+提升20%、15%。

與英偉達GPU系統適配的AMD EPYC AI主機CPU型號如下：

將EPYC用于計算與AI混合工作負載時，相比至強鉑金8592+，EPYC 9654+2張Instinct MI210在處理50%通用計算+50% AI的混合任務時，每美元性能可提升多達2倍。

四、企業級AI PC處理器：升級“Zen 5”架構，AI算力最高55TOPS

AI PC給企業生產力、身臨其境的(de)遠(yuan)程(cheng)協作、創作與(yu)編輯(ji)、個人AI助理都(dou)帶(dai)來了全新轉型體驗。

繼今年6月推出第三代AI移動處理器銳龍AI 300系列處理器（代號“Strix Point”）后，今日AMD宣布推出銳龍AI PRO 300系列。

該處理器專為提高企業生產力而設計，采用4nm工藝、“Zen 5” CPU架構（最多12核、24個線程）、RDNA 3.5 GPU架構（最多16個計算單元），支持Copilot+功(gong)能，包括電話會議(yi)實時(shi)字幕、語言翻(fan)譯(yi)、AI圖(tu)像生成等。

其內置NPU可提供50-55TOPS的AI處理能力。

40TOPS是(shi)微軟Copilot+ AI PC的(de)(de)基準要求。相比(bi)之下(xia)，蘋(pin)果M4、AMD銳龍PRO 8040系(xi)列、英特(te)爾酷睿Ultra 100系(xi)列的(de)(de)NPU算力分別(bie)為38TOPS、16TOPS、11TOPS。

與英特爾酷睿Ultra 7 165H相比，旗艦銳龍AI 9 HX PRO 375的多線程性能提高了40%，辦公生產力提高了14%，支持更長續航。

銳龍AI PRO 300系列采用AMD PRO技術，提(ti)供(gong)世(shi)界級領先(xian)的安全(quan)性和可管理性，旨在簡化IT運營及部署并確(que)保企(qi)業獲(huo)得卓越(yue)的投資回報率。

由搭載銳龍AI PRO 300系列的OEM系統預計將于今年晚些時候上市。

AMD也擴(kuo)展了其(qi)PRO技術(shu)陣容，具有(you)(you)新的(de)(de)(de)安全性和(he)(he)可管理(li)性功能。配備AMD PRO技術(shu)的(de)(de)(de)移動商用處(chu)理(li)器(qi)現有(you)(you)云裸機恢復的(de)(de)(de)標準(zhun)配置，支持IT團隊通過(guo)云無縫恢復系(xi)統(tong)，確保平(ping)穩和(he)(he)持續(xu)的(de)(de)(de)操(cao)作；提供(gong)(gong)一(yi)個新的(de)(de)(de)供(gong)(gong)應鏈安全功能，實現整個供(gong)(gong)應鏈的(de)(de)(de)可追溯性；看門(men)狗定時(shi)器(qi)，提供(gong)(gong)額外的(de)(de)(de)檢測和(he)(he)恢復過(guo)程，為系(xi)統(tong)提供(gong)(gong)彈性支持。

通(tong)過AMD PRO技(ji)術，還能實現額外(wai)的基于AI的惡意軟件檢測。這(zhe)些全新的安全特(te)性(xing)利用集成的NPU來(lai)運行(xing)基于AI的安全工作負載，不會影響日(ri)常(chang)性(xing)能。

結語：AMD正在數據中心市場攻勢兇猛

AMD正沿著路(lu)線(xian)圖，加速將AI基礎(chu)設施所(suo)需的(de)各種高(gao)性能(neng)AI解(jie)決(jue)(jue)方案推向市場，并(bing)不斷證明它能(neng)夠提供滿(man)足數據中心需求的(de)多元(yuan)化解(jie)決(jue)(jue)方案。

AI已經成為AMD戰略布(bu)局的焦點。今日(ri)新發布(bu)的Instinct加速器、EPYC服務(wu)器CPU、Pensando網卡&DPU、銳龍AI PRO 300系(xi)列處理器，與持續增(zeng)長的開放軟件生態系(xi)統形成了組(zu)合拳，有望進(jin)一步增(zeng)強AMD在AI基礎設(she)施競賽中的綜合競爭力。

無(wu)論是(shi)蠶食服(fu)務器CPU市(shi)場，還是(shi)新(xin)款AI芯(xin)片半年攬金逾10億(yi)美元，都展現出這家老牌芯(xin)片巨頭(tou)在數據中(zhong)心領域的(de)(de)沖勁。緊鑼密(mi)鼓的(de)(de)AI芯(xin)片產品迭代、快速擴張的(de)(de)全棧軟硬件版圖(tu)，都令人愈發期(qi)待(dai)AMD在AI計(ji)算(suan)市(shi)場創造(zao)出驚喜。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、旗艦AI芯片三代同堂：內存容量帶寬暴漲，峰值算力沖9.2PF

二、下一代AI網絡：后端引入業界首款支持UEC的AI網卡，前端上新400G可編程DPU

三、服務器CPU：3/4nm制程，最多192核/384線程

四、企業級AI PC處理器：升級“Zen 5”架構，AI算力最高55TOPS

結語：AMD正在數據中心市場攻勢兇猛

相關推薦