智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西圣何塞6月12日報道,今日,年度AI盛會AMD Advancing AI大會火熱開幕。作為全球第二大AI芯片供應商,AMD今日發布其迄今最強AI產品陣容——旗艦數據中心GPU新一代AI軟件棧全新AI機架級基礎設施AI網絡,全面展(zhan)露(lu)與英偉達掰(bai)手(shou)腕的雄心宏圖。智東西從大會前排發來(lai)一手(shou)報(bao)道。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

xAI技術團隊成員Xiao Sun、Meta工程副總裁Yee Jiun Song、甲骨文云基礎設施執行副總裁Mahesh Thiagarajan、HUMAIN CEO Tareq Amin相繼登臺,與AMD董事會主席(xi)及(ji)首席(xi)執(zhi)行官蘇(su)姿豐(Lisa Su)博士對談。

OpenAI聯合創(chuang)始人兼CEO Sam Altman作為驚喜嘉賓壓軸登場,透露OpenAI團(tuan)隊在MI300X和MI450上開展了(le)一些工作。他評(ping)價說,MI450的內存架構(gou)已(yi)為推理做好(hao)準備,相信它也會成為出色(se)的訓(xun)練選擇(ze)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

此次AMD最新(xin)發布或預覽(lan)的重點產(chan)品包括(kuo):

1、數據中心AI芯片AMD Instinct MI350系列:采用3nm制程,集成了1850億顆晶體管,基于AMD CDNA 4架構,搭載288GB HBM3e內存,內存帶寬達到8TB/s,單GPU可運行5200億個參數的大模型,FP4/FP6精度下峰值算力達到20PFLOPS,達到上一代MI300X的4倍,推理性能達到上一代的35倍;跑DeepSeek R1模型(xing)時,推理吞(tun)吐量超過英偉達B200。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

2、數據中心AI芯片AMD Instinct MI400系列(明年推出):專為大規模訓練和分布式推理而設計,將FP4精度下峰值算力翻倍提升至40PFLOPS,FP8峰值性能達到20PFLOPS,搭載432GB HBM4內存,內存帶寬達到19.6TB/s,每GPU橫向擴展帶寬達到300GB/s,可實現跨機架和集群的高帶寬互連,旨在訓練和運行擁有數千億和萬億級參數的大模型。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

相比MI355X,MI400系列的性能提升高達10倍

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸
▲相比(bi)MI355X,MI400系列(lie)的AI計算性(xing)能猛(meng)躥(cuan)新高

3、全新AI軟件棧ROCm 7.0:相比上一代,推理性能提升至4倍以上,訓練性能可提升至3倍,實現對GPT、Llama 4、DeepSeek、Grok、Gemma 3、Qwen、Command R+、Mistral AI等許多主流模型的Day 0級支持,可在筆記本電腦和工作站上開發,首度支持Windows系統。AMD還首次推出開發者云

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

4、下一代“Helios”AI機架級基礎設施(明年推出):AMD首個AI機架級解決方案,進一步提升AI計算密度和可擴展性,支持多達72塊MI400系列GPU緊密耦合,支持260TB/s的擴展帶寬,支持UALink,FP4峰值算力達2.9EFLOPS

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

蘇姿豐博士稱Helios是“世界上最好的AI機架級解決方案”。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

與采用英偉達下一代Vera Rubin芯片的Oberon機架相比,Helios AI機架擁有同等的GPU域、縱向擴展帶寬,FP4和FP8精度下的性能也大致相同,HBM4內存容量、內存帶寬、橫向擴展帶寬分別提升50%

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

Helios集(ji)成了AMD EPYC “Venice” CPU、MI400系列GPU和Pensando “Vulcano” NIC網卡。

其中AMD EPYC “Venice”服務器CPU將采用2nm制程,基于Zen 6架構,最多256,CPU-to-GPU帶寬翻倍,代際性能提升70%,內存帶寬達到1.6TB/s

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

蘇姿豐博士還劇(ju)透了將于2027年(nian)推出的AMD下(xia)一(yi)代機架級解決方(fang)案(an)。該方(fang)案(an)將集成EPYC “Verano” CPU、MI500系列GPU、Pensando “Vulcano” NIC。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

AMD有三大AI戰略支柱:領先的計(ji)算(suan)引擎,開(kai)放(fang)的生(sheng)態系(xi)統,全棧解決(jue)方(fang)案。現場,蘇姿豐博士展示了AMD端(duan)(duan)到端(duan)(duan)AI計(ji)算(suan)硬件產品組合(he)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

全(quan)新Instinct MI350系列(lie)、ROCm 7軟件、AMD開發云、AMD Threadripper和Radeon AI解決方案(an),都將在(zai)今年問世。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

蘇姿(zi)豐博士談(tan)道,AMD相信開放的(de)生態系統對AI未來至關重要,并且是唯(wei)一一家致力于硬(ying)件(jian)、軟件(jian)和解決(jue)方案開放的(de)公司。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

一、MI350系列:內存容量比B200多60%,8卡峰值AI算力達161PFLOPS

據蘇姿(zi)豐博(bo)士分(fen)享,數據中心AI加速器(qi)TAM市場將(jiang)每年(nian)增長60%以上(shang),到2028年(nian)達(da)到5000億美元,預計推理將(jiang)在未來幾年(nian)內每年(nian)增長80%以上(shang),成為AI計算的最大驅動(dong)力。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

AMD履行Instinct GPU路線圖承諾,繼2023年發布MI300A/X、2024年推(tui)出(chu)MI325后,MI350系列(lie)今(jin)年第三季度(du)上市,下(xia)一(yi)代(dai)MI400系列(lie)將在(zai)明年推(tui)出(chu)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

目前全球10大AI公司中,有7家正大規模(mo)部(bu)署AMD Instinct GPU。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

MI350系列GPU是AMD當前最先進的(de)生成式AI平臺。MI350X和MI355X采用相同(tong)的(de)計算(suan)機體系結構和內存,MI350X更適(shi)用于(yu)典型板(ban)卡(ka)功耗(TBP)較低的(de)風冷,MI355X的(de)訓(xun)練(lian)吞吐量、效率、功耗更高(gao),更適(shi)用于(yu)液冷。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

和英偉達B200/GB200相比,MI355X的紙面性能同樣能打,內存容量多出60%,FP64/FP32、FP6精度下的峰值性能翻倍提升,FP16、FP8、FP4精度下峰值性能相當

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

相比(bi)上一代MI300系(xi)列,MI355X重點對(dui)低精(jing)度數(shu)據類型進行(xing)了優(you)化。FP16/BF16數(shu)據類型吞吐量提高到(dao)4k FLOPs/clock/CU,FP8數(shu)據類型吞吐量增(zeng)加(jia)到(dao)8k FLOPs/clock/CU,FP6/FP4數(shu)值格式支持(chi)2倍的每CPU FP8速率。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

從表格中(zhong)可(ke)以看到(dao),MI355X的(de)向量FP64峰(feng)值(zhi)性(xing)能(neng)會比MI300X略低,矩陣(zhen)FP64峰(feng)值(zhi)性(xing)能(neng)幾(ji)乎只有MI300X的(de)一(yi)半。

8卡MI355X總共有2.3TB HBM3e內存、64TB/s內存帶寬,FP4/FP6精度下峰值算力可達到161PFLOPS

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

MI350系列GPU采用UBB8版(ban)型。每個節點(dian)搭載8塊GPU,通過153.6GB/s的Infinity Fabric雙向(xiang)鏈路進行通信。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

風冷機架最多可配備64個MI350系列GPU、18TB HBM3e。直接液冷機架最多可配備128個MI350系列GPU、36TB HBM3E,可提供高達2.6EFLOPS的FP4性能。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

二、1850億顆晶體管,多種先進封裝混搭

MI350系列采用增強的模塊化Chiplet封裝,晶體管數量從上一代的1530億顆增加到1850億顆,但核心總數減少。

和前代(dai)相似,MI350系列(lie)GPU采用了多種(zhong)3D和2.5D先(xian)進封裝技術(shu)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

采用臺積電N3P工藝的8個(ge)(ge)(ge)加速(su)器Complex die(XCD)堆疊在2個(ge)(ge)(ge)采用N6工藝的I/O base die(IOD)上。每(mei)個(ge)(ge)(ge)XCD有32個(ge)(ge)(ge)CU(計算單元)、4MB L2緩存。AMD還給每(mei)個(ge)(ge)(ge)XCD預留了4個(ge)(ge)(ge)CU,這些CU會根(gen)據需要被禁用。IOD包(bao)含128個(ge)(ge)(ge)HBM3e通道、256MB Infinity Cache、第(di)四代(dai)Infinity Fabric Link。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

中(zhong)間Infinity Fabric先進封(feng)裝對分(fen)帶(dai)寬(kuan)提升到5.5TB/s,通(tong)(tong)過Chiplet集成和統一(yi)內存架構實現更(geng)高的靈活性和擴展性,并通(tong)(tong)過降低(di)總線(xian)頻率和電壓來降低(di)非核心功耗。GPU與其它(ta)芯片通(tong)(tong)信用(yong)的4代(dai)Infinity Fabric總線(xian)帶(dai)寬(kuan)達到1075GB/s。

相(xiang)比(bi)上一代,MI350系列增(zeng)加了更多內存容量和(he)內存帶寬(kuan)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

通過矩陣核心增強和靈活的量化控制,與MI300X相比,MI350X的每CU峰值HBM讀帶寬提升多達50%

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

三、跑DeepSeek R1提速高達3倍,推理成本遠低于B200

推理方面,當運行Llama 3.1 405B大模型,執行AI Agent與聊天機器人、內容生成、摘要總結、對話式AI等廣泛AI用例時,相比上一代MI300X,MI355X能實現2.6倍~4.2倍的推理性能提升。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

無論是運行DeepSeek R1、Llama 3 70B還是Llama 4 Maverick,MI355X都能實現3倍于(yu)MI300X的(de)推理性能。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

在采用相同GPU數量、以FP4精度運行DeepSeek R1和Llama 3.1 405B模型時,相比英偉達B200使用自研TensorRT-LLM推理引擎,MI355X使用SGLang、vLLM等開源推理框架的推理性能可提升20%~30%

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

運行Llama 3.1 405B模型時,MI355X使用vLLM的推理性能,與GB200使用TensorRT-LLM的性能相媲美

與B200相比,MI355X每美元可提供多出40%的token,相應也就能提供(gong)更(geng)低(di)的推理成本(ben)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

訓練方面,與上一代MI300X相比,在FP8精度下進行Llama 3 70B模型預訓練,MI355X可提供3.5倍的吞吐量;在微調Llama 2 70B時,MI355X可實現多達2.9倍的加速。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

與英偉達B200、GB200相比,MI355X也能取得同等甚至更高的(de)預(yu)訓練或(huo)微調性能(neng)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

這意味著理(li)(li)論上(shang)MI355X能實現更快(kuai)的訓練(lian)和(he)推理(li)(li),縮短從模型開(kai)發(fa)到部(bu)署的時間(jian)。

四、ROCm 7:超3.5倍推理性能提升,支持桌面端與Windows

AMD的開源軟(ruan)件戰(zhan)略正(zheng)在取(qu)得成效。在開源社區幫助下(xia),AMD軟(ruan)件生態系統發展突飛猛進(jin)。

ROCm軟件棧是AMD為前沿模型(xing)訓練和大規(gui)模推(tui)理而設計(ji)的統一架構,在計(ji)算密(mi)度、內存、帶寬(kuan)、擴展、互(hu)連方面提供領(ling)先優(you)勢。

AMD ROCm軟(ruan)件(jian)生態系統持續優化推理(li)和訓練性(xing)能,對Llama、DeepSeek等主流(liu)模型實現Day 0級(ji)支(zhi)持,將發(fa)布節奏從每季度(du)加快(kuai)到每兩周,持續改(gai)善開發(fa)者的開箱(xiang)即用體驗。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

AMD還(huan)增加了捐贈開(kai)源社區的GPU數量。PyTorch、VLLM、SGLang、Hugging Face等(deng)公司或組織將免費獲得(de)GPU,這樣就(jiu)能持續集成測試,確保他們研發的軟件棧和新功(gong)能都能在AMD硬件上開(kai)箱即用。

通過(guo)頻繁的更新(xin)、先進的數(shu)據類型(xing)(如(ru)FP4)和新(xin)算(suan)法(如(ru)FAv3),ROCm正在(zai)實現下一代(dai)AI性能,同時推(tui)動開源(yuan)框架(如(ru)vLLM和SGLang)比(bi)封閉替代(dai)方案(an)更快(kuai)地向前發(fa)展。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

ROCm 7將于2025年第三季度普遍可(ke)用,支(zhi)持MI350系列GPU。AMD將在(zai)6月(yue)12日(ri)發(fa)布(bu)一個(ge)公開(kai)預覽版(ban),官方(fang)版(ban)本(ben)將于8月(yue)發(fa)布(bu)。亮點包(bao)括:

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

1、性能提升:與上一代ROCm 6版本相比,ROCm 7擁有超過3.5倍的推理能力和3倍的訓練能力(li)。這源于可(ke)用性(xing)、性(xing)能和(he)(he)對(dui)低精度數據類型(xing)(如FP4和(he)(he)FP6)支持等方面的進步(bu)(bu)。通信棧的進一(yi)步(bu)(bu)增(zeng)強優(you)化(hua)了GPU利用率和(he)(he)數據移動。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

▲ROCm的(de)新推(tui)理功(gong)能

推理方面,與上一代ROCm 6對比,ROCm 7在相同硬件上運行Llama 3.1 70B、Qwen2-72B、DeepSeek R1等模型,可實現3.2~3.8倍的推理和訓練性能。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

AMD在訓練方(fang)面同樣擁(yong)抱開源(yuan),有自研的(de)開源(yuan)模(mo)型。AMD組建(jian)了一(yi)個(ge)AI科學(xue)家團隊(dui),該(gai)團隊(dui)用(yong)AMD的(de)軟件和硬件來研發模(mo)型(包(bao)括(kuo)文本(ben)模(mo)型、文生圖(tu)模(mo)型、歐洲模(mo)型、多(duo)模(mo)態模(mo)型、游戲Agent等),試圖(tu)實現最佳性能(neng)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

▲新訓練功能

這里補充(chong)個插曲,歐洲模(mo)(mo)型(xing)源自AMD之前收(shou)購的芬蘭silo AI。silo AI一直致力(li)于構建支持多種歐洲語言的模(mo)(mo)型(xing),他(ta)們也(ye)跟(gen)法國明(ming)星(xing)大模(mo)(mo)型(xing)獨(du)角獸Mistral AI合作。

相比ROCm 6,ROCm 7在相同硬件上訓練Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B等開源模型,可實現3~3.1倍的性能提升。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

2、分布式推理:ROCm 7引入了一種健(jian)壯的(de)分(fen)(fen)布式(shi)(shi)推理方法,利(li)用(yong)與開(kai)源生態系統的(de)協作,包括SGLang、vLLM、llm-d等開(kai)源推理框架。通(tong)過采用(yong)開(kai)放策(ce)略,ROCm 7與這些合作伙伴一起(qi)構建、共同開(kai)發共享接口和原語,從而在(zai)AMD平臺上實現高效的(de)分(fen)(fen)布式(shi)(shi)推理。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

英偉達TensorRT-LLM工具不支持DeepSeek R1 FP8精度,但vLLM、SGLang等開源推理框架均可支持。由于AMD與這些開源軟件緊密合作,MI355X能取得更好的推理結果,吞吐量比B200高出30%

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

3、企業AI解決方案:ROCm企(qi)業級AI軟件棧(zhan)作(zuo)(zuo)(zuo)為一個全棧(zhan)MLOps平臺首次(ci)亮(liang)相,專為企(qi)業環境中的無縫AI操作(zuo)(zuo)(zuo)而設(she)計,通(tong)過(guo)交鑰(yao)匙(chi)工具實(shi)現安全、可擴展(zhan)的AI,用(yong)于微調、合規性、部(bu)署和(he)集(ji)成。它包括針(zhen)對行業特定數據進(jin)行模型微調的工具,以及與(yu)結構化和(he)非結構化工作(zuo)(zuo)(zuo)流(liu)的集(ji)成,通(tong)過(guo)AMD生態系統內的合作(zuo)(zuo)(zuo)伙伴關(guan)系來開發參考應用(yong),如聊天機(ji)器人和(he)文檔摘要(yao)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

4、支持在Ryzen筆記本電腦和工作站上的開發:可執行(xing)AI輔助代碼(ma)、定制自(zi)動化、先進推理、模型微調(diao)等任務,將ROCm體驗(yan)擴展到(dao)端側。

AMD Ryzen AI 300筆記本電腦可本地運行240億個參數的AI模型。更專業的Ryzen AI Max筆記本電腦,本地可跑700億個參數的模型。Threadripper + Radeon AI工作站,本地可跑1280億個參數的模型。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

ROCm將支持In-Box Linux,并首度支持Windows操作系統。預(yu)計從2025年(nian)下半年(nian)開始(shi),ROCm將出現在主要的發行版中,將Windows定位(wei)為一流的、得到全面(mian)支持的操作系統,確保(bao)家庭和企業設置的可移植(zhi)性和效率。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

AMD還首次推出開發者云,讓開(kai)發者能夠即時(shi)、無障礙地(di)訪(fang)問ROCm和AMD GPU,實現無縫(feng)的AI開(kai)發和部署。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

這個完全(quan)托管的環境提供了對MI300X GPU的即時(shi)訪問(wen),無(wu)需硬件(jian)(jian)投資或本地設置,只需Github或電子郵件(jian)(jian)地址即可輕松設置。Docker容器預裝了流行的AI軟件(jian)(jian),最大限度地減少了安裝時(shi)間,同(tong)時(shi)給開發人員定制(zhi)代(dai)碼的靈活性。

其可(ke)擴展的計算(suan)選項(xiang)包括:

  • 小型,1x MI300X GPU (192GB GPU內存);
  • 大型,8x MI300X GPU (1536GB GPU內存)。

率先注冊的開(kai)發(fa)者可(ke)獲得(de)25小時(shi)的免費積分,通過(guo)ROCm Star開(kai)發(fa)者證書等計(ji)劃(hua)可(ke)獲得(de)最多50個小時(shi)的額外(wai)時(shi)間(jian)。

五、“Helios”AI機架明年問世,搭載下一代3nm AI網卡

MI350系列(lie)機架基礎設施完全基于開放標(biao)準,可采(cai)用(yong)x86 CPU(5代EPYC)、Instinct GPU(MI350系列(lie))、UEC Scale-Out NIC(AMD Pensando “Pollara” NIC)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

明年,AMD將推出下一代AI機架基礎設施解決方案——Helios AI機架將(jiang)集(ji)成EPYC “Venice” CPU、MI400系列(lie)GPU、Pensando “Vulcano” NIC。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

該架(jia)構橫向(xiang)擴(kuo)展基于超以太網(Ultra Ethernet),縱(zong)向(xiang)擴(kuo)展基于UALink(Ultra Accelerator Link),并提供Fabric Manager作為ROCm生命周期(qi)管(guan)理的(de)一部(bu)分,以支持基礎設施自動化。

網絡對于構建機架級規模的AI系統至關重要。為了擴大網絡規模,AMD去年推出了Pensando Pollara 400 AI NIC。該(gai)NIC現可在(zai)MI350系統里(li)大規模部(bu)署。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

相比英偉達ConnectX7、博通Thor2,AMD Pollara可實現高出10%~20%的RDMA性能。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

AMD使用UEC標準來推動創新。由于先進UEC功能運行在Pollara內部,AMD可將客戶的fabric成本降低16%,這(zhe)個(ge)分(fen)析是基于8k GPU集群(qun)。當將這(zhe)些(xie)集群(qun)擴展到32k、64k、128k時,成本和節省(sheng)幅(fu)度會快(kuai)速增加。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

作為MI400系列的一部分,下一代AMD Pensando “Vulcano” AI NIC將在(zai)2026年作為默(mo)認配置發貨。

Vulcano采用3nm制程,提供800G網絡吞吐量,每GPU的橫向擴展帶寬是上一代的8倍,支持UAL和PCIe Gen6,相比PCIe Gen6提供了2倍(bei)的帶寬,可擴展到100萬塊GPU,并具有完整(zheng)的軟件向(xiang)前和向(xiang)后兼容(rong)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

這些優勢(shi)將直接轉化(hua)為(wei)更(geng)快(kuai)的(de)模型(xing)訓(xun)練和(he)更(geng)好的(de)推理性能,為(wei)客戶帶來(lai)巨大(da)的(de)經濟優勢(shi)。

六、AI網絡:UALink支持1024塊GPU互連,今年Q3推出全新DPU

AI模型尺寸(cun)每(mei)三年增長1000倍,不僅需(xu)要(yao)更多的(de)計(ji)算、內存,還需(xu)要(yao)更多的(de)網絡帶寬來(lai)進行訓(xun)(xun)練(lian)和分布式推理(li)。如今訓(xun)(xun)練(lian)數(shu)據集每(mei)8個月翻一番。這些需(xu)求都超過了芯片的(de)發展速度,芯片晶(jing)體(ti)管(guan)密度每(mei)兩年才翻一番。

唯(wei)一(yi)的方法是(shi)構建分布式(shi)系統(tong)創新(xin),實現(xian)AI芯(xin)片的數據(ju)中(zhong)心級(ji)擴展。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

為了支持大量GPU一起工作,AMD與100多家公司一起成立了超以太網聯盟(Ultra Ethernet)。超以太網技術是以太網的進化,能擴展至英偉達Infiniband的20倍、經典以太網的10倍

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

去年成立的(de)(de)UALink(Ultra Accelerator Link)聯盟旨(zhi)在擴展將(jiang)AI芯片網(wang)絡(luo)規(gui)模,提(ti)供(gong)更高的(de)(de)帶寬、更低(di)的(de)(de)延時。與英偉達NVLink相比,UALink完全開(kai)放,由(you)100多個聯盟成員支(zhi)持,意味著(zhu)客戶可以使用任(ren)何GPU、任(ren)何CPU和任(ren)何交換機來擴展他們的(de)(de)架構(gou)。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

UALink支持多達1024個GPU連接在一起的能力,是英偉達NVLink支持GPU規模的2倍

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

在GPU系統連接的前端網絡方面,AMD宣布Salina 400 DPU將在今年第三季(ji)度(du)推出,目(mu)(mu)標成為(wei)“目(mu)(mu)前市場上(shang)性能最(zui)(zui)好、最(zui)(zui)安全、可(ke)擴展的AI前端網絡(luo)基礎設施”。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

Salina 400 DPU的性能達到上一代的2倍,相比英偉達Bluefield 3 DPU性能提升40%。該DPU可安全橋接AI服務器到企業,提高AI服務器性能與網絡、安全性、存儲卸載,引擎對網絡功能的加速可達到CPU的40倍

自動化同(tong)樣不可或缺(que)。ROCm AI生命周期管理(li)軟件,可將客戶(hu)的部署時間(jian)從幾個(ge)月(yue)減少到(dao)幾天。

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

ROCm將在2026年推出Fabric Manager,確保用(yong)戶(hu)可自動部(bu)署機架(jia)級(ji)規模的(de)應用(yong),并自帶可靠(kao)性(xing)、可用(yong)性(xing)和可維護性(xing)。

七、AMD設定2030年新目標:將機架級能效提高20倍

能效長(chang)期是與(yu)AMD的路(lu)線圖和產品(pin)戰略相一致(zhi)的指導(dao)核心設計(ji)原(yuan)則。

在2020年,AMD通過在短短六年內將AMD移動處理器的能效提高25倍,超額完成了25×20的目(mu)標。

如今AMD已超越其30×25的目標(與2020年相比,將加速計算節點的能源效率提高30倍),在AI訓練和高性能計算方面,使用當前配置的4個MI355X GPU和一個EPYC第五代CPU,實現了38倍的節點級能效提升,與5年前的系統相比,在相同的性能下,能耗降低了97%

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

現在,AMD又設定了一個新的2030年目標,即在2024年的基礎上,將機架規模的能源效率提高20倍(幾乎是之前行業效率的3倍),使目前需要超過275個機架的典型AI模型到2030年能夠在一個機架內進行訓練,同時減少95%的運營用電量,將模型訓練的碳排放量從約3000公噸減少到100公噸

AMD甩出最猛兩代AI芯片!全球首推432GB HBM4,OpenAI CEO現場夸

這些預測是基于AMD芯片和系統(tong)設(she)計路(lu)線圖以及(ji)經(jing)能效專家Jonathan Koomey博(bo)士(shi)驗(yan)證的(de)測量方法(fa)。

結合軟件和算法的進步,新目標可以使整體能源效率提高100倍

到2030年(nian)機架(jia)規(gui)模(mo)的(de)20倍目標反映了(le)下一個(ge)前沿領域:不(bu)僅關注(zhu)芯片,還關注(zhu)更智(zhi)能(neng)、更高(gao)效的(de)系統,從芯片到全機架(jia)集(ji)成,以滿足數(shu)據(ju)中心(xin)級的(de)功率需求。

結語:全棧布局,豪賭AI計算未來

AI基礎設施如今(jin)已(yi)是(shi)數據中心AI芯(xin)片兵(bing)家必爭之地。從今(jin)日釋放(fang)信息來看(kan),AMD面向整個機架級(ji)基礎設施的布局已(yi)趨于完(wan)整,覆蓋從CPU、GPU、內存、網絡、存儲、軟硬(ying)件(jian)協同設計(ji)到系統的性能(neng)與(yu)能(neng)效優(you)化。

隨著(zhu)頂尖大模(mo)型(xing)性(xing)能增長放緩,產學界不再一味煉大模(mo)型(xing),而(er)是更多探索圍(wei)繞可持續、更經濟地擴展AI計算的(de)相關創(chuang)新,這正推動(dong)AI模(mo)型(xing)的(de)訓練和(he)部(bu)署效率持續提升(sheng)。

除(chu)了提(ti)升硬件性能與(yu)配(pei)置外,AI軟(ruan)件棧和AI機架級基礎設施的優化(hua),都成為(wei)AMD面向未來(lai)增強AI競爭力的重點投入方向。與(yu)英偉達不同(tong)的是(shi),AMD認定開源才(cai)能推(tui)動AI以最快速度進步,正堅(jian)定擁抱開源,構建一個完全開放的軟(ruan)件生態系統。

在演講尾(wei)聲(sheng),蘇姿豐(feng)博(bo)士強調(diao):“AI的(de)未來(lai)不會由(you)任何(he)一(yi)家公司或在一(yi)個封閉的(de)生態(tai)系統中建(jian)立,它將(jiang)由(you)整(zheng)個行業(ye)的(de)開放合作(zuo)來(lai)塑造成型(xing)。”

作為全(quan)球數據(ju)中心AI芯片市場(chang)的(de)第二名,AMD比(bi)第一(yi)名的(de)包(bao)袱更輕,比(bi)后位者吞食市場(chang)份(fen)額的(de)機(ji)會更大。而蓄勢待(dai)出的(de)MI400系列和“Helios” AI機(ji)架級基礎設(she)施,將(jiang)蘊藏著AMD押注下一(yi)股(gu)AI浪潮、釋放(fang)生成式AI和高性能計(ji)算的(de)機(ji)遇與潛力(li)。