AMD甩出最猛两代AI芯片！全球首推432GB HBM4，OpenAI CEO现场夸

智東西（公眾號：zhidxcom）
作者 | ZeR0
編輯 | 漠影

智東西圣何塞6月12日報道，今日，年度AI盛會AMD Advancing AI大會火熱開幕。作為全球第二大AI芯片供應商，AMD今日發布其迄今最強AI產品陣容——旗艦數據中心GPU、新一代AI軟件棧、全新AI機架級基礎設施、AI網絡，全面展(zhan)露(lu)與英偉達掰(bai)手(shou)腕的雄心宏圖。智東西從大會前排發來(lai)一手(shou)報(bao)道。

xAI技術團隊成員Xiao Sun、Meta工程副總裁Yee Jiun Song、甲骨文云基礎設施執行副總裁Mahesh Thiagarajan、HUMAIN CEO Tareq Amin相繼登臺，與AMD董事會主席(xi)及(ji)首席(xi)執(zhi)行官蘇(su)姿豐（Lisa Su）博士對談。

OpenAI聯合創(chuang)始人兼CEO Sam Altman作為驚喜嘉賓壓軸登場，透露OpenAI團(tuan)隊在MI300X和MI450上開展了(le)一些工作。他評(ping)價說，MI450的內存架構(gou)已(yi)為推理做好(hao)準備，相信它也會成為出色(se)的訓(xun)練選擇(ze)。

此次AMD最新(xin)發布或預覽(lan)的重點產(chan)品包括(kuo)：

1、數據中心AI芯片AMD Instinct MI350系列：采用3nm制程，集成了1850億顆晶體管，基于AMD CDNA 4架構，搭載288GB HBM3e內存，內存帶寬達到8TB/s，單GPU可運行5200億個參數的大模型，FP4/FP6精度下峰值算力達到20PFLOPS，達到上一代MI300X的4倍，推理性能達到上一代的35倍；跑DeepSeek R1模型(xing)時，推理吞(tun)吐量超過英偉達B200。

2、數據中心AI芯片AMD Instinct MI400系列（明年推出）：專為大規模訓練和分布式推理而設計，將FP4精度下峰值算力翻倍提升至40PFLOPS，FP8峰值性能達到20PFLOPS，搭載432GB HBM4內存，內存帶寬達到19.6TB/s，每GPU橫向擴展帶寬達到300GB/s，可實現跨機架和集群的高帶寬互連，旨在訓練和運行擁有數千億和萬億級參數的大模型。

相比MI355X，MI400系列的性能提升高達10倍。

▲相比(bi)MI355X，MI400系列(lie)的AI計算性(xing)能猛(meng)躥(cuan)新高

3、全新AI軟件棧ROCm 7.0：相比上一代，推理性能提升至4倍以上，訓練性能可提升至3倍，實現對GPT、Llama 4、DeepSeek、Grok、Gemma 3、Qwen、Command R+、Mistral AI等許多主流模型的Day 0級支持，可在筆記本電腦和工作站上開發，首度支持Windows系統。AMD還首次推出開發者云。

4、下一代“Helios”AI機架級基礎設施（明年推出）：AMD首個AI機架級解決方案，進一步提升AI計算密度和可擴展性，支持多達72塊MI400系列GPU緊密耦合，支持260TB/s的擴展帶寬，支持UALink，FP4峰值算力達2.9EFLOPS。

蘇姿豐博士稱Helios是“世界上最好的AI機架級解決方案”。

與采用英偉達下一代Vera Rubin芯片的Oberon機架相比，Helios AI機架擁有同等的GPU域、縱向擴展帶寬，FP4和FP8精度下的性能也大致相同，HBM4內存容量、內存帶寬、橫向擴展帶寬分別提升50%。

Helios集(ji)成了AMD EPYC “Venice” CPU、MI400系列GPU和Pensando “Vulcano” NIC網卡。

其中AMD EPYC “Venice”服務器CPU將采用2nm制程，基于Zen 6架構，最多256核，CPU-to-GPU帶寬翻倍，代際性能提升70%，內存帶寬達到1.6TB/s。

蘇姿豐博士還劇(ju)透了將于2027年(nian)推出的AMD下(xia)一(yi)代機架級解決方(fang)案(an)。該方(fang)案(an)將集成EPYC “Verano” CPU、MI500系列GPU、Pensando “Vulcano” NIC。

AMD有三大AI戰略支柱：領先的計(ji)算(suan)引擎，開(kai)放(fang)的生(sheng)態系(xi)統，全棧解決(jue)方(fang)案。現場，蘇姿豐博士展示了AMD端(duan)(duan)到端(duan)(duan)AI計(ji)算(suan)硬件產品組合(he)。

全(quan)新Instinct MI350系列(lie)、ROCm 7軟件、AMD開發云、AMD Threadripper和Radeon AI解決方案(an)，都將在(zai)今年問世。

蘇姿(zi)豐博士談(tan)道，AMD相信開放的(de)生態系統對AI未來至關重要，并且是唯(wei)一一家致力于硬(ying)件(jian)、軟件(jian)和解決(jue)方案開放的(de)公司。

一、MI350系列：內存容量比B200多60%，8卡峰值AI算力達161PFLOPS

據蘇姿(zi)豐博(bo)士分(fen)享，數據中心AI加速器(qi)TAM市場將(jiang)每年(nian)增長60%以上(shang)，到2028年(nian)達(da)到5000億美元，預計推理將(jiang)在未來幾年(nian)內每年(nian)增長80%以上(shang)，成為AI計算的最大驅動(dong)力。

AMD履行Instinct GPU路線圖承諾，繼2023年發布MI300A/X、2024年推(tui)出(chu)MI325后，MI350系列(lie)今(jin)年第三季度(du)上市，下(xia)一(yi)代(dai)MI400系列(lie)將在(zai)明年推(tui)出(chu)。

目前全球10大AI公司中，有7家正大規模(mo)部(bu)署AMD Instinct GPU。

MI350系列GPU是AMD當前最先進的(de)生成式AI平臺。MI350X和MI355X采用相同(tong)的(de)計算(suan)機體系結構和內存，MI350X更適(shi)用于(yu)典型板(ban)卡(ka)功耗（TBP）較低的(de)風冷，MI355X的(de)訓(xun)練(lian)吞吐量、效率、功耗更高(gao)，更適(shi)用于(yu)液冷。

和英偉達B200/GB200相比，MI355X的紙面性能同樣能打，內存容量多出60%，FP64/FP32、FP6精度下的峰值性能翻倍提升，FP16、FP8、FP4精度下峰值性能相當。

相比(bi)上一代MI300系(xi)列，MI355X重點對(dui)低精(jing)度數(shu)據類型進行(xing)了優(you)化。FP16/BF16數(shu)據類型吞吐量提高到(dao)4k FLOPs/clock/CU，FP8數(shu)據類型吞吐量增(zeng)加(jia)到(dao)8k FLOPs/clock/CU，FP6/FP4數(shu)值格式支持(chi)2倍的每CPU FP8速率。

從表格中(zhong)可(ke)以看到(dao)，MI355X的(de)向量FP64峰(feng)值(zhi)性(xing)能(neng)會比MI300X略低，矩陣(zhen)FP64峰(feng)值(zhi)性(xing)能(neng)幾(ji)乎只有MI300X的(de)一(yi)半。

8卡MI355X總共有2.3TB HBM3e內存、64TB/s內存帶寬，FP4/FP6精度下峰值算力可達到161PFLOPS。

MI350系列GPU采用UBB8版(ban)型。每個節點(dian)搭載8塊GPU，通過153.6GB/s的Infinity Fabric雙向(xiang)鏈路進行通信。

風冷機架最多可配備64個MI350系列GPU、18TB HBM3e。直接液冷機架最多可配備128個MI350系列GPU、36TB HBM3E，可提供高達2.6EFLOPS的FP4性能。

二、1850億顆晶體管，多種先進封裝混搭

MI350系列采用增強的模塊化Chiplet封裝，晶體管數量從上一代的1530億顆增加到1850億顆，但核心總數減少。

和前代(dai)相似，MI350系列(lie)GPU采用了多種(zhong)3D和2.5D先(xian)進封裝技術(shu)。

采用臺積電N3P工藝的8個(ge)(ge)(ge)加速(su)器Complex die（XCD）堆疊在2個(ge)(ge)(ge)采用N6工藝的I/O base die（IOD）上。每(mei)個(ge)(ge)(ge)XCD有32個(ge)(ge)(ge)CU（計算單元）、4MB L2緩存。AMD還給每(mei)個(ge)(ge)(ge)XCD預留了4個(ge)(ge)(ge)CU，這些CU會根(gen)據需要被禁用。IOD包(bao)含128個(ge)(ge)(ge)HBM3e通道、256MB Infinity Cache、第(di)四代(dai)Infinity Fabric Link。

中(zhong)間Infinity Fabric先進封(feng)裝對分(fen)帶(dai)寬(kuan)提升到5.5TB/s，通(tong)(tong)過Chiplet集成和統一(yi)內存架構實現更(geng)高的靈活性和擴展性，并通(tong)(tong)過降低(di)總線(xian)頻率和電壓來降低(di)非核心功耗。GPU與其它(ta)芯片通(tong)(tong)信用(yong)的4代(dai)Infinity Fabric總線(xian)帶(dai)寬(kuan)達到1075GB/s。

相(xiang)比(bi)上一代，MI350系列增(zeng)加了更多內存容量和(he)內存帶寬(kuan)。

通過矩陣核心增強和靈活的量化控制，與MI300X相比，MI350X的每CU峰值HBM讀帶寬提升多達50%。

三、跑DeepSeek R1提速高達3倍，推理成本遠低于B200

推理方面，當運行Llama 3.1 405B大模型，執行AI Agent與聊天機器人、內容生成、摘要總結、對話式AI等廣泛AI用例時，相比上一代MI300X，MI355X能實現2.6倍~4.2倍的推理性能提升。

無論是運行DeepSeek R1、Llama 3 70B還是Llama 4 Maverick，MI355X都能實現3倍于(yu)MI300X的(de)推理性能。

在采用相同GPU數量、以FP4精度運行DeepSeek R1和Llama 3.1 405B模型時，相比英偉達B200使用自研TensorRT-LLM推理引擎，MI355X使用SGLang、vLLM等開源推理框架的推理性能可提升20%~30%。

運行Llama 3.1 405B模型時，MI355X使用vLLM的推理性能，與GB200使用TensorRT-LLM的性能相媲美。

與B200相比，MI355X每美元可提供多出40%的token，相應也就能提供(gong)更(geng)低(di)的推理成本(ben)。

訓練方面，與上一代MI300X相比，在FP8精度下進行Llama 3 70B模型預訓練，MI355X可提供3.5倍的吞吐量；在微調Llama 2 70B時，MI355X可實現多達2.9倍的加速。

與英偉達B200、GB200相比，MI355X也能取得同等甚至更高的(de)預(yu)訓練或(huo)微調性能(neng)。

這意味著理(li)(li)論上(shang)MI355X能實現更快(kuai)的訓練(lian)和(he)推理(li)(li)，縮短從模型開(kai)發(fa)到部(bu)署的時間(jian)。

四、ROCm 7：超3.5倍推理性能提升，支持桌面端與Windows

AMD的開源軟(ruan)件戰(zhan)略正(zheng)在取(qu)得成效。在開源社區幫助下(xia)，AMD軟(ruan)件生態系統發展突飛猛進(jin)。

ROCm軟件棧是AMD為前沿模型(xing)訓練和大規(gui)模推(tui)理而設計(ji)的統一架構，在計(ji)算密(mi)度、內存、帶寬(kuan)、擴展、互(hu)連方面提供領(ling)先優(you)勢。

AMD ROCm軟(ruan)件(jian)生態系統持續優化推理(li)和訓練性(xing)能，對Llama、DeepSeek等主流(liu)模型實現Day 0級(ji)支(zhi)持，將發(fa)布節奏從每季度(du)加快(kuai)到每兩周，持續改(gai)善開發(fa)者的開箱(xiang)即用體驗。

AMD還(huan)增加了捐贈開(kai)源社區的GPU數量。PyTorch、VLLM、SGLang、Hugging Face等(deng)公司或組織將免費獲得(de)GPU，這樣就(jiu)能持續集成測試，確保他們研發的軟件棧和新功(gong)能都能在AMD硬件上開(kai)箱即用。

通過(guo)頻繁的更新(xin)、先進的數(shu)據類型(xing)（如(ru)FP4）和新(xin)算(suan)法（如(ru)FAv3），ROCm正在(zai)實現下一代(dai)AI性能，同時推(tui)動開源(yuan)框架（如(ru)vLLM和SGLang）比(bi)封閉替代(dai)方案(an)更快(kuai)地向前發(fa)展。

ROCm 7將于2025年第三季度普遍可(ke)用，支(zhi)持MI350系列GPU。AMD將在(zai)6月(yue)12日(ri)發(fa)布(bu)一個(ge)公開(kai)預覽版(ban)，官方(fang)版(ban)本(ben)將于8月(yue)發(fa)布(bu)。亮點包(bao)括：

1、性能提升：與上一代ROCm 6版本相比，ROCm 7擁有超過3.5倍的推理能力和3倍的訓練能力(li)。這源于可(ke)用性(xing)、性(xing)能和(he)(he)對(dui)低精度數據類型(xing)（如FP4和(he)(he)FP6）支持等方面的進步(bu)(bu)。通信棧的進一(yi)步(bu)(bu)增(zeng)強優(you)化(hua)了GPU利用率和(he)(he)數據移動。

▲ROCm的(de)新推(tui)理功(gong)能

推理方面，與上一代ROCm 6對比，ROCm 7在相同硬件上運行Llama 3.1 70B、Qwen2-72B、DeepSeek R1等模型，可實現3.2~3.8倍的推理和訓練性能。

AMD在訓練方(fang)面同樣擁(yong)抱開源(yuan)，有自研的(de)開源(yuan)模(mo)型。AMD組建(jian)了一(yi)個(ge)AI科學(xue)家團隊(dui)，該(gai)團隊(dui)用(yong)AMD的(de)軟件和硬件來研發模(mo)型（包(bao)括(kuo)文本(ben)模(mo)型、文生圖(tu)模(mo)型、歐洲模(mo)型、多(duo)模(mo)態模(mo)型、游戲Agent等），試圖(tu)實現最佳性能(neng)。

▲新訓練功能

這里補充(chong)個插曲，歐洲模(mo)(mo)型(xing)源自AMD之前收(shou)購的芬蘭silo AI。silo AI一直致力(li)于構建支持多種歐洲語言的模(mo)(mo)型(xing)，他(ta)們也(ye)跟(gen)法國明(ming)星(xing)大模(mo)(mo)型(xing)獨(du)角獸Mistral AI合作。

相比ROCm 6，ROCm 7在相同硬件上訓練Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B等開源模型，可實現3~3.1倍的性能提升。

2、分布式推理：ROCm 7引入了一種健(jian)壯的(de)分(fen)(fen)布式(shi)(shi)推理方法，利(li)用(yong)與開(kai)源生態系統的(de)協作，包括SGLang、vLLM、llm-d等開(kai)源推理框架。通(tong)過采用(yong)開(kai)放策(ce)略，ROCm 7與這些合作伙伴一起(qi)構建、共同開(kai)發共享接口和原語，從而在(zai)AMD平臺上實現高效的(de)分(fen)(fen)布式(shi)(shi)推理。

英偉達TensorRT-LLM工具不支持DeepSeek R1 FP8精度，但vLLM、SGLang等開源推理框架均可支持。由于AMD與這些開源軟件緊密合作，MI355X能取得更好的推理結果，吞吐量比B200高出30%。

3、企業AI解決方案：ROCm企(qi)業級AI軟件棧(zhan)作(zuo)(zuo)(zuo)為一個全棧(zhan)MLOps平臺首次(ci)亮(liang)相，專為企(qi)業環境中的無縫AI操作(zuo)(zuo)(zuo)而設(she)計，通(tong)過(guo)交鑰(yao)匙(chi)工具實(shi)現安全、可擴展(zhan)的AI，用(yong)于微調、合規性、部(bu)署和(he)集(ji)成。它包括針(zhen)對行業特定數據進(jin)行模型微調的工具，以及與(yu)結構化和(he)非結構化工作(zuo)(zuo)(zuo)流(liu)的集(ji)成，通(tong)過(guo)AMD生態系統內的合作(zuo)(zuo)(zuo)伙伴關(guan)系來開發參考應用(yong)，如聊天機(ji)器人和(he)文檔摘要(yao)。

4、支持在Ryzen筆記本電腦和工作站上的開發：可執行(xing)AI輔助代碼(ma)、定制自(zi)動化、先進推理、模型微調(diao)等任務，將ROCm體驗(yan)擴展到(dao)端側。

AMD Ryzen AI 300筆記本電腦可本地運行240億個參數的AI模型。更專業的Ryzen AI Max筆記本電腦，本地可跑700億個參數的模型。Threadripper + Radeon AI工作站，本地可跑1280億個參數的模型。

ROCm將支持In-Box Linux，并首度支持Windows操作系統。預(yu)計從2025年(nian)下半年(nian)開始(shi)，ROCm將出現在主要的發行版中，將Windows定位(wei)為一流的、得到全面(mian)支持的操作系統，確保(bao)家庭和企業設置的可移植(zhi)性和效率。

AMD還首次推出開發者云，讓開(kai)發者能夠即時(shi)、無障礙地(di)訪(fang)問ROCm和AMD GPU，實現無縫(feng)的AI開(kai)發和部署。

這個完全(quan)托管的環境提供了對MI300X GPU的即時(shi)訪問(wen)，無(wu)需硬件(jian)(jian)投資或本地設置，只需Github或電子郵件(jian)(jian)地址即可輕松設置。Docker容器預裝了流行的AI軟件(jian)(jian)，最大限度地減少了安裝時(shi)間，同(tong)時(shi)給開發人員定制(zhi)代(dai)碼的靈活性。

其可(ke)擴展的計算(suan)選項(xiang)包括：

小型，1x MI300X GPU （192GB GPU內存）；
大型，8x MI300X GPU （1536GB GPU內存）。

率先注冊的開(kai)發(fa)者可(ke)獲得(de)25小時(shi)的免費積分，通過(guo)ROCm Star開(kai)發(fa)者證書等計(ji)劃(hua)可(ke)獲得(de)最多50個小時(shi)的額外(wai)時(shi)間(jian)。

五、“Helios”AI機架明年問世，搭載下一代3nm AI網卡

MI350系列(lie)機架基礎設施完全基于開放標(biao)準，可采(cai)用(yong)x86 CPU（5代EPYC）、Instinct GPU（MI350系列(lie)）、UEC Scale-Out NIC（AMD Pensando “Pollara” NIC）。

明年，AMD將推出下一代AI機架基礎設施解決方案——Helios AI機架，將(jiang)集(ji)成EPYC “Venice” CPU、MI400系列(lie)GPU、Pensando “Vulcano” NIC。

該架(jia)構橫向(xiang)擴(kuo)展基于超以太網（Ultra Ethernet），縱(zong)向(xiang)擴(kuo)展基于UALink（Ultra Accelerator Link），并提供Fabric Manager作為ROCm生命周期(qi)管(guan)理的(de)一部(bu)分，以支持基礎設施自動化。

網絡對于構建機架級規模的AI系統至關重要。為了擴大網絡規模，AMD去年推出了Pensando Pollara 400 AI NIC。該(gai)NIC現可在(zai)MI350系統里(li)大規模部(bu)署。

相比英偉達ConnectX7、博通Thor2，AMD Pollara可實現高出10%~20%的RDMA性能。

AMD使用UEC標準來推動創新。由于先進UEC功能運行在Pollara內部，AMD可將客戶的fabric成本降低16%，這(zhe)個(ge)分(fen)析是基于8k GPU集群(qun)。當將這(zhe)些(xie)集群(qun)擴展到32k、64k、128k時，成本和節省(sheng)幅(fu)度會快(kuai)速增加。

作為MI400系列的一部分，下一代AMD Pensando “Vulcano” AI NIC將在(zai)2026年作為默(mo)認配置發貨。

Vulcano采用3nm制程，提供800G網絡吞吐量，每GPU的橫向擴展帶寬是上一代的8倍，支持UAL和PCIe Gen6，相比PCIe Gen6提供了2倍(bei)的帶寬，可擴展到100萬塊GPU，并具有完整(zheng)的軟件向(xiang)前和向(xiang)后兼容(rong)。

這些優勢(shi)將直接轉化(hua)為(wei)更(geng)快(kuai)的(de)模型(xing)訓(xun)練和(he)更(geng)好的(de)推理性能，為(wei)客戶帶來(lai)巨大(da)的(de)經濟優勢(shi)。

六、AI網絡：UALink支持1024塊GPU互連，今年Q3推出全新DPU

AI模型尺寸(cun)每(mei)三年增長1000倍，不僅需(xu)要(yao)更多的(de)計(ji)算、內存，還需(xu)要(yao)更多的(de)網絡帶寬來(lai)進行訓(xun)(xun)練(lian)和分布式推理(li)。如今訓(xun)(xun)練(lian)數(shu)據集每(mei)8個月翻一番。這些需(xu)求都超過了芯片的(de)發展速度，芯片晶(jing)體(ti)管(guan)密度每(mei)兩年才翻一番。

唯(wei)一(yi)的方法是(shi)構建分布式(shi)系統(tong)創新(xin)，實現(xian)AI芯(xin)片的數據(ju)中(zhong)心級(ji)擴展。

為了支持大量GPU一起工作，AMD與100多家公司一起成立了超以太網聯盟（Ultra Ethernet）。超以太網技術是以太網的進化，能擴展至英偉達Infiniband的20倍、經典以太網的10倍。

去年成立的(de)(de)UALink（Ultra Accelerator Link）聯盟旨(zhi)在擴展將(jiang)AI芯片網(wang)絡(luo)規(gui)模，提(ti)供(gong)更高的(de)(de)帶寬、更低(di)的(de)(de)延時。與英偉達NVLink相比，UALink完全開(kai)放，由(you)100多個聯盟成員支(zhi)持，意味著(zhu)客戶可以使用任(ren)何GPU、任(ren)何CPU和任(ren)何交換機來擴展他們的(de)(de)架構(gou)。

UALink支持多達1024個GPU連接在一起的能力，是英偉達NVLink支持GPU規模的2倍。

在GPU系統連接的前端網絡方面，AMD宣布Salina 400 DPU將在今年第三季(ji)度(du)推出，目(mu)(mu)標成為(wei)“目(mu)(mu)前市場上(shang)性能最(zui)(zui)好、最(zui)(zui)安全、可(ke)擴展的AI前端網絡(luo)基礎設施”。

Salina 400 DPU的性能達到上一代的2倍，相比英偉達Bluefield 3 DPU性能提升40%。該DPU可安全橋接AI服務器到企業，提高AI服務器性能與網絡、安全性、存儲卸載，引擎對網絡功能的加速可達到CPU的40倍。

自動化同(tong)樣不可或缺(que)。ROCm AI生命周期管理(li)軟件，可將客戶(hu)的部署時間(jian)從幾個(ge)月(yue)減少到(dao)幾天。

ROCm將在2026年推出Fabric Manager，確保用(yong)戶(hu)可自動部(bu)署機架(jia)級(ji)規模的(de)應用(yong)，并自帶可靠(kao)性(xing)、可用(yong)性(xing)和可維護性(xing)。

七、AMD設定2030年新目標：將機架級能效提高20倍

能效長(chang)期是與(yu)AMD的路(lu)線圖和產品(pin)戰略相一致(zhi)的指導(dao)核心設計(ji)原(yuan)則。

在2020年，AMD通過在短短六年內將AMD移動處理器的能效提高25倍，超額完成了25×20的目(mu)標。

如今AMD已超越其30×25的目標（與2020年相比，將加速計算節點的能源效率提高30倍），在AI訓練和高性能計算方面，使用當前配置的4個MI355X GPU和一個EPYC第五代CPU，實現了38倍的節點級能效提升，與5年前的系統相比，在相同的性能下，能耗降低了97%。

現在，AMD又設定了一個新的2030年目標，即在2024年的基礎上，將機架規模的能源效率提高20倍（幾乎是之前行業效率的3倍），使目前需要超過275個機架的典型AI模型到2030年能夠在一個機架內進行訓練，同時減少95%的運營用電量，將模型訓練的碳排放量從約3000公噸減少到100公噸。

這些預測是基于AMD芯片和系統(tong)設(she)計路(lu)線圖以及(ji)經(jing)能效專家Jonathan Koomey博(bo)士(shi)驗(yan)證的(de)測量方法(fa)。

結合軟件和算法的進步，新目標可以使整體能源效率提高100倍。

到2030年(nian)機架(jia)規(gui)模(mo)的(de)20倍目標反映了(le)下一個(ge)前沿領域：不(bu)僅關注(zhu)芯片，還關注(zhu)更智(zhi)能(neng)、更高(gao)效的(de)系統，從芯片到全機架(jia)集(ji)成，以滿足數(shu)據(ju)中心(xin)級的(de)功率需求。

結語：全棧布局，豪賭AI計算未來

AI基礎設施如今(jin)已(yi)是(shi)數據中心AI芯(xin)片兵(bing)家必爭之地。從今(jin)日釋放(fang)信息來看(kan)，AMD面向整個機架級(ji)基礎設施的布局已(yi)趨于完(wan)整，覆蓋從CPU、GPU、內存、網絡、存儲、軟硬(ying)件(jian)協同設計(ji)到系統的性能(neng)與(yu)能(neng)效優(you)化。

隨著(zhu)頂尖大模(mo)型(xing)性(xing)能增長放緩，產學界不再一味煉大模(mo)型(xing)，而(er)是更多探索圍(wei)繞可持續、更經濟地擴展AI計算的(de)相關創(chuang)新，這正推動(dong)AI模(mo)型(xing)的(de)訓練和(he)部(bu)署效率持續提升(sheng)。

除(chu)了提(ti)升硬件性能與(yu)配(pei)置外，AI軟(ruan)件棧和AI機架級基礎設施的優化(hua)，都成為(wei)AMD面向未來(lai)增強AI競爭力的重點投入方向。與(yu)英偉達不同(tong)的是(shi)，AMD認定開源才(cai)能推(tui)動AI以最快速度進步，正堅(jian)定擁抱開源，構建一個完全開放的軟(ruan)件生態系統。

在演講尾(wei)聲(sheng)，蘇姿豐(feng)博(bo)士強調(diao)：“AI的(de)未來(lai)不會由(you)任何(he)一(yi)家公司或在一(yi)個封閉的(de)生態(tai)系統中建(jian)立，它將(jiang)由(you)整(zheng)個行業(ye)的(de)開放合作(zuo)來(lai)塑造成型(xing)。”

作為全(quan)球數據(ju)中心AI芯片市場(chang)的(de)第二名，AMD比(bi)第一(yi)名的(de)包(bao)袱更輕，比(bi)后位者吞食市場(chang)份(fen)額的(de)機(ji)會更大。而蓄勢待(dai)出的(de)MI400系列和“Helios” AI機(ji)架級基礎設(she)施，將(jiang)蘊藏著AMD押注下一(yi)股(gu)AI浪潮、釋放(fang)生成式AI和高性能計(ji)算的(de)機(ji)遇與潛力(li)。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频