智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

在今年的云計算產業盛會AWS re:Invent上,亞馬遜云科技(AWS)少見地公布了大量關于硬件基礎設施及芯片的細節信息,包括自研服務器CPU Graviton系列、自研AI芯片Trainium系列、AI超級服務器、最大AI服務器集群等。

這場開誠布公的分享,既讓我們窺得這家全球最大云計算巨頭深厚的硬件基建功底,也讓我們飽覽了從CPU研發策略、先進封裝、背面供電、AI芯片脈動陣列到芯(xin)片互連(lian)、AI網(wang)絡的(de)(de)各種底(di)層(ceng)技術創新(xin)。尤(you)其是對于云(yun)計算基礎設施、數據中(zhong)心(xin)芯(xin)片設計從業者(zhe)而言,其中(zhong)有(you)很多值得細品(pin)的(de)(de)經驗和思路。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

大會期間,亞馬遜云科技計算與網絡副總裁Dave Brown還與智東西等少數媒體進一步就基礎(chu)設施與(yu)芯片研發的策略和細(xi)節進行交流。他告訴智東西,Trainium3基本上所(suo)有設計都會圍繞(rao)生(sheng)成式AI,AWS已披露Trainium3是(shi)其首款采用3nm工(gong)藝的芯片,算力上一代的2倍、功耗降低40%,但目前透露技術細節可能為時(shi)尚早(zao)他還劇透說亞馬遜云科技預計明年會逐步(bu)發布更多(duo)細節。

一、CPU設計理念:不為基準測試而造芯

亞(ya)馬遜(xun)(xun)云科技的(de)自(zi)(zi)研(yan)服(fu)務器CPU和AI芯片均已在其數據中心(xin)落地(di),被許多知(zhi)名IT企業采用(yong)。連(lian)蘋(pin)果(guo)都是其座(zuo)上(shang)賓,在構建Apple Intelligence等(deng)(deng)AI服(fu)務的(de)背后用(yong)到(dao)了Graviton3、Inferentia2、Trainium2等(deng)(deng)亞(ya)馬遜(xun)(xun)云科技自(zi)(zi)研(yan)芯片。

Dave Brown分享,亞馬遜云科技數據中心里用到的服務器CPU中,過去兩年有超過50%的新增CPU容量是其自研服務器CPU芯片Gravtion。全球最大購物節之一亞馬遜Prime Day有超過25萬個Graviton CPU支持操作。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

在2018年(nian),亞馬(ma)遜(xun)云科(ke)(ke)技看到Arm核(he)心發展變(bian)快(kuai),萌生了結合這(zhe)種技術曲線與亞馬(ma)遜(xun)云科(ke)(ke)技客戶需(xu)求開發一個定制(zhi)通用處理器的念頭。Graviton由此(ci)誕生,其推(tui)出和落地也帶來(lai)了Arm芯片真(zhen)正進入(ru)數據中(zhong)心的時刻。

今天,Graviton被幾乎每個亞馬遜云科技客戶廣泛使用。90%的前1000個Amazon EC2客戶都開始使用Graviton。

Graviton4是當(dang)前最強(qiang)大的亞馬遜云科技自研服務器CPU,每個核(he)心提供30%更多的計算能力,vCPU數(shu)(shu)量和內存是上一(yi)代(dai)的3倍(bei),尤(you)其(qi)適用于大型數(shu)(shu)據(ju)庫(ku)、復雜分析等要求最高的企業(ye)工作負載。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

Dave Brown強調說,在設計芯片時,亞馬遜云科技不是奔著贏得基準測試,而是專注于實際工作負載性能。

在他看來,業界熱衷于優化基準測試,就像(xiang)是“通過100米短(duan)跑(pao)來(lai)訓(xun)練(lian)馬(ma)拉松”。實(shi)際工(gong)作負載的行為(wei)與(yu)(yu)整潔(jie)的基準測試截然不(bu)符,它(ta)們是混(hun)亂的、不(bu)可預測的,真實(shi)工(gong)作負載遇到的問(wen)題可能與(yu)(yu)微基準測試完全(quan)不(bu)同。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

比如,理論上,Graviton3的性能比Graviton2提高了30%,但測試Nginx時性能提升多達60%,因為亞馬遜云科技極大減少了分支錯誤預測。Graviton4也類似,微基準測試分數比上一代提高了25%,運行真實MySQL工作負載的表現則足足提高了40%

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

現代CPU就像(xiang)一個復雜的(de)匯(hui)編管道,前端獲取和解碼指(zhi)令,后(hou)端執行指(zhi)令。

在評估性能時(shi),亞馬遜云科技會查看不同(tong)工作負載對(dui)CPU微架構的(de)壓力,比如工作負載是(shi)否對(dui)前端停擺(bai)敏感,前端停擺(bai)受(shou)分支數(shu)量、分支目標或指令等因素的(de)影響,或者后(hou)端停頓受(shou)L1、L2和(he)L3緩存中的(de)數(shu)據(ju)以及(ji)指令窗口大小的(de)影響。

對于(yu)每(mei)一(yi)代(dai)的(de)Graviton,客戶都可以(yi)簡單地切換到最新的(de)實例類(lei)型,并立即看到更好的(de)性能。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

在(zai)安全性(xing)上,亞馬遜云科技還加密了(le)Graviton4與(yu)Nitro之間的(de)PCIe鏈(lian)路(lu),做到(dao)更極致的(de)全流程安全防護。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

二、高性能芯片設計的關鍵黑科技:先進封裝與背面供電

幾(ji)年(nian)前,封裝(zhuang)還很簡單,基本上是(shi)一種封裝(zhuang)單個(ge)芯片并將其連接(jie)到(dao)主(zhu)板的(de)方法。但現在(zai)這個(ge)方案(an)變得先進(jin)很多(duo)。你可以把先進封裝想象成用一種叫做中介層(interposer)的特殊設備把幾個芯片連接在一個封裝里。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

中介層本(ben)身實際(ji)上是一個(ge)Chiplet,它作(zuo)為(wei)一個(ge)微(wei)型主板,提供了(le)連(lian)接(jie)芯(xin)片的(de)能力,其(qi)帶寬是普(pu)通(tong)PCB主板的(de)10倍。

Graviton3和Graviton4都采用了先進(jin)封裝(zhuang)技術(shu)。Graviton4有7個Chiplet,中間大芯片是計算核心,外圍更小的芯片做一些事情,比如允許芯片訪問內存和系統總線的其他部分。通過分離計算核心,亞馬遜云科技有效地將Graviton4的核心數量增加50%

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

這種方法(fa)對Graviton非常(chang)有幫助,但引入AI芯片設(she)計(ji)中會遇到(dao)一些挑戰。

2018年,看到(dao)(dao)加(jia)速(su)器實例和深度學習趨勢后,亞馬遜(xun)云科技(ji)決(jue)定構建AI芯(xin)片。其首(shou)款自研AI芯(xin)片是2019年的Inferentia,能(neng)夠切實降低小型推理工(gong)作負載的成本,比(bi)如(ru)亞馬遜(xun)Alexa通過(guo)遷移(yi)到(dao)(dao)Inferentia節省了大量資金(jin)。

2022年,亞馬(ma)遜云科技推出了其首款自研AI訓(xun)練芯(xin)片Trainium1,并實現可將(jiang)在Trainium1上運行的(de)工作負載節省約(yue)50%。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

亞馬遜云科技高級副總裁Peter DeSantis在re:Invent大會現場展示了Trainium2的封裝,里面有兩顆計算芯片并排放在中間。其計算die的晶體管數量是Trainium1計算die的2.2倍

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

想在(zai)一個系統(tong)上獲得最多的(de)(de)計算(suan)和內(nei)存,要用先進(jin)的(de)(de)封(feng)裝或制造(zao)技術(shu)來制造(zao)大芯(xin)片。Trainium2上就是(shi)這(zhe)樣做的(de)(de)。但這(zhe)遇到了(le)第(di)一個工程極限——芯(xin)片制造(zao)有尺(chi)寸限制,在(zai)800平方毫米左右。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

每個計算芯片旁(pang)邊的兩顆芯片是HBM內(nei)存堆(dui)棧,每個計算芯片Chiplet通(tong)過CoWoS-S/R封裝與兩個HBM堆(dui)棧通(tong)信(xin)。通(tong)過堆疊芯片,可將更多內存裝入相同(tong)區域(yu),從(cong)而減(jian)少消(xiao)耗、釋放的能量。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

那為(wei)什么不能把(ba)封裝做得更大呢(ni)?這就是第二(er)個限(xian)制(zhi)所在。

今天的(de)封裝實(shi)際上被限制在最大芯片尺寸的(de)3倍(bei)左右。假如將計算芯片和(he)HBM取出,可以看到中(zhong)間層,下面有(you)用來連(lian)接芯片和(he)中(zhong)介器的(de)微凸點。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

這是(shi)亞馬(ma)遜云科技旗下Annapurna芯(xin)片團隊制作的一張圖片。他們沿著紫色的線仔細(xi)切出了芯(xin)片的橫截面,然后用顯微鏡(jing)從側(ce)面放(fang)大圖像(xiang)。左上角是(shi)計算芯(xin)片(pian),旁邊(bian)有HBM模(mo)塊,HBM模(mo)塊層(ceng)都位于(yu)一個薄的連續晶圓上。芯(xin)片(pian)和中間層(ceng)頂(ding)部之間的電(dian)連接非常小,每(mei)個大(da)約是100μm,比細(xi)鹽(yan)粒還小。

而要讓(rang)芯片保持穩定(ding)連接(jie),就必須得限制封裝(zhuang)大(da)小(xiao)。

同時,Trainium2還引入了背面供電,把電源線挪到晶圓(yuan)背面(mian),以減少布線擁塞。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

半導體利用微小電(dian)(dian)(dian)荷的存在(zai)或不存在(zai)來存儲和(he)處(chu)理信息,當(dang)芯片遇到電(dian)(dian)(dian)壓下(xia)降(jiang)時,它們(men)通(tong)常得等待到供電(dian)(dian)(dian)系統調(diao)整。芯片在(zai)完成計算任務需要(yao)提(ti)供大量(liang)的能量(liang),為了在(zai)低(di)電(dian)(dian)(dian)壓下(xia)傳(chuan)輸(shu)所(suo)(suo)有的能量(liang),需要(yao)使用大電(dian)(dian)(dian)線,減少電(dian)(dian)(dian)路傳(chuan)輸(shu)長度,從而來避免所(suo)(suo)謂的電(dian)(dian)(dian)壓下(xia)降(jiang)。

三、打造最強AI硬件猛獸,背后的技術秘方

訓練更大的模型,需要構建更好的AI基礎設施、更強大的服務器集群。這要求有更好的AI芯片AI網絡

在re:Invent大會(hui)上(shang),亞馬遜云科技著重公布了幾個(ge)重磅AI硬(ying)件產品。

一是亞馬遜和Anthropic正在合作構建的Project Rainier,一個擁有數十萬顆Trainium2芯片的超級服務器集群。這個集群將具備Anthropic目前用于訓練其領先的Claude模型的集群5倍的計算能力。

二是能訓練和部署(shu)世界上最(zui)大模型(xing)的Trainum2超級服務器它連接了4個計算節點,集成了64個Trainium2芯片,將峰值算力擴展至83.2PFLOPS,稀疏算力更是高至332.8PFLOPS,將單個實例的計算、內存和網絡性能提高4倍

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

三是亞馬遜云科技迄今做機器學習訓練最高能效的服務器——Trainium2服務器。一個Trainium2服務器容納有16個Trainium2芯片,可在單個計算節點提供20.8PFLOPS的計算能力。由Trainium2芯片提供支持的Amazon EC2 Trn2實例也正式可用,可提供比當前GPU驅動的實例高出30%~40%的性價比。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

這些Trainium2芯片通過超快的NeuronLink互連技術連接在一起。

在芯片設計上,Dave Brown講解了CPU、GPU、NPU三類芯(xin)片(pian)微架構的不同。

CPU針對(dui)大量復(fu)雜(za)邏輯的快速執行,每(mei)個緩存對(dui)應控(kong)制(zhi)引擎(qing)和執行引擎(qing)。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

GPU主要用于數據并(bing)行,控制(zhi)單元(yuan)較少,執行單元(yuan)多。其(qi)運算(suan)過程會涉及一(yi)些(xie)數據在緩存和HBM內(nei)存之間的倒(dao)換。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

為了減少無效的內存占用,亞馬遜云科技Trainium芯片采用的是脈動陣列(Systolic Arrays)架構,與谷歌TPU如出一轍,直接傳遞計算結果,能夠降低內存帶寬需求。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

在生態建設上,亞馬遜云科技提供了一個其自研AI芯片的專用編譯語言新Neuron Kernel接口(NKI),用于(yu)方便(bian)開發者直接對其AI芯(xin)片進行深度調試,從(cong)而更充分地挖掘芯(xin)片性能。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

單芯片(pian)(pian)的性能強,在實際落地中未必管用(yong)。要支(zhi)撐起業界(jie)最大(da)(da)(da)的大(da)(da)(da)模(mo)型訓練(lian)和推(tui)理,必須能夠提高大(da)(da)(da)量芯片(pian)(pian)互(hu)連時的系(xi)統級算(suan)力利用(yong)率。

亞馬遜云科技自研的NeuronLink芯片到芯片互連技術可將多個Trainium2服務器組合成一個邏輯服務器,帶寬為2TB/s,延遲為1μs

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

與傳統高(gao)速網(wang)絡協議網(wang)絡不同的(de)是,NeuronLink服務器(qi)可(ke)以(yi)直(zhi)接訪(fang)問彼此的(de)內(nei)存,從而(er)創造出(chu)一臺(tai)“超(chao)級(ji)服務器(qi)”。

Peter DeSantis也(ye)花時(shi)間(jian)科普了(le)(le)一下(xia)為什么大模(mo)型推理(li)越(yue)來越(yue)重要,以及它對AI基礎設施(shi)提出了(le)(le)怎樣的新要求。

大模型推理有兩種工作負載——預填充(prefill)token生成。預填充是輸入編碼,其中處理提示和其他模型輸入,為token生成做準備。這個過程需要大量的計算資源來將輸入轉換成傳遞給下一個進程的數據結構。完成后,計算出的數據結構將被傳遞給第二個推理工作負載,由它生成token。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

Token生(sheng)(sheng)成(cheng)的有趣(qu)之處在于,模(mo)型按順(shun)序生(sheng)(sheng)成(cheng)每個token,一次(ci)一個。這對AI基礎(chu)設施提出了(le)非常(chang)不同的要求,每次(ci)生(sheng)(sheng)成(cheng)token時,必須(xu)從內(nei)存中讀取整個模(mo)型,因(yin)此(ci)會對內(nei)存總線產生(sheng)(sheng)大量需求,但它只使用少量的計算(suan),幾乎(hu)與預填充工作負載完全(quan)相反。

這些工作(zuo)量差異(yi)對AI基礎(chu)設施意味著什么呢?一旦token開始生成,只需要以超過人類閱讀速度的速度生成它們。這不是很快,但當模型越來越多地用于agentic工作流,在進入工作流的下一步之前,需要生成整個響應。所以現在客戶關心的是快速預填充快速token生成

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

對真(zhen)正快速推理(li)的渴(ke)望,意味著(zhu)AI推理(li)工作(zuo)負載(zai)也(ye)尋(xun)求使用最強大的AI服(fu)務(wu)器。這兩種不同工作負荷是互補的。預填充需要更多的計算,token生成需要更多的內存帶寬,所以在同一個強大的AI服務器上運行它們可以幫助實現出色的性能和效率

這就解釋了亞(ya)馬遜云科技力推自研AI服(fu)務(wu)器(qi)及集群的核心驅動力。

四、如何構建AI網絡?10p10u架構、定制光纖電纜及插頭、混合式路由協議

云網絡(luo)需要(yao)快速擴展以適應增長,亞馬遜云科技每(mei)天向全球(qiu)數據中心添加數千臺服務(wu)器。但AI的擴展速度更(geng)快。

據Peter DeSantis分享,亞馬遜云(yun)科技的(de)云(yun)網絡在可靠性方面已經做到99.999%。AI工作負(fu)載對規(gui)模、速(su)度、可靠性的(de)要(yao)求更(geng)甚。如果AI網絡經歷了短暫的(de)故障,整個集(ji)群的(de)訓(xun)練(lian)(lian)過程可能會延遲,導致資源閑置和訓(xun)練(lian)(lian)時(shi)間延長。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

如何在云網絡的創新基礎上構建一個AI網絡呢?亞馬遜云科技打造了10p10u網絡

10p10u的物理架構與傳統CLOS網絡架構區別不大,亮點是實現了10Pbps傳輸帶寬、10μs網絡延遲,連起來后組成可用于訓練的超級集群。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

下圖展(zhan)示(shi)了亞馬遜云科(ke)技(ji)在不同網(wang)絡結構(gou)中安裝的鏈接數量(liang),其(qi)中10p10u在過去12個月已安裝超過300萬條

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

結(jie)構如下圖所(suo)示,采(cai)用(yong)簡(jian)化的無電纜機(ji)箱(xiang)設計,左側(ce)是(shi)8張(zhang)Nitro卡,右側(ce)是(shi)兩顆Trainium2加速器(qi)。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

大(da)(da)量的光纜進入(ru)機架,要(yao)(yao)構(gou)建這樣的密集網絡結構(gou),需(xu)要(yao)(yao)非(fei)常精確的互(hu)連交(jiao)換機,并要(yao)(yao)應(ying)對復雜(za)性大(da)(da)大(da)(da)增加的挑戰(zhan)。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

針對布線復雜(za)問題,亞馬遜云科(ke)技研(yan)制了一些特(te)殊的光纖電纜(lan)、光纖插頭,并針對超大規模集群打(da)造了一種全(quan)新網絡路由協議。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

其中一個創新是開發了一個定制的光纖電纜Fiber optical trunk cable。可以把它當成一根超級電纜,它將16根獨立的光纖電纜組合成一個堅固的連接器,能夠大大簡化組裝過程,消除連接錯誤的風險。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

使用主干連接器將在AI機架上的安裝時間縮短了54%,而且做到看起來更整潔了。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

還有定制光纖插頭——Firefly Optic Plug

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

這個巧(qiao)妙的低(di)成本設備就像一個微型(xing)信號反射器(qi),支持在機架到達(da)數(shu)據中心之(zhi)前(qian)進(jin)行(xing)全面測試和驗證網絡連接(jie)。這意味著服務器(qi)到達(da)時,不會浪費任(ren)何時間調試、布線。

此(ci)外,即(ji)使是(shi)微小的灰塵顆粒,也會顯著降低(di)完(wan)整性并(bing)造(zao)成網絡(luo)性能問題。而Firefly Optic Plug具有雙重保護(hu)密封功能,可(ke)防止(zhi)灰塵顆粒進入光纖連接。

最后一個挑戰是提供更高的網絡可靠性

亞馬遜云科技對光鏈路的可靠性做了很多優化,將失敗降低到0.002以下。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

AI網(wang)絡中最大的故障來(lai)源是光鏈(lian)路。光鏈(lian)路是微型激(ji)光模塊,在電纜上發送和接收光信號(hao)。這些失敗(bai)不(bu)可能被完全消除,因此需要考(kao)慮(lv)如何減少失敗(bai)的影響(xiang)。

每個網絡交換機都需(xu)要(yao)數(shu)據(ju)來告訴它們如何路(lu)由數(shu)據(ju)包。在AI網絡中,這個地(di)圖可能需(xu)要(yao)考慮數(shu)十萬條路(lu)徑。每次(ci)光鏈路(lu)出現故障(zhang),映射就需(xu)要(yao)更新。

如何(he)快速而可靠(kao)地做到(dao)這一點(dian)?最簡單的方法是集中管理映射(she)。

優化網絡聽起來(lai)很吸引(yin)人,但當網絡規模龐大時(shi),中央(yang)控制就(jiu)會成為瓶頸。檢測故障會很困難,交換機更新可能非常緩(huan)慢,而且中央控制器是單點故障。這(zhe)就是為什么大型(xing)網絡通常使(shi)用BGP和OSPF等(deng)協議去中心化的原因。

然而去中心化(hua)的方案(an)也(ye)不完美。在大型網絡(luo)中,當鏈路出(chu)現故障時(shi),網絡(luo)交換機(ji)需要花費大量時(shi)間進行協作,并為網絡(luo)找到(dao)新的(de)最優映射(she)。

也就是說,在面對超大規模集群組網時,集中式和分布式的傳統路由協議都面臨挑戰。

面臨次優選擇時,則需要開辟一條新的道路。對此,亞馬遜云科技研發了一種全新的混合式網絡路由協議SIDR(Scalable Intent Driven Routing),通過將集中式和分布式控制的優勢相結合,能(neng)(neng)在很(hen)短時間內(nei)重新規劃(hua)網絡(luo)路徑,為超(chao)大規模集群(qun)提供(gong)更好的快速(su)故障檢測、響應和恢復能(neng)(neng)力(li)。

SIDR可以簡單(dan)理解(jie)(jie)成(cheng)讓中央計劃者將網(wang)絡分解(jie)(jie)成(cheng)一(yi)個結構,這(zhe)(zhe)個結構可以下推到網(wang)絡中的(de)所(suo)有交(jiao)換機。這(zhe)(zhe)樣它們看到故障時,就能做(zuo)出快速、自主的(de)決定(ding)。 結果,SIDR能在1秒內響應故障,而且在亞馬遜云科技網絡上做到比其他替代方法快10倍。其他網絡可能還在重新計算路線,10p10u網絡已經恢復工作了。

亞馬遜云科技最強AI硬件猛獸背后,工程細節詳細解讀

結語:云大廠自研芯片的風向標

作為在自研芯片落地上最成功的云計算大廠之一,亞馬遜云科技的芯片設計經驗、自研芯片對云業務的實際影響、迭代與創新方向一直備受關注。在接受智東西等媒體采訪期間,Dave Brown也總結了亞馬遜云科技自研芯片的一些關鍵優勢,包括成本低、規模大、落地快、穩定可靠等。

成本上,如果選用Trainium2可將成本較H100降低50%,那么這對客戶或許是很有吸引力的點。

規模上,亞馬遜云科技的規模確保其芯片能夠正常運行,會在推出Trainium前做大量測試,確保芯片一旦推出就一定會成功,不會出現硬件需要撤回的情況。

規模大還意味著更容易獲得所需的產能。Dave Brown提到(dao)亞馬(ma)遜(xun)云科技與(yu)(yu)英特爾(er)、臺(tai)積(ji)電等企業的(de)合作順利,認為臺(tai)積(ji)電到(dao)美國鳳凰城投資建廠是明(ming)智之(zhi)選。亞馬(ma)遜(xun)云科技致力于實現(xian)供應鏈多元化(hua),是臺(tai)積(ji)電的(de)最大客戶之(zhi)一,也(ye)一直(zhi)與(yu)(yu)英特爾(er)緊密合作,互相幫助(zhu)進(jin)行設計(ji)創新,預計(ji)不(bu)會(hui)受(shou)領(ling)導層變動的(de)影響。

落地上,亞馬遜云科技有專門團隊,負責立即能將芯片放到服務器中,中間不存在一兩個月的耽擱延誤,因此能縮短落地時間,有足夠好的芯片來支持客戶進行大語言模型的訓練。

還有完整的產品組合和可靠服務。亞馬遜云科技提供不僅僅是芯片,還包括存儲、Kubernetes服務器、API、安全、網絡等,這樣豐富的組合拳是其他供應商難以提供的。在穩定性上,亞馬遜云科技同樣具備優勢,在及(ji)時診斷和修補遇到的(de)(de)問題、確保服務不受影響方(fang)面已經深得云服務客戶(hu)的(de)(de)信任。

生(sheng)成式AI浪潮推(tui)動下游市場對(dui)更高性能、高性價比、靈活可定制的AI基(ji)礎(chu)設施(shi)提出(chu)了強需(xu)求。而(er)亞馬遜云科技(ji)在AI基(ji)礎(chu)設施(shi)底層(ceng)技(ji)術(shu)與工(gong)程上的探索與創新,正為業界提供一(yi)個(ge)既(ji)能適應客戶(hu)業務需(xu)求、降低系統復雜性又(you)能提高供應鏈話(hua)語權(quan)的出(chu)色(se)參考范本。