
芯東西(公眾號:aichip001)
編譯?| 王傲翔
編輯 | 程茜
芯東西(xi)4月11日消息,美國半導體行(xing)業雜(za)志EE Times(《電子(zi)工(gong)程(cheng)專輯(ji)》)周二報道,在2023年(nian)生成式(shi)AI熱潮下,隨著(zhu)HBM3的(de)量產,適用于AI應用與數據計算的(de)HBM內存的(de)功耗受到(dao)越來(lai)越多(duo)關(guan)注。
隨著AI技術(shu)的(de)迅猛發展(zhan),企業對AI服務器內存(cun)帶寬(kuan)的(de)需求正(zheng)持續上升,但數據(ju)中心電力成本(ben)的(de)不斷上漲使企業開始將每瓦(wa)帶寬(kuan)作為重(zhong)要的(de)指標。企業在選擇(ze)內存(cun)時面臨成本(ben)和性能(neng)的(de)平衡考量。
作為能(neng)夠滿(man)足AI對(dui)高(gao)帶寬(kuan)內(nei)存需求的關鍵技術,HBM成為企業(ye)的首選內(nei)存。美(mei)光、三星等HBM供應商正探索創新(xin)解(jie)決方(fang)案(an),降低(di)HBM功耗(hao),確保HBM在未來高(gao)性能(neng)計算和AI應用中發揮關鍵作用。
EE Times專訪了(le)美(mei)(mei)國(guo)著名(ming)半導體技術(shu)供(gong)應商(shang)Rambus硅IP產品(pin)營銷高(gao)(gao)級(ji)總(zong)監Lou Ternullo、美(mei)(mei)國(guo)市(shi)場研(yan)究和咨詢(xun)公司(si)Objective Analysis首席分析(xi)師Jim Handy、全(quan)球最大半導體IP接(jie)口供(gong)應商(shang)新思科技高(gao)(gao)級(ji)產品(pin)經(jing)理Graham Allan、以(yi)及美(mei)(mei)光產品(pin)管(guan)理高(gao)(gao)級(ji)總(zong)監Girish Cherussery,討論了(le)在當前(qian)AI持續(xu)發展下,HBM面臨的功(gong)耗問題和供(gong)應商(shang)可以(yi)采取的技術(shu)措(cuo)施等話(hua)題。
一、電力能耗持續上漲,內存選擇受到成本限制
Lou Ternullo在接受采訪時稱(cheng),AI對內(nei)存帶(dai)寬的(de)需求不斷增加,與(yu)HBM帶(dai)寬的(de)增加直接相(xiang)關。他說:“在整(zheng)個市(shi)場(chang)上,我們看到數據集(ji)和(he)訓練模型的(de)參(can)數越(yue)來越(yue)大,2023年的(de)生成式AI熱潮只是(shi)加速了(le)這一(yi)趨勢(shi)。”
他(ta)認為,人們對AI服(fu)務器的性能、內存(cun)(cun)帶寬(kuan)和(he)內存(cun)(cun)大小等需求(qiu)呈指數級增(zeng)長(chang),這給下一代HBM帶來了(le)更高的期望(wang)和(he)壓力。
此外(wai),雖(sui)然每(mei)瓦帶寬這一(yi)概念并不新鮮,HBM對每(mei)瓦帶寬進(jin)行了優化以提高服務器效率,但(dan)AI數(shu)據中心的能耗一(yi)直在上升(sheng)。Ternullo稱(cheng):“2023年(nian)(nian)各企業對生成式AI的巨額投(tou)資和部署讓(rang)一(yi)些人預測到2026年(nian)(nian)數(shu)據中心的用電量將(jiang)翻一(yi)番。”
Ternullo補充說(shuo),數據中(zhong)心快速增長的(de)電力(li)成(cheng)本意味著,對(dui)于需要(yao)監(jian)控(kong)運(yun)營成(cheng)本的(de)企業來說(shuo),每瓦帶寬(kuan)正在成(cheng)為(wei)一個更加重要(yao)的(de)指標。隨著社(she)會對(dui)可(ke)持續發展倡(chang)議的(de)日益關注(zhu),這一點變得(de)更加重要(yao)。
與(yu)HBM相關(guan)的(de)高(gao)成本和內(nei)(nei)存(cun)本身(shen)的(de)高(gao)價格意(yi)味著(zhu),在決(jue)定(ding)(ding)超大功率內(nei)(nei)存(cun)是(shi)否需要應用時,企(qi)業總體擁有成本成為決(jue)定(ding)(ding)性(xing)因(yin)素(su),即企(qi)業整個數據(ju)中(zhong)心的(de)成本之和。客戶在決(jue)定(ding)(ding)需要哪種(zhong)內(nei)(nei)存(cun)時,首先會考慮內(nei)(nei)存(cun)的(de)密度、性(xing)能和功耗等因(yin)素(su)。
二、AI性能需求沒有上限,HBM成AI服務器最佳內存
與其他存(cun)(cun)儲芯片相比,AI或(huo)機器學習是(shi)極少數能夠將更(geng)昂貴(gui)的(de)HBM商業化的(de)應(ying)用(yong)之一。Ternullo稱:“像AI這(zhe)樣的(de)應(ying)用(yong)對(dui)內存(cun)(cun)帶寬有(you)著無盡的(de)渴(ke)求,這(zhe)些應(ying)用(yong)能為企業帶來更(geng)高(gao)的(de)投(tou)資回報率,這(zhe)就(jiu)證明了HBM成本較高(gao)的(de)合理性。”
不(bu)過(guo),AI需(xu)求增加(jia)(jia)并不(bu)直接導致(zhi)HBM成本上升(sheng)。這是因為,AI需(xu)求主要推動企(qi)業對(dui)GPU使用的(de)增加(jia)(jia),但GPU通常需(xu)要HBM的(de)使用才能達(da)到AI服務(wu)器的(de)預期性能。
Jim Handy稱(cheng),企業(ye)需要明確的使(shi)用(yong)(yong)HBM的理由。對于某些圖形應(ying)用(yong)(yong),類(lei)似AMD這樣的公(gong)司會在某些GPU上(shang)使(shi)用(yong)(yong)GDDR顯存,因(yin)為GDDR相(xiang)較HBM更加便宜。
Handy解釋,在AI場景外,GPU主要用于圖形處(chu)理,尤其是用于游戲和計(ji)算機動畫后期特效。他(ta)(ta)說(shuo):“許多(duo)公(gong)司都在使(shi)用GPU,而且數量還不(bu)少(shao)。他(ta)(ta)們會有(you)一個裝滿(man)GPU的大型數據中(zhong)心(xin)。”雖然GDDR最初為圖形工作而設計(ji),但(dan)多(duo)年來的新興應用已使(shi)其他(ta)(ta)應用場景對GDDR產生(sheng)了競爭性(xing)需求。
同樣,Graham Allan認為(wei),考慮到AI發展,昂(ang)貴(gui)的(de)HBM現在也很難買到。雖(sui)然HBM仍有邊(bian)緣應(ying)用,但大(da)部分應(ying)用集(ji)中(zhong)在AI領域(yu)。
即使HBM的(de)第三(san)次(ci)迭代已進入大批量(liang)生產(chan)階段,Allan也不認為這項技(ji)術已經成熟(shu)。“HBM在DRAM方面(mian)是獨一(yi)無(wu)二(er)的(de),因為它是唯一(yi)不安裝在處理器旁邊主板上的(de)DRAM。”他說,“不過(guo),HBM的(de)2.5D封裝技(ji)術需要額外的(de)技(ji)術步(bu)驟,這給整個(ge)行業帶來了挑戰。”
三、HBM需要集成在處理器上,多家供應商抓緊量產
Allan認為DRAM的(de)實現(xian)非常簡單。他說(shuo):“如果(guo)你想設計一個具有(you)DDR5接口的(de)SoC,你可以去查看開(kai)源的(de)任何一種參(can)考設計,例(li)如找到(dao)英特(te)爾(er)批準的(de)DDR5 DIMM,便可獲得所有(you)零部件號。這是一項成熟的(de)技術。”
但對于(yu)HBM來(lai)說,包括DRAM在內的所有部分都封(feng)裝在SoC內。企業可以(yi)從美光、三星和SK海力士等多(duo)家供應商中選(xuan)擇HBM,同時必須解決如何設計Interposer(中介層(ceng))組(zu)裝以(yi)及其他問(wen)題,包括信號路徑和信號完整性。
新思科(ke)技為客(ke)(ke)戶(hu)提供控(kong)制HBM所需的(de)(de)IP,包括控(kong)制器(Controllers)、物理層接口(PHY)以(yi)及(ji)驗證IP(verification IP)。Allan說:“客(ke)(ke)戶(hu)正在尋求在HBM專業技術(shu)和特(te)定參(can)考(kao)設計方面的(de)(de)幫助。我(wo)們共享(xiang)參(can)考(kao)設計方案和一(yi)些(xie)最常見的(de)(de)中介層技術(shu)。此外(wai),我(wo)們還協(xie)助硅片測(ce)試(shi),包括中介層及(ji)組件的(de)(de)連接。這樣一(yi)來(lai),我(wo)們可以(yi)為客(ke)(ke)戶(hu)提供完(wan)全定制的(de)(de)測(ce)試(shi)芯片。”
他認為硅片測(ce)試對于(yu)HBM尤為重要,因為企業一旦投入(ru)設計(ji)并(bing)將(jiang)HBM應(ying)用(yong)到系統中,再進行(xing)更改(gai)就(jiu)會非(fei)常耗時(shi)。
“HBM正在走(zou)向(xiang)成熟,但(dan)仍(reng)遠不及(ji)DDR和LPDDR技(ji)術(shu)成熟。盡管HBM4的邏輯方(fang)法(fa)與HBM3相似,但(dan)從DDR4到DDR5是一(yi)(yi)個巨大的飛躍。”Allan說,“選(xuan)擇使用(yong)HBM是一(yi)(yi)項(xiang)重大承諾,因為它更加復(fu)雜,而且是一(yi)(yi)種(zhong)低(di)容量產品。客戶希望(wang)盡可能降(jiang)低(di)決策風險。”
Allan還稱,客(ke)戶之(zhi)所(suo)以選擇(ze)HBM,是因為其他(ta)產(chan)品都無法(fa)滿足(zu)他(ta)們(men)的(de)(de)要求。在HBM之(zhi)下,對(dui)(dui)于(yu)一些應用來說,GDDR內存可能是足(zu)夠(gou)的(de)(de),并且(qie)GDDR7的(de)(de)容量是GDDR6的(de)(de)兩(liang)倍,數(shu)據傳(chuan)(chuan)輸(shu)率也(ye)有所(suo)提高。但(dan)數(shu)據傳(chuan)(chuan)輸(shu)率高是因為數(shu)據傳(chuan)(chuan)輸(shu)的(de)(de)通道相對(dui)(dui)較(jiao)窄。
“你(ni)可以達到更高的(de)數據傳輸率,但你(ni)必須非(fei)常(chang)小心地設計你(ni)的(de)系(xi)統(tong),因(yin)為(wei)你(ni)的(de)系(xi)統(tong)運行速度非(fei)常(chang)快。”他說。
不過(guo),GDDR7是2026年的技術,并且去年推(tui)出的HBM3帶寬(kuan)潛力(li)較GDRR7還要高(gao)出3倍。Allan認為帶寬(kuan)的發(fa)展空間非常大(da)。
他補充(chong)道,這并不(bu)意(yi)味著這樣的(de)(de)帶寬(kuan)潛(qian)力(li)足夠滿足企業(ye)對AI的(de)(de)需求,并且還有(you)其他因素(su)在(zai)影響整(zheng)個(ge)服(fu)務器(qi)能完成(cheng)多少任務。例(li)如,中介層有(you)可能成(cheng)為瓶頸。如果服(fu)務器(qi)的(de)(de)PCB布線不(bu)佳,串擾過多,那么服(fu)務器(qi)性能最終(zhong)可能會下降。
微電子產業領導標(biao)準機(ji)構固(gu)態(tai)技術協會(JEDEC)目前(qian)(qian)正在制定HBM4規范,但(dan)不(bu)愿說明(ming)這一規范的進(jin)展情況。SK海(hai)力士副總裁金基泰(Kim Chun-hwan)在2024年韓國半(ban)導體展(Semicon Korea 2024)上(shang)發表主題演講(jiang)時透露,該公(gong)司(si)計劃在2026年之(zhi)前(qian)(qian)開始量(liang)產HBM4。
美光最(zui)近開始量產其HBM3E內存,今年HBM產能已基(ji)本售罄(qing)。該公司的(de)首款(kuan)HBM3E具備8層堆疊和(he)24GB容量,并具有1024位接口、9.2GT/s的(de)數(shu)據傳輸速率和(he)1.2TB/s的(de)總帶寬。
▲美光(guang)HBM3E規(gui)格(圖源:Micron Technology)
四、數據中心更加注重功耗,美光、三星采用不同方式降低內存功耗
Girish Cherussery稱,HBM剛進入(ru)市場時,美光(guang)審查(cha)了(le)HBM適用的工作負載,并決定將HBM性(xing)能目標定為(wei)比行(xing)業需求(qiu)高出30%。“我們(men)是經得起未來考驗的。”Cherussery說,“一個(ge)關鍵指標是每瓦(wa)性(xing)能,這是一個(ge)關鍵的功耗邊界條件。我們(men)專注(zhu)于確保每瓦(wa)性(xing)能顯著(zhu)提(ti)高。” 此外,客戶還希(xi)望HBM靠近計算單元。
Cherussery解(jie)釋道,包括大語言(yan)模型(xing)在內(nei)的許(xu)多AI工作負(fu)載正(zheng)變得越來越受內(nei)存約(yue)束,而(er)不是受計算(suan)約(yue)束。如果你的服務(wu)器(qi)有(you)足夠的計算(suan)能力(li),那(nei)么服務(wu)器(qi)內(nei)存帶寬(kuan)和容量就會成為制約(yue)因素。AI工作負(fu)載給數據中心帶來了(le)很(hen)大壓力(li)。
此(ci)外,內(nei)存(cun)(cun)利用(yong)率(lv)(lv)高意味著內(nei)存(cun)(cun)功率(lv)(lv)是(shi)(shi)數據中(zhong)心(xin)的(de)耗電大戶,因此(ci)節省(sheng)5瓦(wa)的(de)電量(liang)就能提高內(nei)存(cun)(cun)利用(yong)的(de)效率(lv)(lv)。越來越多的(de)數據中(zhong)心(xin)看(kan)重瓦(wa)特數而(er)不是(shi)(shi)服務器的(de)數量(liang)。使用(yong)HBM時,冷卻HBM也是(shi)(shi)一個重要因素,因為它是(shi)(shi)一種堆疊式內(nei)存(cun)(cun)。HBM運轉產生的(de)熱量(liang)需要散發出去(qu)。
除了帶寬、功耗和整(zheng)體散熱情(qing)況外,易于(yu)集成(cheng)是所(suo)有(you)HBM最(zui)關鍵的(de)特(te)性。Cherussery稱,美光擁(yong)有(you)自己的(de)專利,可以(yi)將其HBM集成(cheng)到主機(ji)系統中。
“業界已(yi)經為(wei)HBM3E做好了準備,它可以很容易地被集成(cheng)到(dao)使用HBM的(de)系統中。”他說(shuo),“我們的(de)產品(pin)可以無(wu)(wu)縫集成(cheng)到(dao)相同的(de)插槽中,無(wu)(wu)需(xu)任何(he)改動。它的(de)占位面(mian)積與(yu)上一代產品(pin)相同。”
更(geng)高(gao)的(de)(de)帶(dai)寬(kuan)和更(geng)大的(de)(de)容量將是HBM4的(de)(de)特點。隨著AI大模型的(de)(de)增長,企業(ye)對HBM容量和帶(dai)寬(kuan)的(de)(de)要求也呈線性增長。
“內(nei)存(cun)行業整體處于一(yi)個有趣的(de)(de)階段,因為從未出現過某種工(gong)作(zuo)負(fu)載如生成式(shi)AI和普(pu)通AI一(yi)般,與內(nei)存(cun)帶寬和內(nei)存(cun)容(rong)量(liang)的(de)(de)增長(chang)呈線性(xing)關系。這意味著對于計算和內(nei)存(cun),企業將(jiang)不得(de)不開始(shi)考慮與過去略有不同的(de)(de)系統。數據中心(xin)本身(shen)正變得(de)越(yue)來越(yue)異構。”他(ta)說。
三星(xing)也見證(zheng)了數據中心里異構計算和更多(duo)以AI為重(zhong)點的服務(wu)(wu)的顯著增(zeng)長(chang)。負責三星(xing)產品規劃和業(ye)務(wu)(wu)支持的副總裁金仁東(dong)(Indong Kim)說:“這(zhe)種增(zeng)長(chang)似乎(hu)與同(tong)時提供直接和間接AI解(jie)決方(fang)案的超大型企業(ye)的崛起(qi)相(xiang)吻合。”
他認為(wei),數據中心(xin)正在不(bu)斷(duan)發展,以便將計算資源的(de)(de)最大潛(qian)力(li)用(yong)于包括AI在內(nei)的(de)(de)特定工作(zuo)負載(zai),實現這樣潛(qian)力(li)的(de)(de)重(zhong)點在于DRAM帶寬(kuan)和容量。尤其令(ling)人(ren)興(xing)奮的(de)(de)是(shi),采用(yong)CPU和專用(yong)加速器這兩種不(bu)同(tong)類型處理器的(de)(de)異(yi)構架構,在提(ti)升(sheng)內(nei)存方面的(de)(de)目標是(shi)一致的(de)(de)。他相(xiang)信,這一趨勢將為(wei)DRAM制(zhi)造商提(ti)供(gong)巨(ju)大的(de)(de)增長(chang)機會。
在(zai)Memcon 2024大(da)會(hui)上,三(san)星展示了該(gai)公司所(suo)稱的全(quan)球首款12堆(dui)棧(zhan)HBM3E DRAM。它(ta)采用了三(san)星先進的熱壓非導(dao)電膜(TC NCF)技術,內部垂直(zhi)密度較前代(dai)產(chan)品提高了20%以上,同時還提高了產(chan)品良(liang)率。隨著大(da)規模并行計算(suan)在(zai)高性能計算(suan)(HPC)環境中越(yue)來越(yue)普及,Kim稱HBM需求還將激增。
三星的(de)HBM3E DRAM專為滿足高性能計算和(he)苛刻的(de)AI應用(yong)而設計。該公司還(huan)推(tui)出了基(ji)于Compute Express Link(CXL)開放互(hu)連(lian)協議的(de)Memory Module-Box(CMM-B)內(nei)(nei)(nei)存(cun)盒(he)模組,旨在(zai)支(zhi)持(chi)需(xu)要大(da)容量(liang)內(nei)(nei)(nei)存(cun)的(de)應用(yong),例如(ru)AI、內(nei)(nei)(nei)存(cun)數據(ju)庫和(he)數據(ju)分(fen)析。CMM-B還(huan)支(zhi)持(chi)內(nei)(nei)(nei)存(cun)池(memory pooling),這是(shi)異構計算的(de)一個關鍵(jian)要素。
▲三(san)星推(tui)出CXL Memory Module-Box內存(cun)盒模組(zu)(圖(tu)源:Samsung Electronics)
金仁東稱,AI對(dui)內存容量和帶寬的(de)需求不(bu)(bu)斷(duan)增(zeng)(zeng)長,模型的(de)參數(shu)規模不(bu)(bu)斷(duan)增(zeng)(zeng)長,加(jia)速了存儲芯片(pian)玩家對(dui)不(bu)(bu)同存儲技術研發(fa)的(de)步伐。CXL協議與(yu)HBM相(xiang)互交織(zhi),為應對(dui)不(bu)(bu)斷(duan)增(zeng)(zeng)長的(de)AI需求提供最佳特(te)性,促進(jin)現有的(de)DRAM-SSD存儲層次結構(gou)的(de)發(fa)展(zhan)。
他(ta)說:“我們(men)相信,CXL將(jiang)成為不斷增長的容量需求的完美補充,提供最佳(jia)特性,彌合現有的DRAM-SSD層次結構。”
結語:HBM發展前景廣闊,幫助企業降低成本
隨著AI對內存帶寬需求的(de)持(chi)續增長,HBM作為一種高性(xing)能內存技(ji)術受(shou)到越(yue)(yue)來越(yue)(yue)多(duo)的(de)關注。盡管HBM面臨(lin)著成(cheng)本(ben)高、集成(cheng)復雜等挑戰,但其在(zai)AI數據中(zhong)心和其他(ta)應用場景中(zhong)的(de)重要性(xing)不斷凸顯(xian)。HBM供應商也(ye)在(zai)采(cai)取不同的(de)技(ji)術降低(di)HBM功耗,以(yi)幫助(zhu)節省數據中(zhong)心電力成(cheng)本(ben)。
在此背景下(xia),HBM逐漸走向成熟(shu),但仍需面臨DDR和(he)(he)LPDDR等成熟(shu)技術(shu)的(de)挑戰。隨著(zhu)HBM4、HBM3E的(de)開發和(he)(he)部署(shu),預計HBM將繼續(xu)在高性能(neng)計算和(he)(he)AI應用中發揮(hui)重要作用。