芯東西(公眾號:aichip001)
編譯 | ?ZeR0
編輯 | ?漠影

芯(xin)(xin)東(dong)西5月15日報道,今日凌晨(chen),谷(gu)歌在I/O大會(hui)上(shang)宣布推出(chu)其迄今性能最高、最節能的專用AI芯(xin)(xin)片——第六代(dai)TPU?Trillium。該芯(xin)(xin)片將于今年晚(wan)些時候(hou)上(shang)市。

與上一代TPU v5e相比,Trillium TPU在每個芯(xin)片上的峰值計算性能(neng)(neng)提(ti)高了4.7倍,節能(neng)(neng)67%以(yi)上,將(jiang)高帶寬(kuan)內存(HBM)容量和帶寬(kuan)提(ti)高了1倍,并將(jiang)TPU v5e上的芯(xin)片間互(hu)連(ICI)帶寬(kuan)提(ti)高了1倍。

谷歌最強AI芯片發布!計算性能提高4.7倍,HBM容量和帶寬翻番

為了(le)提高(gao)性能水平,Trillium擴大(da)了(le)矩陣乘(cheng)單元(MXU)的大(da)小并(bing)提高(gao)了(le)時鐘(zhong)速(su)度。

此(ci)外,Trillium還(huan)配備了第三代SparseCore,這是一種(zhong)專(zhuan)門用于處理(li)高(gao)級排(pai)名和(he)推薦工(gong)作負(fu)載(zai)中常見的(de)超大型嵌(qian)(qian)入(ru)的(de)專(zhuan)用加(jia)速器。SparseCore通過戰略性地從張(zhang)量核心中卸(xie)載(zai)隨機和(he)細粒(li)度訪(fang)問來加(jia)速嵌(qian)(qian)入(ru)繁重的(de)工(gong)作負(fu)載(zai)。

HBM容量和(he)帶寬翻倍(bei)后,Trillium可(ke)以使用具(ju)有更多權重和(he)更大鍵值(zhi)緩存的更大模型。

下一代HBM支持(chi)更高的(de)內(nei)(nei)存帶(dai)寬、更高的(de)功率效率和(he)靈活(huo)的(de)信(xin)道架構,以增(zeng)加(jia)內(nei)(nei)存吞(tun)吐量(liang)。這改善了大模型(xing)的(de)訓練(lian)時間和(he)服(fu)務延遲。這是模型(xing)權重和(he)鍵(jian)值緩存的(de)兩倍,訪(fang)問速度更快,并且具有(you)更多(duo)的(de)計算容量(liang)來加(jia)速機器學(xue)習(xi)工作負載。

ICI帶(dai)寬翻(fan)倍(bei),使訓練(lian)和推理(li)工作(zuo)能夠擴(kuo)展到(dao)數萬(wan)個(ge)芯片(pian),這是由(you)定制光(guang)學(xue)ICI互連(每個(ge)POD中(zhong)有256個(ge)芯片(pian))和Google Jupiter Networking(將可(ke)擴(kuo)展性擴(kuo)展到(dao)集群(qun)中(zhong)的(de)(de)數百個(ge)POD)的(de)(de)組合(he)提供支持的(de)(de)。

Trillium可以在單個(ge)(ge)高(gao)帶寬、低延遲(chi)POD中擴展(zhan)到(dao)256個(ge)(ge)TPU。除了(le)這種(zhong)POD級(ji)的可擴展(zhan)性,通(tong)過(guo)multislice技(ji)術和(he)Titanium處理單元(IPU)。Trillium TPU可以擴展(zhan)到(dao)數百個(ge)(ge)POD,連接數萬個(ge)(ge)芯片,在一個(ge)(ge)建(jian)筑(zhu)級(ji)超級(ji)計算機中,通(tong)過(guo)每秒數petabit的數據中心網(wang)絡互連。

十多(duo)年(nian)來,谷歌一直在開發定制的(de)AI專用硬件TPU,以推動(dong)規模(mo)和效率的(de)發展。

2013年,谷歌開始(shi)開發世界上(shang)第一(yi)個專用AI加(jia)速器TPU v1,隨(sui)后在2017年推出了第一(yi)個Cloud TPU。如果沒有TPU,谷歌的(de)實(shi)時語(yu)音搜索、照片(pian)對象(xiang)識別、交互式語(yu)言(yan)翻譯(yi)等主流服務以(yi)及Gemini、Imagen和Gemma等先進基礎(chu)模(mo)型將不能實(shi)現。

TPU的(de)規模和(he)效率為谷(gu)歌研究中(zhong)心的(de)Transformer提(ti)供了基礎工作,而Transformer是現代生成式AI的(de)算(suan)法基礎。

在(zai)這些(xie)基(ji)礎上研(yan)發出的(de)Trillium,將(jiang)為下一代AI模型和Agent提供動力。例如,自(zi)動駕駛汽車公司(si)Nuro通過使(shi)用Cloud TPU訓練模型,致力于通過機器人技(ji)術創(chuang)造更美好的(de)日常生(sheng)(sheng)活;Deep Genomics正在(zai)通過AI推動藥物發現的(de)未來,并期(qi)待著他(ta)們(men)的(de)下一個基(ji)礎模型如何(he)在(zai)Trillium的(de)支持下改(gai)變(bian)患(huan)者(zhe)的(de)生(sheng)(sheng)活;谷(gu)歌AI年(nian)度云合(he)作伙伴德勤將(jiang)基(ji)于Trillium通過生(sheng)(sheng)成式AI轉變(bian)業務。

Trillium TPU是(shi)(shi)谷歌(ge)云AI超級計算(suan)機的(de)一(yi)部分(fen),這是(shi)(shi)一(yi)種(zhong)專門為頂尖AI工作負載設計的(de)突破(po)性超級計算(suan)架構。它集成了性能優化的(de)基礎設施(包括Trillium TPU)、開(kai)源軟(ruan)件框架和靈活的(de)消(xiao)費級模(mo)型。

谷歌最強AI芯片發布!計算性能提高4.7倍,HBM容量和帶寬翻番

對JAX和XLA的支持(chi)意味著為任何上一代TPU編寫的聲明(ming)性模型描述(shu)可以直(zhi)接映射(she)到Trillium TPU的新(xin)硬(ying)件和網絡功(gong)能。谷歌還與Hugging Face合(he)作了Optimum-TPU,以簡化模型訓練(lian)和服務。

結語:下一代基礎模型需要更大的計算、存儲、通信能力

生成式(shi)AI正在改(gai)變人們(men)與技(ji)術的互(hu)動(dong)方式(shi),并為商業影響帶(dai)來(lai)(lai)巨(ju)大(da)的效率機會。這些進步需要更大(da)的計算、內(nei)存和通信能力來(lai)(lai)訓(xun)練和微調最強大(da)的模型,并以交(jiao)互(hu)方式(shi)為全球用戶群體提供服務。

谷(gu)歌今天發(fa)布的(de)Gemini 1.5 Flash、Imagen 3和Gemma 2等新模(mo)型(xing)都(dou)是(shi)在(zai)TPU上訓練(lian)并(bing)使(shi)用TPU提(ti)供(gong)服(fu)務(wu)的(de)。Trillium TPU能更(geng)(geng)快地訓練(lian)下一代基礎模(mo)型(xing),并(bing)以更(geng)(geng)低的(de)延(yan)遲和更(geng)(geng)低的(de)成本(ben)為這些模(mo)型(xing)提(ti)供(gong)服(fu)務(wu)。

在Trillium TPU上(shang)支持長上(shang)下文、多模態模型的(de)訓(xun)(xun)練和(he)服(fu)務,將使谷歌(ge)DeepMind能夠比以往更快、更有效、更低延遲地訓(xun)(xun)練和(he)服(fu)務未來(lai)幾(ji)代Gemini模型。