
芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影
芯(xin)東西5月8日(ri)報道,今日(ri),Imagination Technologies推出兼顧(gu)邊緣AI計算(suan)和圖形渲染需求的(de)全新E系(xi)列(lie)GPU IP。E系(xi)列(lie)(E-Series)憑(ping)借其(qi)高效的(de)并行處理架(jia)構,INT8/FP8算(suan)力可在2到200 TOPS之(zhi)間擴展(zhan),為邊緣應用提供了一種通(tong)用且可編程的(de)解決方案(an)。
該GPU IP適(shi)用于(yu)圖形渲染、桌面應用、智能手機上的自(zi)然語言處理(li)、工(gong)業計(ji)算機視覺以及(ji)自(zi)動駕駛等領域。首款E系列GPU IP將(jiang)于(yu)2025年秋季正式上市,目前已完成授權。汽車、消費電(dian)子、桌面及(ji)移(yi)動版(ban)本亦在(zai)同步開發中。
Imagination的PowerVR GPU架(jia)構以能效著稱,已在功(gong)耗(hao)受限設備中應用(yong)近二十年(nian)。E系列進一步引入全新的爆發式處理器(Burst Processors) 技術,在AI推理、游戲(xi)和用(yong)戶界面等工作(zuo)負載下平均功(gong)耗(hao)效率再提(ti)升(sheng)35%。
Imagination創(chuang)新與(yu)工(gong)程負(fu)責人Tim Mamtora談(tan)道:“E系(xi)(xi)列將GPU放在圖形與(yu)邊緣AI系(xi)(xi)統的(de)核心位(wei)置(zhi)。對需(xu)要同(tong)時(shi)運(yun)行圖形與(yu)計(ji)算任務的(de)系(xi)(xi)統設計(ji)者而言,E系(xi)(xi)列GPU提(ti)供了一種(zhong)高度靈活(huo)的(de)解決方案,既(ji)無需(xu)依賴額外的(de)向量處理器或固定(ding)功能AI加(jia)速器,又能在降(jiang)低整(zheng)體系(xi)(xi)統設計(ji)成本的(de)同(tong)時(shi),實現面(mian)向未來的(de)可擴展性(xing)。”
在媒體溝通會上,Imagination中國區董事長兼亞太總裁白農告訴(su)芯東西(xi)等媒體,這款新產品是Imagination在圖(tu)形和計算(suan)領域多年(nian)來累積的(de)又一個里程(cheng)碑,它不僅(jin)在性能、功耗和面積方面實現(xian)了(le)全面的(de)優(you)化(hua),更在架構設(she)計上實現(xian)了(le)從傳統渲染將通用計算(suan)的(de)深度(du)拓展,具備高度(du)的(de)靈活性和可擴展性。
“中國(guo)一(yi)(yi)直是(shi)我們(men)全球最重要的(de)(de)戰略市(shi)場(chang)之一(yi)(yi),”白農(nong)談道(dao),“未來(lai),我們(men)將(jiang)持(chi)續加(jia)大對中國(guo)市(shi)場(chang)的(de)(de)投入,不僅為加(jia)大本(ben)土(tu)技術(shu)支持(chi)團隊的(de)(de)建(jian)設(she),還將(jiang)升(sheng)華(hua)與本(ben)土(tu)生態(tai)伙伴的(de)(de)合(he)作,幫(bang)助客戶抓住新一(yi)(yi)輪(lun)AI浪潮帶來(lai)的(de)(de)市(shi)場(chang)機遇。”
一、兩大核心創新,AI算力可擴展至200TOPS
Imagination E系列(lie)GPU IP的每個GPU核深度(du)集(ji)成低(di)精(jing)度(du)、高能效(xiao)AI加速(su)能力(li)。小核在(zai)1GHz頻(pin)(pin)率(lv)(lv)下(xia)(xia)有(you)8Gpixel/s的像素填充(chong)率(lv)(lv)、0.25TFLOPS浮點算(suan)力(li)、2TOPS INT8算(suan)力(li),可(ke)滿足輕(qing)量級應用需求。4核配置在(zai)1.6GHz頻(pin)(pin)率(lv)(lv)下(xia)(xia)可(ke)提供400Gpixel/s的像素填充(chong)率(lv)(lv)、12.8TFLOPS浮點算(suan)力(li)(FP32)、超(chao)過(guo)200TOPS的INT8算(suan)力(li)。
E系列有兩項核心創新:Neural Cores(神經核)與Burst Processors(爆發式(shi)處(chu)理器)。
神經核計算(suan)密度高,AI性能(neng)(neng)可擴(kuo)展至(zhi)200 TOPS INT8 ,較前代D系列提升高達(da)400%。它支(zhi)持FP32、FP16、BF16、INT8、FP8、MXFP8、FP4、MXFP4等多種主(zhu)流AI數值格(ge)式,能(neng)(neng)夠滿(man)足不同精度、性能(neng)(neng)與功耗需求。其AI友(you)好的(de)內存架構在計算(suan)時優先使(shi)用本(ben)地內存,大幅降低了訪問(wen)外部內存所消耗的(de)功耗和性能(neng)(neng)成(cheng)本(ben)。
爆發式處(chu)理器擁有創新(xin)的(de)架(jia)構設計(ji),使邊(bian)緣(yuan)應(ying)用(yong)中平均功(gong)耗效率提升(sheng)35%。該(gai)技術深度集成于GPU中,改變了GPU原(yuan)有指令調(diao)度方式,通過縮短流(liu)水線深度、減少數據在GPU內部的(de)移(yi)動等(deng)方式,實現盡可能多(duo)的(de)數據重(zhong)復(fu)使用(yong)和共享,從而(er)減少很多(duo)不必(bi)要的(de)計(ji)算(suan)開銷,提升(sheng)能效。
爆發式處理器主要優勢(shi)包(bao)括(kuo):對特定指令進(jin)行(xing)調(diao)度(du),最小化控制器開銷,不會犧牲很多的延遲(chi);重新設計ALU流水線,對流水線級數(shu)做縮減,實現了更高效(xiao)的利用率,從(cong)而降低(di)整體延遲(chi)和功耗(hao);大量重復(fu)利用來自本地(di)存儲的數(shu)據,這(zhe)也給(gei)功耗(hao)降低(di)提供(gong)助(zhu)力。
E系列GPU上的創新建(jian)立在原有硬件資(zi)源(yuan)的基(ji)礎(chu)上,并不(bu)會顯著增加芯片的面(mian)積,還可(ke)以(yi)對能效進行(xing)持續(xu)改(gai)進。
例如(ru)其一項重(zhong)要架構設(she)計是(shi)在(zai)每一個計算單元都有將(jiang)近0.5Mb的(de)寄(ji)存(cun)器空間(jian),能在(zai)芯片上高(gao)效(xiao)保留需處(chu)理(li)的(de)數(shu)據。這些資(zi)源是(shi)GPU進(jin)行圖形處(chu)理(li)時就存(cun)在(zai)的(de),現在(zai)又(you)增加(jia)了AI相(xiang)關(guan)的(de)高(gao)效(xiao)處(chu)理(li)流水線(xian),本質上沒(mei)有額外(wai)增加(jia)芯片面積。
圖形處理和(he)其他計算(suan)之間(jian)的靈活性取決于兩(liang)者之間(jian)的負(fu)載(zai)平衡,而Imagination實現(xian)了(le)一(yi)種具(ju)有(you)高靈活性的解決方案,可以(yi)對幾(ji)何(he)像素(su)和(he)傳統(tong)計算(suan)進行(xing)負(fu)載(zai)平衡,還有(you)基于優先級的一(yi)些(xie)MCU調度機制。另一(yi)個優勢是,GPU需要對多(duo)種不(bu)同(tong)紋理類型格式進行(xing)處理,本身就(jiu)支(zhi)持非常廣泛的數據類型,如今又拓展了(le)數據轉(zhuan)換流水線來支(zhi)持AI數據類型。
二、軟硬件充分協同,在GPU上可編程地開發AI模型
GPU作為可編程(cheng)處(chu)理器,通過面向未來的(de)架(jia)構設計,使(shi)設備能夠持續應對AI、計算(suan)和圖(tu)形(xing)工作負載的(de)演進。
E系列延續(xu)了(le)Imagination GPU的(de)出色圖形處理(li)能力,支持(chi)光線追(zhui)蹤(zong)。通過在GPU內部深度集成AI加速能力,其神經核與(yu)更廣泛的(de)GPU及異(yi)構計算(suan)軟件生態實現無(wu)縫(feng)協(xie)同,有助于降低開發(fa)門檻。
Imagination也投入了大(da)量(liang)的時(shi)間和工(gong)程資源(yuan),在更(geng)底層上確保認不同(tong)的AI工(gong)具和接口能(neng)夠與其硬件形(xing)成一種經優化(hua)的配合流程。
E系列GPU IP的算力可通過OpenCL等主流API直接調用(yong),開(kai)發者借助oneAPI、Apache TVM或LiteRT等開(kai)放標(biao)準工(gong)(gong)具,能輕(qing)松將工(gong)(gong)作負載遷移至(zhi)神(shen)經(jing)核。Imagination的計算庫(ku)與高度優化的圖形(xing)編譯器,可提高硬件利(li)用(yong)率(lv),進一步(bu)釋放GPU的潛(qian)能。
當代設備日益復(fu)雜(za),處(chu)理(li)器需(xu)同時(shi)支(zhi)持(chi)圖形與AI多(duo)項工作負(fu)載。為(wei)保障用戶體驗,實現(xian)高質量服務(wu)(QoS)和清(qing)晰劃(hua)分任務(wu)優先級至關重要。E系(xi)列(lie)在前代產品的多(duo)任務(wu)處(chu)理(li)能力基(ji)礎上實現(xian)了(le)增強,將(jiang)Imagination GPU支(zhi)持(chi)的、具備硬件加速且零開銷的虛擬機數量從8個(ge)翻(fan)倍至16個(ge),并提供了(le)先進的QoS支(zhi)持(chi)。
E系列GPU IP的(de)多(duo)核版本可利用(yong)額(e)外的(de)核心來提升(sheng)性能或(huo)增強靈活性。這些(xie)GPU能夠同時處(chu)理多(duo)種(zhong)圖(tu)形工(gong)作(zuo)負(fu)載(zai)、多(duo)種(zhong)AI工(gong)作(zuo)負(fu)載(zai),或(huo)圖(tu)形與AI工(gong)作(zuo)負(fu)載(zai)的(de)組合(he)。
結語:可集成到各類SoC設計中,在任意設備上靈活部署新算法
IDC研究總監Phil Solis認為(wei):“各類設備上的(de)(de)(de)AI功(gong)(gong)能正在(zai)迅速演進,但AI系(xi)統設計者依(yi)然面臨性(xing)(xing)能、效(xiao)率與靈活性(xing)(xing)的(de)(de)(de)多重挑(tiao)戰。Imagination憑借其(qi)長期(qi)深耕(geng)低(di)功(gong)(gong)耗(hao)GPU的(de)(de)(de)經驗,成功(gong)(gong)實現了(le)GPU架構對(dui)圖形與AI的(de)(de)(de)靈活支持。E系(xi)列結合了(le)GPU的(de)(de)(de)可編程性(xing)(xing)與AI性(xing)(xing)能的(de)(de)(de)飛躍,為(wei)邊緣AI系(xi)統開(kai)發者帶來(lai)了(le)極具吸引(yin)力(li)的(de)(de)(de)解決(jue)方案。”
在行業分(fen)析師看來,要實現(xian)終端智能的(de)真正潛(qian)力,邊緣(yuan)AI的(de)軟硬件必須協同演進。E系列便做到了各類開發(fa)者(zhe)都(dou)能在任意(yi)設備上靈活部署最(zui)新算法(fa)。
由于Imagination提供的(de)是一個軟(ruan)IP解(jie)(jie)決方案(an),客戶(hu)可將其GPU IP集成(cheng)到幾乎(hu)任何種類的(de)SoC設計中。無論是想要開發(fa)用于智能(neng)手機或者其他(ta)系統的(de)傳統SoC芯(xin)(xin)片(pian),還(huan)是打造帶有自家顯(xian)存控制和PCIe總線的(de)獨立GPU芯(xin)(xin)片(pian)、然后把它設計成(cheng)一塊(kuai)完整顯(xian)卡,都(dou)可以通過選用Imagination IP解(jie)(jie)決方案(an)來(lai)實現。