
GPU是(shi)Graphics Processing Unit(圖形處(chu)(chu)理(li)器(qi)(qi)(qi))的(de)簡稱,它是(shi)一種(zhong)專(zhuan)門在個(ge)人電(dian)腦(nao)、工作站、游戲機(ji)和一些移動設備(如平板(ban)電(dian)腦(nao)、智(zhi)能手(shou)機(ji)等)上(shang)運(yun)(yun)行繪(hui)圖運(yun)(yun)算(suan)工作的(de)微(wei)處(chu)(chu)理(li)器(qi)(qi)(qi)。圖形處(chu)(chu)理(li)器(qi)(qi)(qi)是(shi)NVIDIA公司(si)(NVIDIA)在1999年(nian)8月發表NVIDIA GeForce 256(GeForce 256)繪(hui)圖處(chu)(chu)理(li)芯片時首(shou)先提出的(de)概念,在此(ci)之前,電(dian)腦(nao)中(zhong)處(chu)(chu)理(li)影(ying)像輸出的(de)顯(xian)示芯片,通常很少(shao)被視為是(shi)一個(ge)獨立的(de)運(yun)(yun)算(suan)單元(yuan)。而對(dui)手(shou)冶天(tian)科技(ATi)亦(yi)提出視覺處(chu)(chu)理(li)器(qi)(qi)(qi)(Visual Processing Unit)概念。圖形處(chu)(chu)理(li)器(qi)(qi)(qi)使顯(xian)卡(ka)減少(shao)對(dui)中(zhong)央處(chu)(chu)理(li)器(qi)(qi)(qi)(CPU)的(de)依賴,并分(fen)擔(dan)部分(fen)原本是(shi)由中(zhong)央處(chu)(chu)理(li)器(qi)(qi)(qi)所擔(dan)當的(de)工作,尤其是(shi)在進行三維繪(hui)圖運(yun)(yun)算(suan)時,功效(xiao)更加明顯(xian)。圖形處(chu)(chu)理(li)器(qi)(qi)(qi)所采用的(de)核(he)心技術(shu)有硬件(jian)坐標轉換與(yu)光源、立體環境材質貼圖和頂(ding)點混合(he)、紋理(li)壓縮和凹凸(tu)映(ying)射貼圖、雙重紋理(li)四像素256位渲染引擎等。
圖形處(chu)理(li)器(qi)(qi)可單(dan)獨(du)與專用電路板以(yi)及附(fu)屬(shu)組(zu)件組(zu)成顯(xian)(xian)卡(ka),或(huo)單(dan)獨(du)一片(pian)芯(xin)(xin)片(pian)直接內(nei)(nei)嵌入到主板上(shang)(shang),或(huo)者(zhe)內(nei)(nei)置(zhi)于(yu)主板的(de)(de)北橋芯(xin)(xin)片(pian)中,現在也(ye)有(you)內(nei)(nei)置(zhi)于(yu)CPU上(shang)(shang)組(zu)成SoC的(de)(de)。個(ge)(ge)人電腦領(ling)(ling)域中,在2007年(nian)(nian),90%以(yi)上(shang)(shang)的(de)(de)新型臺式機和(he)筆記本電腦擁有(you)嵌入式繪圖芯(xin)(xin)片(pian),但是在性能上(shang)(shang)往(wang)往(wang)低(di)于(yu)不少獨(du)立顯(xian)(xian)卡(ka)。但2009年(nian)(nian)以(yi)后,AMD和(he)英特爾都各(ge)自(zi)大(da)(da)力發展內(nei)(nei)置(zhi)于(yu)中央(yang)處(chu)理(li)器(qi)(qi)內(nei)(nei)的(de)(de)高(gao)性能集成式圖形處(chu)理(li)核心(xin),它們(men)的(de)(de)性能在2012年(nian)(nian)時已(yi)經勝于(yu)那些低(di)端獨(du)立顯(xian)(xian)卡(ka),這(zhe)使得不少低(di)端的(de)(de)獨(du)立顯(xian)(xian)卡(ka)逐(zhu)漸失去市場需求,兩(liang)大(da)(da)個(ge)(ge)人電腦圖形處(chu)理(li)器(qi)(qi)研發巨頭中,AMD以(yi)AMD APU產品線取(qu)代旗下大(da)(da)部分的(de)(de)低(di)端獨(du)立顯(xian)(xian)示核心(xin)產品線。而在手持設(she)備領(ling)(ling)域上(shang)(shang),隨著一些如(ru)平板電腦等設(she)備對(dui)圖形處(chu)理(li)能力的(de)(de)需求越來越高(gao),不少廠商像是高(gao)通(tong)(Qualcomm)、Imagination、ARM、NVIDIA等,也(ye)在這(zhe)個(ge)(ge)領(ling)(ling)域“大(da)(da)顯(xian)(xian)身手”。
GPU不同于傳統(tong)的(de)CPU,如Intel i5或i7處(chu)理器(qi),其(qi)內核(he)(he)數(shu)量較少,專為通用(yong)計算而(er)設計。相反,GPU是一種特(te)殊類(lei)型的(de)處(chu)理器(qi),具有數(shu)百(bai)或數(shu)千個內核(he)(he),經過優化(hua),可并行運行大量計算。雖(sui)然GPU在游戲中以3D渲染而(er)聞名(ming),但它們(men)對運行分(fen)析、深度學(xue)習和機器(qi)學(xue)習算法尤其(qi)有用(yong)。GPU允許某些計算比(bi)傳統(tong)CPU上運行相同的(de)計算速度快10倍至100倍。
本(ben)期(qi)的(de)(de)(de)智能內參,我們(men)推(tui)薦方正證券的(de)(de)(de)報告《GPU研究框架》,從GPU的(de)(de)(de)底層技術、產(chan)(chan)業(ye)鏈發展情況(kuang)和國(guo)產(chan)(chan)GPU的(de)(de)(de)自主之路(lu)三方面全面解析GPU及其(qi)產(chan)(chan)業(ye)。
本期內(nei)參來源(yuan):方正(zheng)證(zheng)券
原標題:
《GPU研究框架》
作者:陳杭 等
一、GPU:專用計算時代的“畫師”
GPU(graphics processing unit)圖(tu)(tu)形處理(li)器(qi),又稱顯(xian)(xian)示核(he)心、視覺處理(li)器(qi)、顯(xian)(xian)示芯片,是(shi)一種在個人(ren)電腦、工作(zuo)站、游戲(xi)機(ji)和一些(xie)移動設(she)備(如(ru)平板電腦、智能手機(ji)等(deng))上做(zuo)圖(tu)(tu)像和圖(tu)(tu)形相(xiang)關運算工作(zuo)的(de)微處理(li)器(qi)。GPU通常包(bao)括圖(tu)(tu)形顯(xian)(xian)存控制器(qi)、壓縮單(dan)元、BIOS、圖(tu)(tu)形和計(ji)算整(zheng)列、總線接口(kou)、電源(yuan)管理(li)單(dan)元、視頻(pin)管理(li)單(dan)元、顯(xian)(xian)示界面。GPU的(de)出現(xian)使計(ji)算機(ji)減少了(le)對CPU的(de)依(yi)賴,并解放(fang)了(le)部分(fen)原本CPU的(de)工作(zuo)。在3D圖(tu)(tu)形處理(li)時,GPU采用的(de)核(he)心技術有硬件(jian)T&L(幾何(he)轉換(huan)和光照處理(li))、立方環境材質貼圖(tu)(tu)和頂點混(hun)合、紋理(li)壓縮和凹凸映射貼圖(tu)(tu)、雙(shuang)重(zhong)紋理(li)四(si)像素256位渲染(ran)引擎(qing)等(deng),而硬件(jian)T&L技術可以說是(shi)GPU的(de)標(biao)志(zhi)。
▲GPU的(de)內部組成部分
▲GPU核(he)心及PCB板
GPU的微架構(Micro Architecture)是一種給定的指令集和圖形函數集合在處理器中執行的方法。圖(tu)形函數主要用(yong)于繪制各種圖(tu)形所(suo)需要的運算(suan)。當前(qian)和(he)(he)像素、光影處理、3D坐標變換等相(xiang)(xiang)關運算(suan)由GPU硬件加速來實(shi)現(xian)。相(xiang)(xiang)同的指令集(ji)和(he)(he)圖(tu)形函數集(ji)合可以在不(bu)同的微(wei)(wei)架構中執行,但實(shi)施的目的和(he)(he)效(xiao)果可能不(bu)同。優秀(xiu)的微(wei)(wei)架構對GPU性能和(he)(he)效(xiao)能的提升發(fa)揮著(zhu)至關重要的作(zuo)用(yong),GPU體系是GPU微(wei)(wei)架構和(he)(he)圖(tu)形API的集(ji)合。
以目前最新的(de)英偉達安培微(wei)架構為例(li),GPU微(wei)架構的(de)運算(suan)部份由流處理(li)器(Stream Processor,SP)、紋理(li)單(dan)元(yuan)(Texture mapping unit, TMU)、張量(liang)單(dan)元(yuan)(Tensor Core)、光線(xian)追蹤單(dan)元(yuan)(RT Cores)、光柵(zha)化處理(li)單(dan)元(yuan)(ROPs)組成。這(zhe)些運算(suan)單(dan)元(yuan)中,張量(liang)單(dan)元(yuan),光線(xian)追蹤單(dan)元(yuan)由NVIDIA在伏特/圖(tu)靈微(wei)架構引入。
除了(le)上述運(yun)算單(dan)元(yuan)外,GPU的微架構(gou)還(huan)包含L0/L1操(cao)作緩(huan)存、Warp調(diao)度器、分配單(dan)元(yuan)(Dispatch Unit)、寄存器堆(register file)、特殊功能(neng)單(dan)元(yuan)(Special function unit,SFU)、存取單(dan)元(yuan)、顯卡互聯單(dan)元(yuan)(NV Link)、PCIe總(zong)線接(jie)口、L2緩(huan)存、二代高(gao)位寬顯存(HBM2)等(deng)接(jie)口。
▲英偉達安培內核概覽
▲英偉達安培內核“SM”單(dan)元
GPU的(de)流處理器(qi)單(dan)元(yuan)(yuan)(yuan)(yuan)是NVIDIA對其統一架構GPU內通用標量(liang)著(zhu)色器(qi)的(de)命名。SP單(dan)元(yuan)(yuan)(yuan)(yuan)是全(quan)(quan)新的(de)全(quan)(quan)能(neng)渲(xuan)染單(dan)元(yuan)(yuan)(yuan)(yuan),是繼(ji)Pixel Pipelines(像(xiang)素管線(xian))和Vertex Pipelines(頂點管線(xian))之(zhi)后新一代的(de)顯(xian)卡渲(xuan)染技術指標。SP單(dan)元(yuan)(yuan)(yuan)(yuan)既可以完成VS(Vertex Shader,頂點著(zhu)色器(qi))運算,也可以完成PS(Pixel Shader,像(xiang)素著(zhu)色器(qi))運算,而且可以根據需要組成任意VS/PS比例,從(cong)而給開發(fa)者更(geng)廣(guang)闊的(de)發(fa)揮空間。
流(liu)處理器單(dan)元(yuan)首次出現于DirectX 10時代(dai)的G80核心的Nvidia GeForce 8800GTX顯卡,是顯卡發展史上(shang)一次重(zhong)大的革新。之后AMD/ATI的顯卡也引入了這(zhe)一概(gai)念,但是流(liu)處理器在(zai)橫向和縱向都不(bu)可類比(bi),大量的流(liu)處理器是GPU性能強勁(jing)的必要非充分條件。
紋理(li)映射單(dan)元(TMU)作為GPU的部(bu)件,它能夠對二進制圖(tu)像旋轉、縮放、扭曲,然后將其作為紋理(li)放置到給定3D模(mo)型的任意平(ping)面,這個過(guo)程稱為紋理(li)映射。紋理(li)映射單(dan)元不可簡單(dan)跨平(ping)臺(tai)橫向比(bi)較,大量的紋理(li)映射單(dan)元是GPU性能強勁的必要(yao)非(fei)充分條件。
光(guang)柵化處理單(dan)(dan)元(ROPs)主要負責游戲中的光(guang)線和反(fan)射運算(suan),兼顧AA、高分辨率、煙霧、火焰等效果。游戲里的抗鋸齒和光(guang)影效果越厲害,對ROPs的性能要求就越高,否則可能導致(zhi)幀數的急劇下(xia)降。NVIDIA的ROPs單(dan)(dan)元是和流處理器進(jin)行捆綁(bang)的,二者(zhe)同比例(li)增減。在AMD GPU中,ROPs單(dan)(dan)元和流處理器單(dan)(dan)元沒有直接捆綁(bang)關(guan)系。
▲英偉達(da)安培(pei)內核(he)SP、ROPs、TMU拆解
▲英偉(wei)達RTX 3080 GPU-Z參數
消費GPU的實(shi)時光(guang)線追蹤在2018年由英偉(wei)達的“圖(tu)靈”GPU首次(ci)引入,光(guang)追單(dan)元(RT Cores)在此過程中發揮著決定(ding)性的作用。圖(tu)靈GPU的光(guang)追單(dan)元支持邊界體積層次(ci)加速(su),實(shi)時陰(yin)影(ying)、環(huan)境光(guang)、照明和(he)(he)反射,光(guang)追單(dan)元和(he)(he)光(guang)柵單(dan)元可以(yi)協同工作,進一步(bu)提高幀數和(he)(he)陰(yin)影(ying)的真實(shi)感。
光追(zhui)(zhui)單元(yuan)在英(ying)偉達的RTX光線追(zhui)(zhui)蹤技(ji)術、微軟(ruan)DXR API、英(ying)偉達Optix API和Vulkan光追(zhui)(zhui)API的支持(chi)下(xia)可以充分發揮性能(neng)。擁有68個(ge)光追(zhui)(zhui)單元(yuan)的RTX2080Ti在光線處(chu)理(li)性能(neng)上較無光追(zhui)(zhui)單元(yuan)的GTX1080Ti強10倍。
張量單元(yuan)(Tensor Core)在(zai)2017年由英偉達的(de)“伏特”GPU中被首次引(yin)入。張量單元(yuan)主要用于實時深度(du)學習(xi),服務(wu)于人工智能,大(da)型(xing)矩陣運算和深度(du)學習(xi)超級(ji)采樣(DLSS),可以帶來驚人的(de)游戲和專(zhuan)業圖像顯示,同時提(ti)供基于云系統的(de)快(kuai)速(su)人工智能。
▲英(ying)偉(wei)達RTX2080Ti張(zhang)量(liang)單元算力
▲英偉(wei)達圖靈GPU光追單元運作流程(cheng)
▲英偉達圖靈GPU張量(liang)單元提供多(duo)精度AI
GPU的API(Application Programming Interface)應用(yong)程序接(jie)口(kou)發(fa)揮(hui)著連接(jie)應用(yong)程序和(he)顯卡(ka)驅動的橋梁作用(yong)。不過隨著系(xi)統優化的深入(ru),API也可以直接(jie)統籌管理高級語言、顯卡(ka)驅動和(he)底層(ceng)匯(hui)編語言。
3D API能(neng)夠讓編(bian)(bian)程人員(yuan)所(suo)設計(ji)的(de)3D軟(ruan)件(jian)只需調(diao)動其API內的(de)程序,讓API自動和硬件(jian)的(de)驅動程序溝通,啟動3D芯片內強大的(de)3D圖形處理(li)功能(neng),從而(er)大幅地提高3D程序的(de)設計(ji)效率。同(tong)樣的(de),GPU廠家也(ye)可以根據API標準來(lai)設計(ji)GPU芯片,以達(da)到在API調(diao)用硬件(jian)資源時的(de)最(zui)優化,獲得更好的(de)性(xing)能(neng)。3D API可以實現不同(tong)廠家的(de)硬件(jian)、軟(ruan)件(jian)最(zui)大范圍兼容。如(ru)果沒有API,那么開(kai)發人員(yuan)必須對(dui)不同(tong)的(de)硬件(jian)進行(xing)一對(dui)一的(de)編(bian)(bian)碼(ma),這樣會帶來(lai)大量(liang)的(de)軟(ruan)件(jian)適配問題和編(bian)(bian)碼(ma)成本(ben)。
目(mu)前GPU API可以分為2大陣(zhen)營和若干(gan)其他類(lei)。2大陣(zhen)營分別是微軟(ruan)的DirectX標(biao)準和KhronosGroup標(biao)準,其他類(lei)包括(kuo)蘋(pin)果(guo)的Metal API、AMD的Mantle(地幔)API、英特爾的One API等。
▲微(wei)軟DirectX和Khronos Group API組(zu)合對比(bi)
DirectX是Direct eXtension的(de)(de)簡稱,作為(wei)一種API,是由微軟(ruan)公司創建的(de)(de)多媒體編程(cheng)接口。DirectX可以讓以Windows為(wei)平臺的(de)(de)游(you)戲或多媒體程(cheng)序(xu)獲得更高的(de)(de)執行效率,加強3D圖形和聲音效果,并提供設計人員一個共同的(de)(de)硬件驅動(dong)標準,讓游(you)戲開發(fa)者不必(bi)為(wei)每一品牌的(de)(de)硬件來寫不同的(de)(de)驅動(dong)程(cheng)序(xu),也降低用戶安裝及(ji)設置硬件的(de)(de)復雜度。DirectX已被(bei)廣泛使用于Windows操作系統和Xbox主機(ji)的(de)(de)電子游(you)戲開發(fa)。
OpenGL是Open Graphics Library的簡稱(cheng),是用(yong)于渲染2D、3D矢量圖形(xing)的跨語言(yan)、跨平(ping)臺的應用(yong)程(cheng)序(xu)編程(cheng)接(jie)口(kou)(API),相比DirectX更加開(kai)放。這(zhe)個(ge)接(jie)口(kou)由近350個(ge)不同的函數調用(yong)組成,用(yong)來繪制從(cong)簡單的二維圖形(xing)到復(fu)雜(za)的三(san)維景象。OpenGL常用(yong)于CAD、虛(xu)擬現實、科學可視化程(cheng)序(xu)和電子游戲開(kai)發。
正是由(you)于OpenGL的開放,所以(yi)它可以(yi)被(bei)運(yun)行在Windows、MacOS、Linux、安卓(zhuo)、iOS等(deng)多個操作系(xi)統(tong)上,學習門檻也(ye)比DirectX更低。但是,效率(lv)低是OpenGL的主(zhu)要缺點。
▲DirectX和OpenGL特點對比
Metal是Apple在(zai)(zai)2014年創(chuang)建的(de)(de)接近(jin)底(di)層的(de)(de),低開銷的(de)(de)硬(ying)件加速3D圖形(xing)和計算著色(se)器(qi)API。Metal在(zai)(zai)iOS 8中首次亮(liang)相。Metal在(zai)(zai)一(yi)個API中結合了(le)類似于OpenGL和OpenCL的(de)(de)功(gong)能。它旨在(zai)(zai)通過為iOS,iPadOS,macOS和tvOS上的(de)(de)應(ying)用程序提(ti)供對GPU硬(ying)件的(de)(de)底(di)層訪問來提(ti)高性能。相較于OpenGL ES,Metal減(jian)少了(le)10倍(bei)的(de)(de)代(dai)碼擁擠(ji),提(ti)供了(le)更好(hao)的(de)(de)解(jie)決方案,并將會在(zai)(zai)蘋果設備中取(qu)代(dai)OpenGL。Metal也(ye)支持英特(te)爾HD和IRIS系列GPU、AMD的(de)(de)GCN和RDNA GPU、NVIDIA GPU。Metal也(ye)是可以使用Swift或Objective-C編程語(yu)言調(diao)用的(de)(de)面向對象(xiang)的(de)(de)API。GPU的(de)(de)全部操作是通過Metal著色(se)語(yu)言控(kong)制的(de)(de)。
2017年,蘋(pin)果(guo)推出了Metal的(de)升級版Metal2,兼容(rong)前(qian)代Metal硬件,支持(chi)iOS11,MacOS和tvOS11。Metal2可以(yi)在Xcode中更有(you)效地(di)進行配置和調試,加(jia)快機器(qi)學習速度,降低CPU工作量,在MacOS上支持(chi)VR,充分發揮A11 GPU的(de)特(te)性。
Vulkan是一種低開銷,跨平臺的(de)3D圖像(xiang)和計(ji)算API。Vulkan面(mian)向(xiang)跨所(suo)有平臺的(de)高(gao)性(xing)能實(shi)時3D圖形應用(yong)程序,如(ru)視頻游戲和交互式媒體。與OpenGL,Direct3D 11和Metal相比,Vulkan旨(zhi)在(zai)提供(gong)更(geng)高(gao)的(de)性(xing)能和更(geng)平衡的(de)CPU/GPU用(yong)法。除了較低的(de)CPU使(shi)用(yong)外,Vulkan還旨(zhi)在(zai)使(shi)開發人(ren)員更(geng)好地在(zai)多(duo)核CPU中(zhong)分配工作。
Vulkan源(yuan)自(zi)并基(ji)于AMD的(de)Mantle API組(zu)件(jian),最(zui)初的(de)版本被(bei)稱為OpenGL的(de)下一代。最(zui)新的(de)Vulkan1.2發布(bu)于2020年1月15日,該版本整合了23個額(e)外經常被(bei)使用(yong)的(de)Vulkan拓展。
▲Metal與OpenGL性(xing)能對比
▲OpenGL和Vulkan對比
軟件生(sheng)態方面,GPU無法單(dan)獨工(gong)作(zuo),必須由CPU進行(xing)控制調(diao)(diao)用才(cai)能工(gong)作(zuo),而CPU在(zai)處理大量類型一致(zhi)的(de)數據時,則可調(diao)(diao)用GPU進行(xing)并行(xing)計算。所(suo)以,GPU的(de)生(sheng)態和CPU的(de)生(sheng)態是高(gao)度相關的(de)。
近(jin)年來(lai),在(zai)摩爾定律演進的(de)放緩和(he)GPU在(zai)通用(yong)計算(suan)(suan)領(ling)域的(de)高速發展的(de)此消彼長之下,通用(yong)圖形處理(li)器(GPGPU)逐(zhu)漸“反(fan)客為主”,利用(yong)GPU來(lai)計算(suan)(suan)原本由(you)CPU處理(li)的(de)通用(yong)計算(suan)(suan)任(ren)務(wu)。
目前,各個(ge)GPU廠商的(de)(de)(de)(de)GPGPU的(de)(de)(de)(de)實現(xian)方法不盡相同,如NVIDIA使用的(de)(de)(de)(de)CUDA(compute unified device architecture)技(ji)術(shu)(shu)、原ATI的(de)(de)(de)(de)ATI Stream技(ji)術(shu)(shu)、Open CL聯盟(meng)、微軟的(de)(de)(de)(de)DirectCompute技(ji)術(shu)(shu)。這些(xie)技(ji)術(shu)(shu)可(ke)以讓GPU在媒體編碼(ma)加(jia)速、視頻補幀與畫面優化、人工智能與深度(du)學習、科(ke)研領域、超級計(ji)算機等方面發揮異構加(jia)速的(de)(de)(de)(de)優勢。以上4種技(ji)術(shu)(shu)中(zhong),只有OpenCL支持跨平臺和開放(fang)標注的(de)(de)(de)(de)特性(xing),還可(ke)以使用專門(men)的(de)(de)(de)(de)可(ke)編程電路來加(jia)速計(ji)算,業界支持非常廣泛(fan)。
▲DirectX和OpenGL生態對比
▲OpenCL聯盟生態
GPU根(gen)據接(jie)(jie)入方(fang)式可以劃分為獨(du)立(li)(li)(li)(li)GPU和(he)集(ji)成GPU。獨(du)立(li)(li)(li)(li)GPU一(yi)般(ban)(ban)封裝(zhuang)在獨(du)立(li)(li)(li)(li)的(de)顯(xian)卡電路板上(shang),擁(yong)有(you)獨(du)立(li)(li)(li)(li)顯(xian)存,而集(ji)成GPU常和(he)CPU共(gong)用一(yi)個(ge)Die,共(gong)享(xiang)系統內(nei)存。GPU根(gen)據接(jie)(jie)入方(fang)式可以劃分為獨(du)立(li)(li)(li)(li)GPU和(he)集(ji)成GPU。獨(du)立(li)(li)(li)(li)GPU一(yi)般(ban)(ban)封裝(zhuang)在獨(du)立(li)(li)(li)(li)的(de)顯(xian)卡電路板上(shang),擁(yong)有(you)獨(du)立(li)(li)(li)(li)顯(xian)存,而集(ji)成GPU常和(he)CPU共(gong)用一(yi)個(ge)Die,共(gong)享(xiang)系統內(nei)存。
▲GPU的主要分類
▲獨(du)立GPU
▲集成GPU Die
GPU顯存(cun)是用(yong)來存(cun)儲顯卡芯(xin)片處理過或者即將提取的(de)渲(xuan)染數據,是GPU正常運作(zuo)不可或缺(que)的(de)核心部件之一(yi)。GPU的(de)顯存(cun)可以分(fen)為獨立顯存(cun)和集(ji)成顯存(cun)兩(liang)種。目(mu)前,獨立顯存(cun)主要采(cai)(cai)用(yong)GDDR3、GDDR5、GDDR5X、GDDR6,而集(ji)成顯存(cun)主要采(cai)(cai)用(yong)DDR3、DDR4。服務器GPU偏(pian)好使用(yong)Chiplet形式(shi)的(de)HBM顯存(cun),最大(da)化吞吐量(liang)。
集(ji)成(cheng)顯(xian)(xian)存受(shou)制于(yu)64位操作系統的限制,即便組成(cheng)2通道甚至(zhi)4通道,與(yu)獨(du)(du)立顯(xian)(xian)存的帶寬仍有相(xiang)當差距。通常這也造成(cheng)了獨(du)(du)立GPU的性能(neng)強于(yu)集(ji)成(cheng)GPU。
▲顯存的主要分類
▲獨立顯存的工作方式
▲獨(du)立顯存的工(gong)作(zuo)方式
集成(cheng)(cheng)顯(xian)卡(ka)是指一(yi)般不帶顯(xian)存(cun)(cun)(cun)(cun),而(er)是使用(yong)系統的(de)一(yi)部分(fen)主(zhu)內(nei)存(cun)(cun)(cun)(cun)作為顯(xian)存(cun)(cun)(cun)(cun)的(de)顯(xian)卡(ka)。集成(cheng)(cheng)顯(xian)卡(ka)可以(yi)被(bei)整(zheng)合進主(zhu)板(ban)作為北(bei)橋芯片(pian)的(de)一(yi)部分(fen),也(ye)可以(yi)和CPU集成(cheng)(cheng)在同一(yi)個Die中。集成(cheng)(cheng)顯(xian)卡(ka)的(de)顯(xian)存(cun)(cun)(cun)(cun)一(yi)般根據系統軟件和應用(yong)軟件的(de)需(xu)求(qiu)自動(dong)調整(zheng)。如果顯(xian)卡(ka)運行(xing)需(xu)要占用(yong)大量內(nei)存(cun)(cun)(cun)(cun)空間,那么整(zheng)個系統運行(xing)會受限,此(ci)外系統內(nei)存(cun)(cun)(cun)(cun)的(de)頻率通常(chang)比獨(du)立(li)顯(xian)卡(ka)的(de)顯(xian)存(cun)(cun)(cun)(cun)低很(hen)多,因此(ci)集成(cheng)(cheng)顯(xian)卡(ka)的(de)性能比獨(du)立(li)顯(xian)卡(ka)要遜色一(yi)些。
獨(du)(du)(du)立(li)顯(xian)卡是將顯(xian)示芯片及相關器件制作(zuo)成一個獨(du)(du)(du)立(li)于電(dian)腦主板(ban)的(de)(de)板(ban)卡,成為專業的(de)(de)圖像處(chu)理(li)硬件設備(bei)。獨(du)(du)(du)立(li)顯(xian)卡因為具備(bei)高(gao)(gao)位寬(kuan)、高(gao)(gao)頻獨(du)(du)(du)立(li)顯(xian)存和更多的(de)(de)處(chu)理(li)單元,性(xing)(xing)能遠比集成顯(xian)卡優越,不僅(jin)可用于一般性(xing)(xing)的(de)(de)工作(zuo),還(huan)具有完善的(de)(de)2D效果和很強(qiang)的(de)(de)3D水平,因此常(chang)應用于高(gao)(gao)性(xing)(xing)能臺式機和筆(bi)記本電(dian)腦,主要的(de)(de)接口(kou)為PCIe。
如今,獨立顯卡(ka)與集成顯卡(ka)已經(jing)不是2個完(wan)全割裂,各自為(wei)營的圖像(xiang)處理(li)單元了。二者在微軟DX12的支持下也可(ke)以(yi)實現獨核(he)顯交(jiao)(jiao)火,同時AMD和NVIDIA的顯卡(ka)也可(ke)實現混合交(jiao)(jiao)火。
▲集成顯卡和獨立顯卡對比
GPU對比CPU:從芯片設計思路看(kan),CPU是(shi)(shi)以低延遲為(wei)導(dao)向的計算單(dan)元(yuan),通常由專(zhuan)為(wei)串行處理而優化的幾個(ge)核心(xin)組成(cheng),而GPU是(shi)(shi)以吞吐(tu)量為(wei)導(dao)向的計算單(dan)元(yuan),由數以千(qian)計的更(geng)小(xiao)、更(geng)高效的核心(xin)組成(cheng),專(zhuan)為(wei)并行多任務設計。
CPU和GPU設計思路的不同導(dao)致微架構的不同。CPU的緩存大于GPU,但在線程(cheng)數(shu),寄存器數(shu)和SIMD(單指令(ling)多(duo)數(shu)據流)方面GPU遠(yuan)強于CPU。
微架構的(de)不同最(zui)終導致CPU中大(da)部(bu)(bu)分的(de)晶(jing)體(ti)管用于(yu)構建控制電路和緩存(cun)(cun),只(zhi)有少(shao)部(bu)(bu)分的(de)晶(jing)體(ti)管完成實際的(de)運算工作,功能(neng)模塊很多(duo),擅長分支預測等復雜操作。GPU的(de)流處(chu)理器和顯存(cun)(cun)控制器占據了絕大(da)部(bu)(bu)分晶(jing)體(ti)管,而控制器相對簡單(dan),擅長對大(da)量(liang)數(shu)據進行簡單(dan)操作,擁有遠勝于(yu)CPU的(de)強大(da)浮(fu)點(dian)計算能(neng)力。
▲GPU和CPU的核(he)心設計思路對比
▲GPU和CPU的(de)核心對比
后摩爾時代,隨著GPU的可編程性不斷增強,GPU的應用能力已經遠遠超出了圖形渲染,部份GPU被用于圖形渲染以外領域的計算成為GPGPU。與(yu)此同時,CPU為(wei)了追求通用性,只(zhi)有少部(bu)分晶體管(guan)被用于(yu)完成運(yun)算,而大(da)部(bu)分晶體管(guan)被用于(yu)構建(jian)控(kong)制(zhi)電(dian)路和高(gao)速緩(huan)存。但是由于(yu)GPU對(dui)CPU的(de)(de)依附(fu)性以及GPU相較CPU更高(gao)的(de)(de)開發難度,所以GPU不可能(neng)完全(quan)取代CPU。我(wo)們認為(wei)未來(lai)計算架構將是GPU+CPU的(de)(de)異構運(yun)算體系。
在GPU+CPU的(de)(de)異構運(yun)算中(zhong),GPU和CPU之間可(ke)以(yi)無(wu)縫地(di)共享數據,而無(wu)需(xu)內(nei)存拷(kao)貝和緩(huan)存刷新,因為(wei)任務以(yi)極低(di)的(de)(de)開(kai)銷被調度到合適的(de)(de)處(chu)理器上。CPU憑借多(duo)個(ge)專(zhuan)為(wei)串行處(chu)理而優化的(de)(de)核心運(yun)行程序的(de)(de)串行部(bu)份,而GPU使(shi)用數以(yi)千計的(de)(de)小核心運(yun)行程序的(de)(de)并行部(bu)分,充分發揮(hui)協同效應和比較優勢。
異構(gou)運算除了(le)需要相(xiang)關(guan)的(de)(de)CPU和GPU等硬件(jian)支持,還需要能將它們有效組(zu)織(zhi)的(de)(de)軟件(jian)編程。OpenCL是(OpenComputing Language)的(de)(de)簡稱,它是第一個為異構(gou)系(xi)統的(de)(de)通用并(bing)行編程而產生的(de)(de)統一的(de)(de)、免費的(de)(de)標準。OpenCL支持由多(duo)核的(de)(de)CPU、GPU、Cell架(jia)構(gou)以及信號(hao)處(chu)理器(qi)(DSP)等其他并(bing)行設(she)備組(zu)成的(de)(de)異構(gou)系(xi)統。
▲OpenCL異構運算(suan)構成
▲異構運(yun)算下的GPU工作流(liu)程
GPU與ASIC和FPGA的對比:數據(ju)、算力和算法是AI三大要素,CPU配合加速芯片的模(mo)式(shi)成為典型的AI部署方(fang)案(an),CPU提供算力,加速芯片提升算力并(bing)助(zhu)推算法的產生。常見(jian)的AI加速芯片包(bao)括(kuo)GPU、FPGA、ASIC三類。
GPU用(yong)于大(da)量重復(fu)計算,由數以千計的更小、更高效的核(he)心組成(cheng)大(da)規(gui)模并行計算架構,配備GPU的服(fu)務器(qi)可取(qu)代數百(bai)臺通用(yong)CPU服(fu)務器(qi)來(lai)處(chu)理HPC和AI業(ye)務。
FPGA是一種半定制(zhi)芯(xin)片,靈活(huo)性(xing)強集成(cheng)度(du)高,但運(yun)算量小,量產成(cheng)本高,適用于(yu)算法更新頻繁或市場(chang)規模小的專(zhuan)用領域(yu)。
ASIC專用性強,市(shi)場需求(qiu)量(liang)大的專用領域,但開發周期較長且(qie)難度極(ji)高。
在AI訓練階(jie)段需要大(da)量數據(ju)運算,GPU預計(ji)占(zhan)64%左右市場(chang)份(fen)額,FPGA和(he)ASIC分別為22%和(he)14%。推(tui)理(li)階(jie)段無(wu)需大(da)量數據(ju)運算,GPU將占(zhan)據(ju)42%左右市場(chang),FPGA和(he)ASIC分別為34%和(he)24%。
▲不同應用(yong)場(chang)景AI芯片性能需求和具體指(zhi)標(biao)
▲GPU、FPGA、ASIC AI芯片對比
在(zai)PC誕(dan)生之初,并不(bu)(bu)存在(zai)GPU的(de)(de)概念,所(suo)有的(de)(de)圖形和多媒體運算都由CPU負責。但是由于X86 CPU的(de)(de)暫存器數量有限,適合(he)串行計算而不(bu)(bu)適合(he)并行計算,雖然以英特爾(er)為代表的(de)(de)廠商多次推出(chu)SSE等多媒體拓(tuo)展指(zhi)令集試圖彌補CPU的(de)(de)缺陷,但是僅(jin)(jin)僅(jin)(jin)在(zai)指(zhi)令集方面的(de)(de)改(gai)進不(bu)(bu)能起到根本效果,所(suo)以誕(dan)生了(le)圖形加速器作(zuo)為CPU的(de)(de)輔助(zhu)運算單(dan)元。
GPU的發(fa)(fa)展史概括說(shuo)來就(jiu)是NVIDIA、AMD(ATI)的發(fa)(fa)展史,在此過程中(zhong)曾經的GPU巨頭Imagination、3dfx、東芝等紛紛被(bei)后(hou)輩超越。如(ru)今獨立顯卡領域主要由(you)英偉達和AMD控(kong)制,而集(ji)成(cheng)顯卡領域由(you)英特(te)爾和AMD控(kong)制。
▲GPU的發展史
英(ying)偉達的(de)(de)(de)GPU架構自2008年(nian)以來幾乎一直(zhi)保(bao)持著每2年(nian)一次(ci)大(da)更新的(de)(de)(de)節奏(zou),帶來更多更新的(de)(de)(de)運(yun)算單(dan)元(yuan)和更好(hao)的(de)(de)(de)API適配性(xing)(xing)。在每次(ci)的(de)(de)(de)大(da)換(huan)代(dai)(dai)之間,不乏有一次(ci)的(de)(de)(de)小升級(ji),如采用(yong)(yong)開(kai)普勒二代(dai)(dai)微架構的(de)(de)(de)GK110核心相較于采用(yong)(yong)初(chu)代(dai)(dai)開(kai)普勒微架構的(de)(de)(de)GK104核心,升級(ji)了(le)顯卡智能(neng)動態超頻技術(shu),CUDA運(yun)算能(neng)力提(ti)升至(zhi)3.5代(dai)(dai),極致(zhi)流式(shi)多處理器(SMX)的(de)(de)(de)浮點運(yun)算單(dan)元(yuan)提(ti)升8倍,加(jia)入了(le)Hyper-Q技術(shu)提(ti)高GPU的(de)(de)(de)利(li)用(yong)(yong)率并削減(jian)了(le)閑(xian)置,更新了(le)網格管理單(dan)元(yuan)(Grid Management Unit),為動態并行技術(shu)提(ti)供(gong)了(le)靈(ling)活(huo)性(xing)(xing)。
英(ying)(ying)偉(wei)達(da)GPU微(wei)架構的(de)持續更(geng)新,使英(ying)(ying)偉(wei)達(da)GPU的(de)能效提升了數十倍,占領了獨立(li)顯卡技術的(de)制高點。
▲2008-2020英偉(wei)達GPU微架構進化
圖形API在GPU的運(yun)算過程(cheng)中(zhong)發(fa)揮著(zhu)連接高(gao)級語言(yan)、顯(xian)卡(ka)驅(qu)動乃(nai)至底層匯編語言(yan)的作(zuo)用(yong),充當GPU運(yun)行和開發(fa)的“橋梁(liang)”和“翻譯官”。微軟DirectX標準可以劃(hua)分(fen)為顯(xian)示部(bu)份、聲音部(bu)份、輸(shu)入部(bu)分(fen)和網絡部(bu)分(fen),其中(zhong)與GPU具(ju)有最(zui)直接關系的是顯(xian)示部(bu)分(fen)。顯(xian)示部(bu)份可分(fen)為DirectDraw和Direct3D等(deng)標準,前者主要(yao)負責(ze)2D圖像加速,后者主要(yao)負責(ze)3D效果顯(xian)示。
從1995年發布(bu)的(de)(de)初(chu)代DirectX 1.0開(kai)始微軟的(de)(de)DirectX已經更(geng)新到了DirectX 12。在此過(guo)程中,DirectX不斷完善(shan)對各類GPU的(de)(de)兼容,增加開(kai)發人員的(de)(de)權限,提高GPU的(de)(de)顯示質量和運(yun)行幀數。
DirectX一般和Windows操作系統同步更新(xin),如Windows 7推(tui)出(chu)了(le)DX11、Windows 10推(tui)出(chu)了(le)DX12。
▲1998-2014微(wei)軟DirectX進化
GPU和CPU都(dou)是以先進(jin)制程(cheng)為導向的(de)數(shu)字芯片。先進(jin)制程(cheng)可以在控制發(fa)熱和電能消(xiao)耗的(de)同(tong)時,在有限(xian)的(de)Die中(zhong)放入盡可能多的(de)晶體管,提高GPU的(de)性能和能效。
NVIDIA的(de)GPU從2008年GT200系列的(de)65納(na)(na)米(mi)(mi)制(zhi)程歷經12年逐步(bu)升(sheng)級到了(le)RTX3000系列的(de)7/8納(na)(na)米(mi)(mi)制(zhi)程,在(zai)整(zheng)個過(guo)程中(zhong),晶體管數量提(ti)升(sheng)了(le)20多倍,逐步(bu)確(que)立了(le)在(zai)獨立GPU的(de)市場龍頭地位(wei)。
同時(shi)在整個過(guo)程(cheng)中(zhong),NVIDIA一直堅持不采用IDM的(de)模(mo)式,而是讓臺積(ji)電負責GPU的(de)制造,自生(sheng)專注于芯片設計,充分發(fa)揮(hui)比較優勢。
▲2008-2020英偉(wei)達GPU主(zhu)要(yao)制程和晶體(ti)管數進化
根據前12年的GPU發展軌跡來看,GPU微架構的升級趨勢可以簡要地概括為”更多”、”更專”、”更智能”。“更(geng)多”是(shi)指(zhi)晶體管數量和(he)運(yun)算(suan)(suan)單(dan)元(yuan)(yuan)(yuan)(yuan)的(de)(de)增加(jia),其(qi)中包括(kuo)流(liu)處理(li)器單(dan)元(yuan)(yuan)(yuan)(yuan)、紋理(li)單(dan)元(yuan)(yuan)(yuan)(yuan)、光柵(zha)單(dan)元(yuan)(yuan)(yuan)(yuan)等數量上升。“更(geng)專”是(shi)指(zhi)除了(le)常(chang)規(gui)的(de)(de)計算(suan)(suan)單(dan)元(yuan)(yuan)(yuan)(yuan),GPU還會增加(jia)新的(de)(de)運(yun)算(suan)(suan)單(dan)元(yuan)(yuan)(yuan)(yuan)。例如,英偉達的(de)(de)圖靈架(jia)構相較于(yu)(yu)帕(pa)斯卡架(jia)構新增加(jia)了(le)光追(zhui)單(dan)元(yuan)(yuan)(yuan)(yuan)和(he)張量單(dan)元(yuan)(yuan)(yuan)(yuan),分別處理(li)實(shi)時光線追(zhui)蹤和(he)人工智(zhi)能(neng)運(yun)算(suan)(suan)。“更(geng)智(zhi)能(neng)”是(shi)指(zhi)GPU的(de)(de)AI運(yun)算(suan)(suan)能(neng)力上升。如第三代的(de)(de)張量單(dan)元(yuan)(yuan)(yuan)(yuan)相較于(yu)(yu)上代在吞吐量上提(ti)升了(le)1倍。
▲英偉(wei)達GTX1080對比(bi)RTX2080
▲英偉達伏(fu)特微架(jia)構對比安培微架(jia)構AI加(jia)速性能
▲英偉達安培架構提升
綜合分析微軟的(de)DirectX12、蘋果(guo)的(de)Metal2、Khronos Group的(de)Vulkan API分別相較于前代(dai)DirectX11、Metal、OpenGL的(de)升級(ji),我們認(ren)為GPU API的(de)升級(ji)趨勢是(shi)提(ti)高GPU的(de)運行(xing)效率、增加高級(ji)語(yu)言(yan)和顯(xian)卡驅動(dong)(dong)之間(jian)的(de)連接(jie)、優化視(shi)覺特(te)效等(deng)。其中,提(ti)供更(geng)底(di)層的(de)支持:統籌高級(ji)語(yu)言(yan)、顯(xian)卡驅動(dong)(dong)和底(di)層語(yu)言(yan)是(shi)幾乎所有API升級(ji)的(de)主(zhu)要方向。
不過提(ti)供更(geng)底(di)層的支持只是更(geng)高的幀(zhen)數(shu)或更(geng)好(hao)的畫(hua)質的必要(yao)非充分條(tiao)件。在整個(ge)軟件的開發過程中,軟件開發商需要(yao)比驅(qu)動(dong)程序和系統層更(geng)好(hao)地調(diao)度硬件資源(yuan),才能(neng)充分發揮底(di)層API的效果(guo)。
在(zai)顯(xian)示質(zhi)量方面(mian),DirectX 12 Ultimate采(cai)用當下最新的圖(tu)形硬件技術(shu),支持(chi)光(guang)線追蹤、網格著(zhu)色(se)器和可變速率著(zhu)色(se),PC和Xbox共用同一個API,堪稱(cheng)次世(shi)代游戲的全新黃金(jin)標準。
▲非底(di)層DirectX 11對比底(di)層DirectX 12
▲DirectX 12 Ultimate新特性
GPU制造升級趨勢:以先進制程為導向。GPU性(xing)能的(de)三大決(jue)定因(yin)素為主頻、微架構、API。這些因(yin)素中主頻通常是由GPU的(de)制程(cheng)(cheng)決(jue)定的(de)。制程(cheng)(cheng)在過去(qu)通常表示晶(jing)體管(guan)或柵極長度(du)等特征尺寸,不過出于營銷的(de)需要,現在的(de)制程(cheng)(cheng)已經偏(pian)離了(le)本意(yi),因(yin)此(ci)單(dan)純比較(jiao)納米數沒有意(yi)義。按英特爾的(de)觀點,每平(ping)方毫米內(nei)的(de)晶(jing)體管(guan)數(百萬)更能衡量制程(cheng)(cheng)。據此(ci),臺(tai)積電和(he)三星的(de)7nm工藝更接近(jin)英特爾的(de)10nm工藝。
先進的(de)制(zhi)程可以降低(di)每一個晶(jing)(jing)體管(guan)的(de)成本(ben),提升(sheng)晶(jing)(jing)體管(guan)密度,在(zai)GPU Die體積不變下實現(xian)更高(gao)的(de)性能(neng)(neng);先進制(zhi)程可以提升(sheng)處(chu)理器(qi)的(de)效能(neng)(neng),在(zai)性能(neng)(neng)不變的(de)情況(kuang)(kuang)下,減少(shao)發(fa)(fa)熱(re)或(huo)在(zai)發(fa)(fa)熱(re)不變的(de)情況(kuang)(kuang)下,通過提升(sheng)主(zhu)頻來拉高(gao)性能(neng)(neng)。
先進(jin)制(zhi)程的(de)主要目的(de)是降(jiang)低平面結(jie)構帶來(lai)的(de)漏電率問題,提升方案可以通過改(gai)變工藝,如采用(yong)FinFET(鰭式場效應晶體(ti)管)或GAA(環繞式柵(zha)極);或采用(yong)特殊材料,如FD-SOI(基于SOI的(de)超(chao)薄絕(jue)緣(yuan)層上硅體(ti)技術)。
▲先進制程工藝之FinFET
▲英特爾10nm先進制(zhi)程(cheng)帶來的性能和效能提(ti)升
GPU制造升級趨勢:Chiplet化。高位(wei)寬內存(HBM)是小(xiao)芯片(Chiplet)在GPU中(zhong)的常(chang)見(jian)應用(yong)。HBM是一(yi)種(zhong)高速計算(suan)機存儲器3D堆棧SDRAM接(jie)口。首款HBM于2013年推出,第二代HBM2已(yi)于2016年被JEDEC接(jie)受。目(mu)前,HBM主要應用(yong)在高端獨(du)立(li)顯卡(ka)和(he)服務器顯卡(ka)。
HBM通過3D堆疊(die)4個(ge)(ge)DRAM Die和1片(pian)(pian)邏輯Die組成一(yi)(yi)個(ge)(ge)Chiplet,其中(zhong)(zhong)每片(pian)(pian)DRAM具有2個(ge)(ge)128位(wei)(wei)通道,通過TSV(硅通孔)相連(lian)。所以,一(yi)(yi)片(pian)(pian)Chiplet總(zong)共8個(ge)(ge)128位(wei)(wei)通道,總(zong)位(wei)(wei)寬(kuan)1024比特。每片(pian)(pian)Chiplet又(you)與(yu)GPU封裝在(zai)同一(yi)(yi)中(zhong)(zhong)介層(Interposer)連(lian)接GPU芯片(pian)(pian)。相比之下,GDDR5內存(cun)的(de)總(zong)線寬(kuan)度(du)為(wei)32位(wei)(wei),帶有512位(wei)(wei)內存(cun)接口的(de)顯卡也(ye)只有16個(ge)(ge)通道,而且(qie)采用傳統的(de)FBGA封裝。HBM與(yu)GDDR5相比,每GB的(de)表面(mian)積減(jian)少94%,每GB/S帶寬(kuan)的(de)能效提升2倍多(duo)。
HBM支持最多每(mei)個Chiplet 4GB的(de)(de)存(cun)儲(chu),HBM2在HBM的(de)(de)基礎(chu)上將每(mei)片Chiplet的(de)(de)最大容量提(ti)升至(zhi)了(le)8GB,顯存(cun)主頻提(ti)升1倍,同時總位寬(kuan)保持不變。
▲HBM的GPU應用
▲GDDR5對比HBM
▲HBM先進封裝結構
GPU制造(zao)可分為(wei)(wei)IDM和Fab+Fabless。IDM集芯片(pian)設計、芯片(pian)制造(zao)、芯片(pian)封(feng)裝和測試等多個產業鏈環節于一身(shen)。英(ying)特(te)爾為(wei)(wei)IDM的代表。
Fabless只(zhi)負責(ze)(ze)芯(xin)(xin)片的(de)電(dian)路設(she)計與銷(xiao)售,將生產(chan)、測試(shi)、封(feng)裝等環節外包。蘋果(guo)和(he)AMD為Fabless的(de)代(dai)表。Foundry只(zhi)負責(ze)(ze)制(zhi)造,不(bu)負責(ze)(ze)芯(xin)(xin)片設(she)計,可以同時為多家(jia)設(she)計公司服務,但受(shou)制(zhi)于公司間的(de)競爭關系。臺積電(dian)為Foundry的(de)代(dai)表。目前英(ying)特爾GPU落(luo)后的(de)主要原因(yin)是GPU制(zhi)程的(de)落(luo)后,根本(ben)(ben)原因(yin)是英(ying)特爾受(shou)困于IDM運作模式。隨著28納米以下先(xian)進制(zhi)程的(de)發展(zhan),芯(xin)(xin)片的(de)制(zhi)造成本(ben)(ben)和(he)設(she)計成本(ben)(ben)成指數級上升(sheng)。同時,一條(tiao)12英(ying)寸晶圓的(de)生產(chan)線從建設(she)到生產(chan)的(de)周期約2年(nian),投資至(zhi)少30-50億(yi)美元,資本(ben)(ben)支出占(zhan)比80%,整體風險非常(chang)大。英(ying)特爾以有(you)限的(de)資源不(bu)支持它持續的(de)設(she)計和(he)生產(chan)的(de)的(de)兩(liang)線作戰。
Fab+Fabless的(de)模式通過充分(fen)發揮(hui)比較優勢,分(fen)散了GPU設計(ji)和制造的(de)風險,符合半導體(ti)分(fen)工的(de)大趨勢。
▲IDM與Fab+Fabless對比
▲芯片設計(ji)費用(yong)趨勢(億美(mei)元)
過去20多(duo)年里,GPU的(de)(de)基本需(xu)(xu)求源于(yu)視頻加速,2D/3D游戲(xi)。隨后GPU運(yun)用自身在(zai)并行處(chu)理和通用計算(suan)的(de)(de)優勢,逐步開(kai)拓(tuo)服(fu)務器(qi)、汽車、礦(kuang)機(ji)、人工智(zhi)能、邊緣計算(suan)等領域的(de)(de)衍生需(xu)(xu)求。雖然GPU無法離開(kai)CPU獨立運(yun)作,但是(shi)在(zai)當(dang)前(qian)“云(yun)化(hua)”加速的(de)(de)時(shi)代,離開(kai)了GPU的(de)(de)CPU也(ye)無法勝任(ren)龐大的(de)(de)計算(suan)需(xu)(xu)求。所以GPU和CPU組成了異構運(yun)算(suan)體系,從底層經由系統軟(ruan)件(jian)和驅動層支持著上層的(de)(de)各種應用。GPU已經成為了專用計算(suan)時(shi)代的(de)(de)剛需(xu)(xu)。
▲現代云計算中GPU加速的(de)剛需(xu)
二、GPU的全球格局
2020年(nian)全球GPU市(shi)場價值(zhi)預計(ji)為254.1億美元,預計(ji)2027年(nian)將(jiang)達到(dao)1853.1億美元,年(nian)平(ping)均增(zeng)速(su)為32.82%。按(an)GPU的類型進行劃(hua)分,市(shi)場可以(yi)細分為獨立、集成(cheng)(cheng)(cheng)和(he)混(hun)合(he)。2019年(nian),集成(cheng)(cheng)(cheng)GPU占GPU市(shi)場的主(zhu)導地位,但是由于混(hun)合(he)GPU同時擁(yong)有集成(cheng)(cheng)(cheng)和(he)專用GPU的能力,所以(yi)混(hun)合(he)細分市(shi)場預計(ji)實現最高(gao)復合(he)增(zeng)長率。
按GPU的(de)(de)設(she)備進(jin)行劃(hua)分(fen)(fen),市(shi)場(chang)可細分(fen)(fen)為計(ji)算機、平板(ban)電(dian)腦、智(zhi)能(neng)手機、游戲機、電(dian)視、其(qi)他(ta)。就(jiu)收入而(er)言,智(zhi)能(neng)手機細分(fen)(fen)市(shi)場(chang)占比最大,在未(wei)來也將(jiang)保持這一趨勢。但是,由于醫療等其(qi)他(ta)設(she)備中對小(xiao)型GPU的(de)(de)需(xu)求(qiu)不斷增加,預計(ji)未(wei)來的(de)(de)年復合增長率將(jiang)最高。
按(an)GPU的行(xing)(xing)業進(jin)行(xing)(xing)劃(hua)分,市場(chang)可(ke)細分為電子、IT與電信(xin)、國(guo)防與情報、媒體與娛樂、汽車、其他。由于GPU在設(she)計和工程應用(yong)中的廣(guang)泛使用(yong),預計汽車細分行(xing)(xing)業的年復合增(zeng)長(chang)率最高。
按GPU的地理區(qu)域(yu)劃分,市場(chang)可細分為北美、歐洲、亞(ya)(ya)太(tai)和其他地區(qu)。亞(ya)(ya)太(tai)地區(qu)在2019年(nian)主(zhu)導了(le)全球(qiu)GPU市場(chang),預計在整個預測期內將保持主(zhu)導地位。
▲全(quan)球GPU市場(chang)規模預測
▲2015-2025全球(qiu)前三GPU供應商(shang)營收(shou)總和
全球GPU已經進入了寡頭壟斷的格局。在傳統GPU市場中,排名前三的Nvidia、AMD、Intel的營收幾乎可以代表整個GPU行業收入。英偉達的收入占56%、AMD占26%、英特爾占18%。
在手機和平(ping)板GPU方(fang)面,聯發科、海思麒麟、三星Exynos的(de)(de)GPU設計(ji)主要基于公版(ban)ARM MaliGPU或PowerVR微架構(gou)。高通驍龍Adreno和蘋(pin)(pin)(pin)果(guo)A系列采用自研GPU微架構(gou)。2019Q2,ARM、高通、蘋(pin)(pin)(pin)果(guo)、Imagination科技、英特爾是(shi)全球智(zhi)能手機和平(ping)板的(de)(de)前五大GPU供應(ying)商。同期ARM Mali在以(yi)上五大GPU供應(ying)商中占43%的(de)(de)市(shi)場份(fen)額,高通Adreno占36%的(de)(de)份(fen)額,蘋(pin)(pin)(pin)果(guo)占12%的(de)(de)份(fen)額。
▲2019前三家GPU供應商收入份額對比
▲2019 Q2手機和平板GPU供應(ying)商份額(e)
1、英偉達
英(ying)偉達(da)公(gong)司(si)成(cheng)立(li)于1993年(nian),于1999年(nian)率先推出(chu)“GPU”的(de)圖形解決方(fang)案(an)。公(gong)司(si)主要設計游(you)戲和專業市場的(de)GPU,移動(dong)計算和自動(dong)駕駛(shi)汽車的(de)SoC,是GPU計算領域公(gong)認的(de)全球(qiu)領導者。它主要的(de)GPU產(chan)線“GeForce”和AMD的(de)“Radeon”形成(cheng)直(zhi)接競爭。同時,英(ying)偉達(da)為了拓展移動(dong)游(you)戲平臺,推出(chu)了掌機Shield、Shield平板、Shield電視(shi)盒子(zi)和云游(you)戲服務GeForce Now。目前,公(gong)司(si)已(yi)經完成(cheng)了由(you)芯片(pian)供應商向計算平臺的(de)轉型(xing)。
英偉達的四大(da)增長驅動力分別(bie)是(shi)游戲業(ye)(ye)務(wu)、數據(ju)中心(xin)業(ye)(ye)務(wu)、專業(ye)(ye)視(shi)覺業(ye)(ye)務(wu)、自動駕駛業(ye)(ye)務(wu),各業(ye)(ye)務(wu)的代表性(xing)GPU方案分別(bie)是(shi)GeForce,DGX、EGX、HGX,Quadro、AGX。
英偉達2021財年營收167億美元,其中(zhong)游戲、數據中(zhong)心(xin)、專業視覺(jue)、自動駕駛(shi)業務在2020財年分別貢獻了(le)營收的47%、40%、6%、3%。公司(si)繼(ji)2014年毛利率(lv)突破50%后(hou),于2021財年毛利率(lv)突破60%。
▲英偉達2021財年的業(ye)務(wu)構成
▲英偉(wei)達(da)的主要增長驅動力
英偉達的(de)游(you)(you)戲(xi)業務由GeForce和(he)(he)Shield組成(cheng)。其中Shield面向(xiang)移(yi)動端和(he)(he)云(yun),GeForce面向(xiang)PC。游(you)(you)戲(xi)筆記本和(he)(he)云(yun)游(you)(you)戲(xi)是公司拓(tuo)展市場(chang)的(de)2大(da)(da)方向(xiang)。GeForce是英偉達游(you)(you)戲(xi)業務的(de)核心。GeForce是全(quan)(quan)球最大(da)(da)的(de)游(you)(you)戲(xi)平臺,擁有超過2億名玩家(jia)。在PC游(you)(you)戲(xi)領(ling)域,英偉達的(de)營收(shou)是其他主要GPU供應(ying)商的(de)三倍多。GeForce已經來到了RTX30系列,采用第二代NVIDIA RTX架(jia)構(gou)(gou)-NVIDIA安培架(jia)構(gou)(gou),搭載全(quan)(quan)新的(de)RT Core、Tensor Core及流式(shi)多處理器,擁有RTX游(you)(you)戲(xi)、DLSS、G-SYNC、DirectX12等先進技術,可帶來逼真的(de)光線追(zhui)蹤(zong)效(xiao)果和(he)(he)先進的(de)AI性(xing)能(neng)。
除了PC游戲市場,英(ying)偉(wei)達(da)也(ye)向(xiang)合(he)作伙伴(ban)–任(ren)天堂Switch主機提(ti)供(gong)定(ding)制版Tegra SoC。作為合(he)作的一部(bu)分,Shield主機可以(yi)暢(chang)享任(ren)天堂的游戲,GameStream串(chuan)流游戲和(he)熱門(men)游戲,實現4KHDR畫質,支持百度DuerOS對話式人工智能。
英(ying)偉達(da)的(de)數據中(zhong)心(xin)(xin)業務(wu)的(de)技術根源是CUDA(統一計(ji)算設備架(jia)構)。CUDA首(shou)次推(tui)出于2006年(nian)的(de)G80核心(xin)(xin),隸屬于通用并行計(ji)算架(jia)構,創(chuang)造了GPGPU。在“安培”時(shi)代,CUDA核心(xin)(xin)已經進化到(dao)了8.0,被運用在幾乎所(suo)有的(de)英(ying)偉達(da)產品線。
CUDA兼容DirectCompute、OpenCL等計算接口。與(yu)Direct3D、OpenGL等高級(ji)圖形(xing)API相比,CUDA可(ke)以(yi)使開發者更容易使用GPU資源(yuan)。當前(qian),CUDA在(zai)廣義上既代表GPU的硬件(jian)平臺又代表GPU的軟件(jian)平臺。
在硬(ying)件平臺方面,CUDA包(bao)含了CUDA指令集以及GPU內(nei)部(bu)的(de)并行計算引(yin)擎。GPU平臺的(de)矢量運算如(ru)INT、FP32、FP64都(dou)由CUDA承擔(dan)。開發人員可(ke)以使用C語(yu)言(yan)(yan)和Fortran語(yu)言(yan)(yan)為CUDA編(bian)寫程序(xu)。
在軟件平臺方(fang)面,基于CUDA的(de)CUDA-X加(jia)速庫、工具和(he)(he)科技集合(he),向(xiang)上對接(jie)不同的(de)行業(ye)應用需求。在英偉達的(de)軟件棧體系中,分為(wei)CUDA-X AI和(he)(he)CUDA-X HPC,分別(bie)面向(xiang)AI和(he)(he)HPC兩大(da)領域,可以在人工智能(neng)和(he)(he)高性能(neng)計算方(fang)面提供遠超(chao)其(qi)他競品的(de)性能(neng)。CUDA-X的(de)開發者已經超(chao)過100萬。
▲英(ying)偉達(da)CUDA-X HPC
▲英偉(wei)達CUDA-X AI
英(ying)偉(wei)達數據中心的(de)產(chan)品包括適(shi)用(yong)于(yu)(yu)AI的(de)DGX系統,適(shi)用(yong)于(yu)(yu)邊緣計(ji)(ji)算(suan)的(de)EGX平(ping)臺,適(shi)用(yong)于(yu)(yu)超算(suan)的(de)HGX平(ping)臺、適(shi)用(yong)于(yu)(yu)數據處理的(de)DPU、簡化(hua)深度學(xue)習,機器學(xue)習,高性能計(ji)(ji)算(suan)的(de)NGC目錄(lu)。相關的(de)GPU加速器有采用(yong)安培(pei)架(jia)構的(de)A100、A40,采用(yong)圖靈架(jia)構的(de)T4、RTX6000、RTX8000,采用(yong)伏特架(jia)構的(de)V100。
過(guo)去5個財年(nian)中(zhong)(zhong),英偉達(da)數據(ju)中(zhong)(zhong)心的(de)營收(shou)從8.3億(yi)美(mei)元上升至66.96億(yi)美(mei)元,年(nian)復合增速69%。同時(shi),公司的(de)注冊開發者超(chao)過(guo)200萬(wan),與(yu)主(zhu)要的(de)云供應商如(ru)谷歌(ge)、騰訊、阿里建立(li)了(le)供應關系,世界500強(qiang)超(chao)算中(zhong)(zhong)的(de)份額從6%上升至70%。
▲英(ying)偉達主要云合作伙伴
▲英偉(wei)達數據(ju)中心(xin)營收趨勢
▲英偉達(da)在超算500強中份額
英偉達(da)專業視(shi)覺業務(wu)主要由Quadro產品線組(zu)成。Quadro在(zai)GeForce的基礎上加強了NVLink、GPU的通用(yong)計算性能和顯(xian)存容量,擁有(you)Iray、Omniverse平臺(tai)、材質定義語言(yan)等(deng)特有(you)技(ji)術。Quadro被廣泛應用(yong)在(zai)臺(tai)式工作(zuo)站(zhan)、筆記本電腦、EGX服務(wu)器、虛(xu)擬工作(zuo)空間、云(yun)端、定制(zhi)化方案(an)中。英偉達(da)Quadro方案(an)有(you)超過50種(zhong)應用(yong)、4000萬設計用(yong)戶和2000萬企(qi)業用(yong)戶,并正在(zai)不斷解鎖(suo)新市(shi)場(chang)。
在過去(qu)的(de)5個(ge)財年,英偉達(da)專(zhuan)業視覺的(de)營收從8.35億(yi)美(mei)元上升至10.53億(yi)美(mei)元,年復合增(zeng)速6%。
▲英偉達專業視覺(jue)GPU加速合作(zuo)伙(huo)伴(ban)
▲英偉達專業視覺營收趨(qu)勢
▲英偉達專業視覺方案
英偉達的汽車產品包括相(xiang)關駕(jia)駛(shi)軟件、駕(jia)駛(shi)基礎設計、AGX平(ping)臺,提供訓(xun)練、模擬、智(zhi)能駕(jia)駛(shi)艙體驗、高清地圖和定位等解決方案(an)。在絕對(dui)性能方面,搭載4顆Drive AGX Origin的蔚來(lai)ADAM超算(suan)平(ping)臺支持(chi)L4以上(shang)自動(dong)駕(jia)駛(shi),超過7個(ge)特(te)斯拉FSD算(suan)力總和。
不同于(yu)特斯(si)拉自動駕駛追求軟硬件的(de)(de)高度契合(he)(he),英偉達的(de)(de)方案更追求開放(fang)性。公司(si)在汽車(che)領域(yu)的(de)(de)合(he)(he)作伙伴以軟件服務和(he)轎車(che)居多,分別達到了76家(jia)和(he)42家(jia)。同時(shi),公司(si)與大眾(zhong)、豐田、本田、奔(ben)馳(chi)、寶馬(ma)、奧迪、沃爾(er)沃、馬(ma)牌、滴滴、采埃孚、蔚來、小鵬、圖森(sen)等世界知名(ming)公司(si)建立了強力的(de)(de)生(sheng)態。
在過(guo)去的5個財年(nian)(nian),英偉達自動駕駛的營(ying)收(shou)從(cong)4.87億美元(yuan)上升(sheng)至5.36億美元(yuan),年(nian)(nian)復(fu)合(he)增速3%。
▲英偉達自動駕駛營收趨勢
▲英偉達自動(dong)駕駛合作伙伴分布數(shu)
2020年9月13日,NVIDIA宣布以400億美元收購ARM。本次收購意義可以細(xi)分為以下5個方面(mian):
1. 創造AI時代的世界級計算公司,將(jiang)英偉達領先(xian)的AI計算平(ping)臺(tai)和ARM龐大(da)的CPU生態相結合(he);
2. 通過(guo)英偉達在移動(dong)端(duan)和PC等大型終端(duan)市(shi)場的科(ke)技拓展ARM的IP授權組合;
3. 加速ARM的服務器(qi)CPU、數據中心、邊(bian)緣AI、IoT發展(zhan);
4. 將(jiang)英偉達計算平臺(tai)的開發者(zhe)由200萬提升至超過1500萬;
5. 并購可以立即(ji)增加英偉達的非(fei)GAAP毛利率(lv)和非(fei)GAAP每(mei)股收(shou)益;
合(he)并后的(de)(de)英偉達將(jiang)把計(ji)算從(cong)云、智能(neng)手(shou)機(ji)、PC、自動(dong)駕駛車和機(ji)器人(ren)技術推(tui)進到了(le)邊緣(yuan)物(wu)聯網,將(jiang)AI計(ji)算拓展到全球,在拓展大規模、高增長市場的(de)(de)同時加速創新。
▲英偉達從云到邊緣
2、全球GPU先驅:AMD
AMD是全球唯一可以(yi)同時提供高(gao)性能GPU和(he)CPU的(de)企業。AMD的(de)顯(xian)卡來源于2006年并購的(de)ATI科技。在這之后的(de)4年中,AMD繼續使用ATI作為顯(xian)卡品(pin)牌。直到2010年,AMD才拋棄(qi)原ATI的(de)品(pin)牌命名方(fang)式。
目前(qian),AMD同時提供獨(du)立GPU和集(ji)成(cheng)GPU,其集(ji)成(cheng)GPU主要運用(yong)(yong)(yong)在(zai)Ryzen APU、嵌入式、半(ban)定制(zhi)平臺(tai)中,獨(du)立GPU分為Radeon和Instinct系(xi)列,主要用(yong)(yong)(yong)于游戲、專(zhuan)業視覺、服務器等應(ying)用(yong)(yong)(yong)。
過去六年,AMD的(de)計(ji)算和圖形收(shou)入的(de)營收(shou)由18.05億(yi)美(mei)元(yuan)上升至64.32億(yi)美(mei)元(yuan),年復(fu)合增速29%。
未來(lai)五年(nian),AMD計劃成為高性能計算的領導者,提供顛覆性的CPU和GPU方案(an)。
▲AMD計算和(he)圖(tu)形部門(men)營(ying)收(shou)
▲AMD GPU的聚(ju)焦領域
AMD的(de)集(ji)成GPU主(zhu)要被運用(yong)在臺式機和(he)(he)筆記(ji)本(ben)的(de)APU產(chan)品(pin)中(zhong),和(he)(he)CPU組成異(yi)構運算單(dan)元。臺式和(he)(he)筆記(ji)本(ben)APU的(de)GPU部(bu)份共用(yong)微(wei)架構和(he)(he)核心技術,二者GPU的(de)主(zhu)要差異(yi)在于TDP和(he)(he)處理單(dan)元的(de)數量,臺式強于筆記(ji)本(ben)。
“Renior”APU的GPU繼(ji)續使用Vega微架構(gou),但(dan)受益于7納米制程,每個處理單(dan)元效能顯著提升。
7納米Vega的(de)提(ti)升(sheng)包括:數據網絡(luo)翻倍、優(you)化低功耗(hao)狀(zhuang)態轉換(huan)、25%主(zhu)頻提(ti)升(sheng)、77%存儲位(wei)寬提(ti)升(sheng)。這(zhe)些提(ti)升(sheng)帶來了在保持15W功耗(hao)不變的(de)前提(ti)下,每(mei)個計算單元59%的(de)性能提(ti)升(sheng)、1.79TFLOPS的(de)32位(wei)浮點峰值吞吐。
在3DMark Time Spy(DX12)的跑分中(zhong),7納米的Ryzen 4800U的GPU表現超過10納米i7-1065G7,是14納米i7-10710U的2倍以上。
▲AMD “RENIOR”APU
▲AMD “RENIOR”APU內核解析(xi)
▲AMD “RENIOR”APU跑(pao)分(fen)對比
AMD的(de)Radeon系列(lie)游(you)戲獨(du)立GPU按(an)微架構(gou)推出(chu)時間依次遞減可以(yi)分為RX6000系列(lie)、RX5000系列(lie)、Radeon 7、 RX500系列(lie)。以(yi)上(shang)四(si)大(da)系列(lie)中,除RX500系列(lie)外均(jun)采用臺(tai)積電7納米制程。
2020年(nian)11月推(tui)出(chu)的RDNA2微架構相較(jiao)于前代(dai)RDNA絕(jue)對性能最(zui)高(gao)(gao)提升一倍,能效提高(gao)(gao)54%,支(zhi)持DirectX12 Ultimate,硬(ying)件(jian)光線追蹤和(he)可變速(su)率著色器等先進(jin)技術。搭(da)載16GBGDDR6顯(xian)存和(he)128MB InfinityCache高(gao)(gao)速(su)緩存的RX 6900XT的游戲性能接近英偉(wei)達的RTX 3090。
為了(le)發(fa)揮(hui)AMD CPU和GPU的(de)協(xie)同效應,Radeon擁有AMD SmartAccess Memory技術,銳龍(long)CPU和顯卡之間能實(shi)現更出(chu)色的(de)通信。RX6800系(xi)列顯卡在部分游戲中(zhong)4K畫質性能額外(wai)提升最高可達7%。
2022年前(qian),AMD將基于更先進(jin)的制程打造(zao)RDNA3微架構,進(jin)一步強化光追等計算表現。
除了傳(chuan)統的BGA顯(xian)存(cun)封裝,AMD還積(ji)極運用HBM系(xi)列顯(xian)存(cun)。在(zai)Radeon7中,16GB的HBM2顯(xian)存(cun)擁(yong)有1TB/S的帶(dai)寬,超過(guo)同期Titan RTX 50%。
▲AMD獨立游(you)戲GPU路(lu)線圖
▲AMD獨立游戲GPU產品(pin)線
AMD的數(shu)據中心GPU業務由Radeon Instinct加速器系列(lie)、以(yi)客戶(hu)為核心的數(shu)據中心解決方案和ROCm組成。AMD的主要(yao)合作伙(huo)伴包括戴爾(er)、惠(hui)普等OEM,同時AMD也向微軟AZURE和亞馬遜網絡服務提(ti)供(gong)視覺云(yun)解決方案。
ROCm是全球首個針(zhen)對加速式計算且不限定(ding)編程語言的超(chao)大規模開(kai)源平臺(tai),遵循(xun)UNIX的選擇哲學(xue)、極簡主(zhu)義以及針(zhen)對GPU計算的模塊(kuai)化軟件開(kai)發。
ROCm適合大規模(mo)計算,支持多路GPU,有(you)豐富的系(xi)統運行庫(ku)(ku),包括框架、庫(ku)(ku)、編程模(mo)型、互聯和Linux Kernel上游支持,提供各種重要功(gong)能來支持大規模(mo)應用、編譯(yi)器和語言運行庫(ku)(ku)的開(kai)發。
AMD正與美國(guo)能源部(bu)、橡樹嶺國(guo)家實驗室和Cray公司合作,使(shi)用EPYC(霄龍)CPU、Radeon Instinct GPU和ROCm打造超過150億(yi)億(yi)次(ci)FLOPS的全球最(zui)快超算平臺。
▲AMD ROCm開源軟件生態
▲AMD數據中心GPU產品線(xian)
Radeon Instinct MI 100加(jia)速器(qi)采用專注計(ji)算的CDNA微架構(gou),在計(ji)算和連接方面實現了(le)巨大飛(fei)躍(yue),與AMD上一代加(jia)速器(qi)相比,高(gao)性(xing)能計(ji)算工(gong)作(zuo)負載(zai)(zai)(FP32矩陣(zhen))性(xing)能提升(sheng)近3.5倍(bei)(bei),而人工(gong)智能工(gong)作(zuo)負載(zai)(zai)(FP16)性(xing)能提升(sheng)近7倍(bei)(bei)。InstinctMI 100在FP32和FP64的峰值TFLOPS中超(chao)越了(le)同期英偉達安培(pei)A100,同時功耗比后(hou)者低100瓦。
為(wei)了(le)(le)滿足多(duo)路GPU的互聯(lian)(lian)通訊需求,AMD研(yan)發了(le)(le)InfinityFabric技術(shu)。Infinity Fabric擁(yong)有(you)先進(jin)的平(ping)臺連接性(xing)和可拓展性(xing),最多(duo)支持(chi)4路GPU互聯(lian)(lian)。P2P帶(dai)寬是PCIe 4.0的2倍,四GPU集群的P2P帶(dai)寬最高可達(da)552GB/s。
未來,AMD將基于(yu)更先進的制程打造CDNA2微(wei)架構,進入百億億級時代。
▲Instinct MI 100與安培A100對比
▲AMD數據(ju)中心GPU路線圖
▲AMD Infinity Fabric互聯
AMD的其他(ta)獨立GPU主要包括嵌入式、半定制化、Radeon Pro工作站顯卡。半定制化獨立顯卡主要倍(bei)運用在索(suo)尼、微軟的本世代和次世代主機中。如今,AMD的技術存(cun)在于2.2億個家庭暢享游戲和視頻(pin)娛樂(le)時所用設備的核心。
嵌(qian)入(ru)式GPU的(de)(de)特點包括卓越的(de)(de)圖形(xing)性(xing)能(neng)(neng)、多屏顯(xian)示、外形(xing)緊湊、高能(neng)(neng)效、長期供(gong)貨。嵌(qian)入(ru)式GPU分為超高性(xing)能(neng)(neng)嵌(qian)入(ru)式GPU、高性(xing)能(neng)(neng)嵌(qian)入(ru)式GPU、高能(neng)(neng)效嵌(qian)入(ru)式GPU,它(ta)們(men)主要(yao)使用(yong)14納(na)米的(de)(de)GCN 1.4北極星微架(jia)構,TDP覆蓋20W-135W范圍(wei)。
Radeon Pro系列(lie)顯卡被廣泛應用于建筑(zhu)工(gong)程、設計制(zhi)造、媒體娛樂等(deng)領域,擁(yong)有(you)AMD遠程工(gong)作站、AMD Eyefinity多屏(ping)顯示技術、AMD Radeon ProRender等(deng)技術。Radeon Pro系列(lie)采用Vega微架構,7或(huo)14納米制(zhi)程,直接競爭對手是英(ying)偉達的Quadro系列(lie)。Radeon Pro移動和臺(tai)式工(gong)作站的合作伙伴包括蘋(pin)果(guo)、戴(dai)爾(er)、惠普等(deng)。
▲Radeon? Pro VII GPU規格(ge)
3、英特爾:全球GPU追趕者
英(ying)特(te)爾是全球最大(da)的(de)PC GPU供應(ying)商(shang),也是PC和(he)服務器顯(xian)卡唯一(yi)的(de)IDM廠商(shang)。英(ying)特(te)爾的(de)GPU最早可以追溯到(dao)1998年的(de)i740,但是由于羸弱的(de)性(xing)能(neng)和(he)緩慢的(de)更新速度,一(yi)直(zhi)(zhi)沒有非常大(da)的(de)起色(se)。進入Core i時代后,英(ying)特(te)爾通過(guo)將核芯顯(xian)卡和(he)CPU進行捆綁銷售,利用CPU的(de)龐大(da)市(shi)場(chang)份(fen)額,確立了(le)公(gong)司(si)在集成GPU領域(yu)的(de)寡頭壟斷地(di)位,在此過(guo)程中AMD的(de)APU一(yi)直(zhi)(zhi)是酷睿的(de)直(zhi)(zhi)接競爭(zheng)對手。
2020年,英特爾推(tui)出了第(di)12代GPGPU,采用全新的(de)Xe微架構和10納米Super Fin制程。相較(jiao)于第(di)11代核顯,Xe-LP在(zai)保持電(dian)壓不變的(de)前提(ti)下,大幅(fu)提(ti)升主頻,能(neng)(neng)效(xiao)顯著提(ti)高(gao)。搭載Xe-LP的(de)i7 1185G7在(zai)GPU性能(neng)(neng)方(fang)面(mian)已經(jing)超過同期AMD的(de)Vega核顯和英偉達的(de)MX系列獨顯。
Xe系列可以細分為,集(ji)成/低(di)功(gong)耗(hao)的Xe-LP、娛(yu)樂/游戲的Xe-HPG、數據中(zhong)心(xin)/高(gao)性(xing)能的Xe-HP、高(gao)性(xing)能計算的Xe-HPC。
目前,Xe-LP的集成版(ban)(ban)本(ben)(ben)已經(jing)被(bei)第(di)11代(dai)酷睿所采用。Xe-LP的移動獨(du)立(li)GPU版(ban)(ban)本(ben)(ben)DG1和(he)服務器獨(du)立(li)GPU版(ban)(ban)本(ben)(ben)SG1也已發布(bu)。獨(du)顯版(ban)(ban)在核(he)顯版(ban)(ban)的基礎上進一步提升主(zhu)頻(pin),并加入了128位4GB LPDDR4X-4266獨(du)立(li)顯存,單精度浮點(dian)算力提升15%。
▲英特爾Xe縱向對比第11代核顯
▲英特爾Xe產品線
英特爾的集成GPU在形式上表現為核芯(xin)顯卡。核芯(xin)顯卡使用系統DRAM作為非獨立顯存,通過處(chu)理(li)器內(nei)部(bu)的環狀(zhuang)總線與CPU連(lian)接(jie),負責(ze)處(chu)理(li)游(you)戲、視頻娛樂等圖像負載。
英特爾Xe核顯借助10納米SuperFin的(de)優勢,將(jiang)處理單元最(zui)高提(ti)升(sheng)至96個,相(xiang)較(jiao)于Icelake的(de)64個提(ti)升(sheng)了50%,并(bing)且(qie)將(jiang)連接CPU和(he)GPU的(de)總(zong)線(xian)帶(dai)寬提(ti)升(sheng)一(yi)倍,獨立最(zui)終緩(huan)存(LLC)提(ti)高50%,支持(chi)最(zui)高86GB/s的(de)存儲帶(dai)寬。以(yi)上這些(xie)提(ti)升(sheng)使i7-1185G7的(de)3DMark跑分較(jiao)前代i7-1065G7提(ti)升(sheng)接近(jin)一(yi)倍,超過(guo)AMD的(de)R74800U和(he)同(tong)期英偉(wei)達的(de)MX350。
Xe核顯的顯示引擎和(he)媒體引擎也都得到加強。接口方面(mian),內部支(zhi)持(chi)雙(shuang)eDP,外部支(zhi)持(chi)DP1.4、HDMI2.0、雷電4、USB4 Type-C。畫質(zhi)方面(mian),支(zhi)持(chi)8K、HDR10、12比特BT2020色域、360赫茲刷(shua)新率等。
英特(te)爾Xe核心顯卡和CPU經(jing)由自家One API驅動中(zhong)間層(ceng)框架和上層(ceng)應(ying)用(yong)。英特(te)爾One API解決了編碼模(mo)型在(zai)不同微架構(gou)間的壁壘,最大(da)化跨平臺表現和最小化開發成(cheng)本。
▲英特爾Tiger Lake 實物圖和Die
▲英特爾Tiger Lake Xe核(he)顯3DMark性能對(dui)比
英特爾獨(du)立GPU分為銳炬Xe MAX和服(fu)務(wu)器GPU,均隸屬于Xe LP系列,微架構與核顯Xe相同,采用(yong)標準封裝和10納米SuperFin制程(cheng)。
目前,銳炬(ju)Xe MAX是第一款(kuan)基于英特爾(er) Xe 架構的(de)面向輕薄(bo)型筆記本電腦的(de)GPU。銳炬(ju)Xe MAX在Xe集(ji)成GPU的(de)基礎(chu)上增加(jia)了(le)4GBLPDDR4X-4266的(de)獨立顯(xian)存,TDP 25W,峰值主頻(pin)1650MHz,單精度浮點性能(neng)2.46TFLOPs。銳炬(ju)Xe MAX可以和11代酷睿處(chu)理器、銳炬(ju)Xe GPU同(tong)時工(gong)作。借助英特爾(er)Deep Link技術,獲得具(ju)有強(qiang)大性能(neng)和經過功(gong)耗優(you)化的(de)集(ji)成系統,以改(gai)進(jin)創造力和游戲體驗。
目前(qian),英特(te)爾服務器GPU在Xe核(he)顯(xian)的(de)基礎上,TDP提升到23W,增(zeng)加了8GB LPDDR4的(de)獨(du)立(li)(li)顯(xian)存,支(zhi)持高密度、低延(yan)遲(chi)的(de)安卓(zhuo)云(yun)游戲和高密度媒體轉(zhuan)碼/編(bian)碼,以(yi)實現實時的(de)OTT視(shi)頻直播。同時,英特(te)爾服務器GPU支(zhi)持2顆、4顆獨(du)立(li)(li)GPU的(de)聚合,成倍提高性(xing)能。
未來(lai),英(ying)特爾還將推出(chu)面向游戲(xi)和高性(xing)能桌面的Xe HPG產品線,增加了光(guang)線追蹤等(deng)硬件支持,采(cai)用傳統封裝,外包生(sheng)產。英(ying)特爾服務器GPU將使用Xe HPC、Xe HP微(wei)架構,采(cai)用2.5D和3D先進封裝,10納米SuperFin及更(geng)先進自家(jia)或外包工藝。
▲英(ying)特爾Xe服務器(qi)GPU參數
▲英特爾(er)Xe產品、封裝、制程
▲英特爾銳炬Xe MAX
4、ARM Mali:全球GPU IP巨頭
ARM是(shi)全(quan)球(qiu)最(zui)大的(de)半導(dao)體IP提供商。全(quan)世界超(chao)過(guo)95%的(de)智能(neng)手機和(he)(he)平板(ban)電(dian)腦都采(cai)用ARM架構。2019Q2,全(quan)球(qiu)近43%的(de)手機和(he)(he)平板(ban)GPU由Mali驅動。2020第四(si)季度(du),ARM半導(dao)體合作伙伴基(ji)于ARM技術的(de)芯片出貨(huo)量(liang)達到67億顆,再創歷史(shi)新高(gao),超(chao)過(guo)其他(ta)所有流行的(de)CPU指(zhi)令集架構—X86、ARC、Power、MIPS的(de)總和(he)(he)。
國產SoC中,有95%是基于(yu)ARM處理(li)器技術(shu),ARM中國授權客戶超過(guo)150家,基于(yu)ARM架構(gou)的(de)國產芯片出貨量已經超過(guo)184億。
ARM的Mali GPU按(an)性(xing)能可以分(fen)為3大類,分(fen)別是高性(xing)能、主(zhu)流、高能效(xiao)。
▲ARM IP組合和SoC設計(ji)
▲ARM Mali GPU路(lu)線圖(tu)
Arm Mali-G78 GPU是用于(yu)高(gao)端設(she)備的(de)第二(er)代基(ji)于(yu)Valhall架(jia)構(gou)的(de)GPU。Mali-G78是性能最高(gao)的(de)ArmGPU,可支持(chi)復(fu)雜的(de)應用,例如(ru)適用于(yu)Vulkan和OpenCL等所有最新API的(de)游戲圖(tu)形和機器(qi)學習(ML)。
Mali-G78與上一代設(she)(she)備相比,GPU性能(neng)提(ti)高了25%,并增(zeng)強了設(she)(she)備上的(de)ML功能(neng),從而有助于將高度復雜的(de)游戲帶入移(yi)動設(she)(she)備。Mali-G78最多支持24個內(nei)核,并包含異步頂級功能(neng),可(ke)確保(bao)性能(neng)有效地(di)分布在各個內(nei)核上,從而使圖形運行更加流暢。全新執行引擎中的(de)新型(xing)融合乘加(FMA)單(dan)(dan)元(yuan)可(ke)進一步降低30%的(de)單(dan)(dan)元(yuan)能(neng)耗。
在GFXBench Aztec Ruin的跑(pao)分中,使用臺積電5納米工(gong)藝,搭載24個Mali-G78內核的麒麟9000 SoCGPU的幀數強于驍龍865的Adreno 650,但仍落后于蘋果A14。
▲ARM Mali-G78
▲麒麟9000系列的ARM Mali-G78應用
Imagination Technologies是一(yi)家總部在英(ying)國,專注于半導體(ti)和相關知(zhi)識產(chan)權許可,銷售PowerVR移動(dong)圖(tu)形處理(li)(li)器(qi),MIPS嵌入式(shi)微處理(li)(li)器(qi)和消費電子產(chan)品。公司還提供無線基帶處理(li)(li),網絡,數(shu)字信(xin)號處理(li)(li)器(qi),視頻和音(yin)頻硬件,IP語音(yin)軟件,云計(ji)算,以及芯片和系統設計(ji)服務。2017年,董事會宣布公司被(bei)中資的Canyon Bridge收購。
Imagination在(zai)(zai)GPU領(ling)(ling)域歷史(shi)悠久,在(zai)(zai)其超(chao)過25年的(de)(de)歷史(shi)中,Imagination先(xian)后推出過多代GPU產品,已積累(lei)超(chao)過1500項GPU專利,曾(ceng)為蘋(pin)果供應圖像(xiang)處(chu)理器(GPU),在(zai)(zai)圖像(xiang)處(chu)理器(GPU)領(ling)(ling)域與高(gao)通、ARM三(san)分天下,曾(ceng)占(zhan)GPU市場大約占(zhan)據(ju)三(san)分之一的(de)(de)份額(e),在(zai)(zai)汽車領(ling)(ling)域更是達到(dao)43%。帶有Imagination IP的(de)(de)芯片產品累(lei)計出貨量已超(chao)過110億。
Imagination的IP包(bao)括(kuo)圖形處理器和視覺與人工智能(neng)(neng)2類。公(gong)司Power VR產品被廣泛(fan)應用于移動設備(智能(neng)(neng)手機、平板)、汽(qi)車(che)(儀表、信息娛樂、輔(fu)助駕駛)、沉(chen)浸(jin)式體驗(AR/VR)、消(xiao)費(fei)電子(電視、機頂盒)。
根據Imagination的GPU路線(xian)圖(tu),在A系(xi)(xi)列(lie)GPU性(xing)能最高(gao)提升(sheng)(sheng)2.5倍(bei)之后,B系(xi)(xi)列(lie)到D系(xi)(xi)列(lie)GPU的年復合增速在30%左右。2021年的C系(xi)(xi)列(lie)GPU將首次加入L4級別的光(guang)線(xian)追蹤,從硬件層面支持一致性(xing)分類的層次包圍體(BVH)和(he)復雜光(guang)線(xian)處理,相(xiang)比目(mu)前英偉達(da)和(he)AMD的L3級別光(guang)線(xian)追蹤方案可顯(xian)著(zhu)提升(sheng)(sheng)能效,實現(xian)更好(hao)的用戶體驗。
▲IMG系列(lie)GPU路線圖
5、全球GPU IP巨頭:Imagination
2020年10月(yue),Imagination推出了全新(xin)的IMG B系列(lie)GPU,這是(shi)公司(si)第一(yi)個包含(han)新(xin)多(duo)核(he)(he)架(jia)構(gou)的GPU IP系列(lie),也(ye)是(shi)首次采用RISC-V,可(ke)提(ti)供最高的性能(neng)(neng)密度。得益(yi)于(yu)多(duo)核(he)(he)架(jia)構(gou)和Imagination圖(tu)像壓縮(suo)技(ji)(IMGIC),B系列(lie)相比(bi)A系列(lie),功(gong)耗降(jiang)低30%,帶寬(kuan)降(jiang)低35%、面積(ji)縮(suo)減25%,AI算力達到24 TOPS,且填充率(lv)比(bi)競品IP內核(he)(he)高2.5倍(bei)。與A系列(lie)相似,B系列(lie)GPU也(ye)支持AI協同技(ji)術,在提(ti)供圖(tu)形(xing)處(chu)(chu)理功(gong)能(neng)(neng)的同時(shi),可(ke)用備用資源來處(chu)(chu)理可(ke)編(bian)程AI等任務。
IMG B系列GPU共有IMG BXE、IMG BXM、IMG BXT、IMG BXS四種(zhong)系列。其中IMG BXE面(mian)向高清顯示(shi)應用,IMG BXM主打圖形處理體(ti)驗,IMG BXT面(mian)向高性能(neng)應用,IMG BXS面(mian)向未來汽車(che)。
BXS系列符合ISO 26262標準,也是迄今為(wei)止所開發(fa)的最先進(jin)汽車GPU IP內核。BXS提供了一個完整(zheng)的產品(pin)系列,從入門到高端,可(ke)為(wei)下一代人機界面(mian)(HMI)、UI顯(xian)示(shi)、信息(xi)娛(yu)樂系統、數字駕艙、環(huan)繞視圖(tu)提供解決方(fang)案。高計(ji)算能力的配(pei)置可(ke)支持自動駕駛和(he)ADAS。
憑(ping)借核心可擴展(zhan)的優勢,IMG B系(xi)列(lie)適用于傳(chuan)統移動設(she)備、消費類(lei)設(she)備、物聯(lian)網、微控(kong)制器(qi)、數字(zi)電視(DTV)和汽車(che)等市場(chang)領域。IMG B系(xi)列(lie)也可擴展(zhan)至桌(zhuo)面GPU、云(yun)端GPU服務器(qi),且支持自動駕(jia)駛和輔助(zhu)駕(jia)駛等。
▲IMG B系列(lie)對比A系列(lie)能效(xiao)提升
▲Imagination GPU組(zu)合
6、高通Adreno:全球移動GPU先驅
高通的自研GPU Adreno源于收購的AMD移(yi)動GPU Imageon系(xi)列。早(zao)期的Adreno 100系(xi)列只(zhi)有2D圖形加(jia)速和有限的多媒體(ti)功能(neng)。2008年發布的Adreno 200是首款(kuan)被集成到驍龍SoC中的GPU,并(bing)加(jia)入了3D硬(ying)件加(jia)速功能(neng)。
2020年(nian)12月,高(gao)通推出了搭(da)載Adreno 660的驍(xiao)龍(long)888 SoC。Adreno 660繼(ji)承了Adreno650的微架構,采用(yong)了三星(xing)5納米LPE工藝(yi),大幅提(ti)高(gao)主頻,使圖形渲(xuan)染性(xing)能提(ti)高(gao)35%,能效提(ti)高(gao)20%。Adreno 660全面支(zhi)持Qualcomm? Snapdragon Elite Gaming和(he)Qualcomm? Game Quick Touch ,二(er)者將(jiang)可變速率渲(xuan)染和(he)響應速度分別提(ti)升30%和(he)20%。
在GFXBench Aztec Ruin 1080P測試中,Adreno 660的(de)峰值幀數追平麒(qi)麟9000,但相較蘋果A14仍有近(jin)20%的(de)差(cha)距(ju)。
▲高通Adreno 660 1080P性(xing)能對比
▲高通Adreno 660 GPU
▲高通(tong)Adreno 660參數
7、蘋果:全球移動GPU新秀
蘋(pin)果的自(zi)研(yan)(yan)GPU首(shou)次出現(xian)于(yu)2017年的A11 SoC。A11的三核心(xin)GPU作為(wei)蘋(pin)果的首(shou)款自(zi)研(yan)(yan)GPU,其(qi)性能超過采用Power VR GT7600+的A10 GPU 30%。其(qi)后,所(suo)有的A系列SoC的GPU均(jun)為(wei)蘋(pin)果自(zi)研(yan)(yan)。
2020年,蘋(pin)果推出了(le)5納米制程的(de)M1芯片,該(gai)款SoC基于A14芯片,在CPU、GPU、NPU、緩(huan)存等(deng)各方面(mian)都進行了(le)強化,用(yong)于驅動蘋(pin)果的(de)Mac產(chan)品。M1芯片的(de)發布標志(zhi)著蘋(pin)果繼2005年放棄IBM的(de)PowerPC指令(ling)集轉向Intel的(de)X86指令(ling)集后的(de)又一大PC領(ling)域轉換。
采用(yong)8核(he)GPU的(de)(de)M1擁(yong)有(you)128個(ge)執行(xing)單(dan)元(yuan),可以同步運行(xing)近(jin)25000個(ge)線(xian)程,單(dan)精(jing)度浮點(dian)算力達到2.6 TFLOPs。M1 GPU的(de)(de)能(neng)效表現是當時同類PC中集成GPU的(de)(de)三倍,峰值性能(neng)最高可達其(qi)他GPU的(de)(de)2倍。
▲蘋果M1 GPU參數(shu)
▲蘋果M1能效對比
▲蘋(pin)果M1 8核GPU
三、國產GPU自主之路
國(guo)(guo)產(chan)GPU的(de)(de)發(fa)(fa)展(zhan)落后于國(guo)(guo)產(chan)CPU,直到2014年4月,景嘉微才(cai)成功研(yan)(yan)發(fa)(fa)出國(guo)(guo)內首款國(guo)(guo)產(chan)高性能、低(di)功耗GPU芯片—JM5400。在國(guo)(guo)產(chan)GPU的(de)(de)開發(fa)(fa)中,GPU對(dui)CPU的(de)(de)依賴(lai)性和GPU的(de)(de)高研(yan)(yan)發(fa)(fa)難度,阻(zu)礙了該產(chan)業的(de)(de)快速發(fa)(fa)展(zhan)。
首(shou)先(xian),GPU對CPU有依賴性。GPU結構沒有控制(zhi)器,必須由CPU進行(xing)控制(zhi)調用(yong)才(cai)能工作,否則GPU無法單獨工作。所以國產(chan)CPU較國產(chan)GPU先(xian)行(xing)一步是(shi)符合芯片產(chan)業(ye)發(fa)展邏輯(ji)的。
再者(zhe),GPU技(ji)術難(nan)度很高。Moor Insights & Strategy首(shou)席分析師(shi)(shi)(shi)莫海德(de)曾表(biao)示:“相比CPU,開發(fa)GPU要更加困難(nan),而GPU設計(ji)師(shi)(shi)(shi)、工(gong)程師(shi)(shi)(shi)和(he)驅動程序的作者(zhe)都要更少。”國內(nei)人(ren)才缺口(kou)也是國產GPU發(fa)展緩慢(man)的重要原因之(zhi)一(yi)。在(zai)芯片(pian)行業,一(yi)般來說,培養一(yi)位擁有豐富經驗并且能夠根據市(shi)場動態及時修改芯片(pian)設計(ji)方案的成熟工(gong)程師(shi)(shi)(shi),至少需要10年。
▲國(guo)產GPU公(gong)司及其業務(wu)簡介(jie)
中國GPU市場(chang)規模和(he)潛力非(fei)常大(da),龐大(da)的整機制造(zao)能(neng)(neng)力意(yi)味(wei)著巨(ju)量(liang)的GPU采購。雖然近些年,計(ji)算機整機和(he)智能(neng)(neng)手(shou)(shou)機產量(liang)增(zeng)長(chang)都(dou)出現瓶頸,但由于(yu)這兩類產品體(ti)量(liang)龐大(da),2019年國內(nei)智能(neng)(neng)手(shou)(shou)機出貨量(liang)為3.72億部(bu),電子計(ji)算機整機年產量(liang)達到3.56億臺(tai),GPU的需求量(liang)大(da)且單品價值非(fei)常高,市場(chang)規模依然非(fei)常可觀。
同(tong)時,服務(wu)器(qi)GPU伴隨著整機出貨(huo)(huo)的快(kuai)速(su)成長,需求(qiu)量增(zeng)長也(ye)較為迅(xun)速(su)。據統計,2018年國內服務(wu)器(qi)出貨(huo)(huo)量達到330.4萬(wan)臺,同(tong)比增(zeng)長26%,其中互聯網、電(dian)信、金融和(he)服務(wu)業等行業的出貨(huo)(huo)量增(zeng)速(su)也(ye)均超過20%。另外,國內在(zai)物聯網、車聯網、人工智能(neng)等新興計算領(ling)域,對(dui)GPU也(ye)存在(zai)海(hai)量的需求(qiu)。
據(ju)統計,近年(nian)(nian)來中國(guo)集成(cheng)電路自給(gei)率不斷提升,2018年(nian)(nian)為13%,預計2020年(nian)(nian)有(you)望提升至(zhi)15%,但仍然處于較(jiao)低水平。根據(ju)國(guo)務院印發的(de)《新時期促進(jin)集成(cheng)電路產業(ye)和軟件產業(ye)高質(zhi)量發展的(de)若干政策》等文件,中國(guo)芯片(pian)自給(gei)率要在2025年(nian)(nian)達(da)到70%,這將產生8000億元的(de)國(guo)產芯片(pian)需求。中國(guo)芯片(pian)產業(ye)發展空間非常(chang)大(da)。
▲2019年(nian)中(zhong)國大陸集成(cheng)電(dian)路進口額結(jie)構
▲2012-2020年中國大陸集成電(dian)路自(zi)給率(lv)
1、景嘉微:具有完全自主知識產權,打破國外GPU長期壟斷
長沙(sha)景嘉微電子(zi)股份有限公司成立于2006年4月(yue),位(wei)于長沙(sha)市高(gao)新(xin)技(ji)術開(kai)發區(qu),公司擁(yong)有經(jing)驗豐富的集成電路設計(ji)團隊,是(shi)國(guo)產GPU的主(zhu)(zhu)要參(can)與(yu)者,也是(shi)唯一自主(zhu)(zhu)開(kai)發并已經(jing)大規模(mo)商(shang)用的企(qi)業。
2014年4月,成(cheng)功研發出國(guo)(guo)內首(shou)款國(guo)(guo)產(chan)高可靠、低功耗GPU芯(xin)片-JM5400,具有完全自主(zhu)知(zhi)識(shi)產(chan)權,打(da)破了國(guo)(guo)外(wai)產(chan)品長(chang)期(qi)壟斷(duan)我國(guo)(guo)GPU市場的局面,在(zai)多個國(guo)(guo)家重點項目中得到了成(cheng)功的應(ying)用(yong);
2018年8月,公司自(zi)主研發的新一(yi)代(dai)高性能、高可靠GPU芯片(pian)-JM7200流片(pian)成功,將國產GPU的技術發展提高到新的水平,可為各類信息系統提供(gong)強大的顯示能力;
2019年,公司在(zai)JM7200基礎上,推(tui)(tui)出了商用版本(ben)-JM7201,滿足(zu)桌(zhuo)面系(xi)統高性(xing)能顯示需求(qiu),并(bing)全面支持國(guo)(guo)產(chan)CPU和國(guo)(guo)產(chan)操作系(xi)統,推(tui)(tui)動(dong)國(guo)(guo)產(chan)計算(suan)機的生態(tai)構建(jian)和進一(yi)步完善。
▲景嘉微發展歷程
景(jing)(jing)嘉(jia)微(wei)(wei)已完成兩(liang)(liang)個系列(lie)、三款GPU的(de)(de)(de)量(liang)產(chan)應(ying)用(yong)(yong),產(chan)品覆蓋軍用(yong)(yong)和民用(yong)(yong)兩(liang)(liang)大市(shi)場(chang)。景(jing)(jing)嘉(jia)微(wei)(wei)第一(yi)代GPU JM5400主(zhu)要(yao)運用(yong)(yong)于軍用(yong)(yong)市(shi)場(chang),替(ti)代原ATI M9、M54、M72等(deng)美系GPU芯(xin)片。景(jing)(jing)嘉(jia)微(wei)(wei)第二(er)代GPU JM7200在(zai)產(chan)品性能和工藝設計(ji)上較(jiao)(jiao)JM5400有較(jiao)(jiao)大提升,是(shi)首(shou)例進入民用(yong)(yong)市(shi)場(chang)的(de)(de)(de)圖形(xing)芯(xin)片。公司與國內主(zhu)要(yao)CPU廠商(shang)(shang)和計(ji)算機(ji)整機(ji)廠商(shang)(shang)已建立合作關系。JM7201在(zai)JM7200的(de)(de)(de)基礎上對(dui)民用(yong)(yong)市(shi)場(chang)的(de)(de)(de)桌(zhuo)面應(ying)用(yong)(yong)進行了(le)優化(hua),推(tui)出標(biao)(biao)準(zhun)MXM和標(biao)(biao)準(zhun)PCIE顯卡,在(zai)保(bao)證性能的(de)(de)(de)同時,降低(di)了(le)功耗,縮小了(le)體積。
▲景(jing)嘉微國產(chan)(chan)GPU芯(xin)片產(chan)(chan)品線(xian)
景嘉微的(de)(de)第二代GPU JM7200系列于2018年8月流(liu)片成功,并在2019年3月獲得首個訂單(dan)。相較于前(qian)代JM5400,JM7200在理論性能(neng)上有(you)(you)翻倍的(de)(de)提升,同時制(zhi)程也進化到了28納米。但是JM7200在顯存帶寬、像素填充率(lv)、浮點性能(neng)等方面較2012年發售,采用完(wan)整版GK107核心(xin)的(de)(de)英偉達GT640還(huan)有(you)(you)相當差距。
▲各(ge)景嘉(jia)微GPU參數(shu)對比
2018年12月(yue),景(jing)嘉微定增募集10.88億元(yuan),用于高性能(neng)通(tong)用圖(tu)形(xing)處(chu)理器和面(mian)向消費電子(zi)領域(yu)的通(tong)用類芯(xin)片研發(fa)和產業化項目(mu)。其中(zhong),高性能(neng)通(tong)用圖(tu)形(xing)處(chu)理器項目(mu)包括JM9231和JM9271兩款GPU芯(xin)片,分別面(mian)向不(bu)同應(ying)用領域(yu)的中(zhong)、高檔系列產品。據公司2020年中(zhong)報顯示(shi),下一(yi)代圖(tu)形(xing)處(chu)理器研發(fa)處(chu)于后端設計階段,研發(fa)進(jin)程(cheng)一(yi)切順利。
景嘉微JM9系(xi)列是繼JM5400和(he)JM7200局部渲染計算(suan)內核之后(hou),首次采用統一(yi)渲染結(jie)構的(de)(de)GPU,并且增(zeng)加了(le)可編程計算(suan)模塊數量。JM9231和(he)JM9271在性能表現分別與英(ying)偉達于2016年推出的(de)(de)GTX1050和(he)GTX1080相近(jin)。JM9系(xi)列的(de)(de)推出將使(shi)公(gong)司(si)GPU水平(ping)與海外龍頭水平(ping)縮短至5年,大幅(fu)提(ti)升公(gong)司(si)在GPU領域的(de)(de)競爭力。
▲景嘉微后續(xu)高(gao)性(xing)能通用GPU性(xing)能參數(shu)對比(bi)
2、芯原微電子:國產GPU IP龍頭
芯(xin)原微電(dian)子是(shi)依托自(zi)主半(ban)(ban)導(dao)體IP,為(wei)(wei)客戶提供平臺(tai)化、全(quan)方(fang)位、一站式芯(xin)片定制服(fu)務(wu)和半(ban)(ban)導(dao)體IP授權服(fu)務(wu)的企業(ye)。公(gong)司(si)(si)至今擁有高(gao)清視頻、高(gao)清音頻及語(yu)音、車載娛樂(le)系統(tong)處(chu)(chu)理(li)(li)器(qi)、視頻監(jian)控(kong)、物(wu)聯(lian)網(wang)連接、數據(ju)中心等(deng)多(duo)(duo)種一站式芯(xin)片定制解決方(fang)案,以(yi)及5類自(zi)主可控(kong)的處(chu)(chu)理(li)(li)器(qi)IP,分別為(wei)(wei)圖(tu)形處(chu)(chu)理(li)(li)器(qi)IP、神經網(wang)絡處(chu)(chu)理(li)(li)器(qi)IP、視頻處(chu)(chu)理(li)(li)器(qi)IP、數字(zi)信號(hao)處(chu)(chu)理(li)(li)器(qi)IP和圖(tu)像(xiang)信號(hao)處(chu)(chu)理(li)(li)器(qi)IP,以(yi)及1,400多(duo)(duo)個(ge)數模混合IP和射頻IP,年均(jun)流片項目超(chao)過40個(ge)。主營(ying)業(ye)務(wu)的應用領域廣泛包(bao)(bao)括消費電(dian)子、汽車電(dian)子、計算機及周邊、工業(ye)、數據(ju)處(chu)(chu)理(li)(li)、物(wu)聯(lian)網(wang)等(deng),主要客戶包(bao)(bao)括IDM、芯(xin)片設(she)計公(gong)司(si)(si),以(yi)及系統(tong)廠商、大(da)型物(wu)聯(lian)網(wang)公(gong)司(si)(si)等(deng)。
芯原(yuan)在傳(chuan)統CMOS、先(xian)進FinFET和(he)FD-SOI等(deng)全(quan)球主流半(ban)導(dao)體(ti)工(gong)(gong)藝節(jie)點上都具有(you)優秀的(de)設(she)計能力(li),先(xian)進工(gong)(gong)藝制程覆(fu)蓋14nm/10nm/7nm FinFET和(he)28nm/22nm FD-SOI,并已開始進行5nm FinFET 芯片(pian)的(de)設(she)計研發和(he)新一代 FD-SOI 工(gong)(gong)藝節(jie)點芯片(pian)的(de)設(she)計預研。
此外(wai),根據Ipnest統計,芯(xin)原是2019年中國(guo)大陸排名第一(yi)、全球排名第七的半導體IP授權(quan)服務供應(ying)商,全球市場占有率(lv)約為1.8%。
▲芯原股份發展歷程
▲2019全球IP企業(ye)市占率排名
芯原(yuan)GPU IP源于公司在(zai)2016年收購的(de)美國(guo)嵌入式GPU設(she)計(ji)商圖芯技術(Vivante)。芯原(yuan)在(zai)GPU IP領域已經掌握了支持(chi)主(zhu)流圖形(xing)加速標準、自主(zhu)可控指令集和可拓展性強,性能范圍(wei)廣泛(fan)等核心技術,可廣泛(fan)應用于IOT、汽車電子、PC等市場。根據 IPnest 報告,芯原(yuan)GPU IP(含(han) ISP)市場占(zhan)有(you)率排名(ming)全球前三,僅(jin)次于ARM和Imagination,2019 年全球市場占(zhan)有(you)率約為 11.8%。
目前,芯原在(zai)圖(tu)形處(chu)理器(qi)(qi)(qi)技(ji)術的(de)研發課題包括通用(yong)(yong)圖(tu)形處(chu)理器(qi)(qi)(qi)運(yun)算內核的(de)持續優化和矢量(liang)圖(tu)形處(chu)理器(qi)(qi)(qi)DDR-Less技(ji)術。矢量(liang)GPU DDR-Less技(ji)術可(ke)以在(zai)不使用(yong)(yong)外部(bu)存儲器(qi)(qi)(qi)DDR的(de)基(ji)礎上,實現架構清(qing)晰、分(fen)工明確(que)、易于使用(yong)(yong)、軟件控制流程簡(jian)單等優點,適用(yong)(yong)于物(wu)聯(lian)網、可(ke)穿戴(dai)設備(bei)(bei)和車載設備(bei)(bei)。
▲2019全(quan)球(qiu)IP設計分(fen)類
▲芯原GPU IP的(de)核心技術和典型應用示(shi)例
芯原可拓展Vivante GPU IP應用涵蓋從低功耗(hao)的小型物聯網MCU(GPU Nano IP系列)到面向汽車和計算機(ji)應用的強大(da)SoC(GPUArcturus圖形IP),可滿足(zu)各種芯片尺寸和功耗(hao)預算,是具有(you)成(cheng)本(ben)效益的優(you)質圖形處理器解(jie)決方(fang)案。
芯原(yuan)的的圖形處(chu)理(li)器技術支持業界主流(liu)的嵌(qian)入式圖形加速標準Vulkan1.0、OpenGL3.2、OpenCL1.2 EP/FP和OpenVX1.2等,具(ju)有自主可控(kong)的指令集及專用編譯器,支持每(mei)秒2500億次的浮(fu)點運(yun)算(suan)能力及128個并行(xing)著色器處(chu)理(li)單(dan)元。
▲芯原GPU Nano IP產品線及其可應用場景
▲芯原GPU IP API和(he)操作系統兼容(rong)性
芯原股份(fen)現有的(de)(de)半導體(ti)IP分為處(chu)理(li)(li)器IP、數模混合IP及(ji)射頻(pin)IP,其中GPU IP隸(li)屬(shu)于處(chu)理(li)(li)器IP。整體(ti)來看,2017-2019芯原得(de)益于不斷豐富的(de)(de)IP儲備及(ji)一站式(shi)芯片定(ding)制業務(wu)的(de)(de)協同效應,公(gong)司半導體(ti)IP授權業務(wu)收入持續上升,GPU IP的(de)(de)年(nian)復合增速達13%。2019年(nian)GPU IP的(de)(de)營收占公(gong)司半導體(ti)IP營收的(de)(de)31.29%,主要由(you)于其他類型IP收入上升,GPU IP比重相對下降。
芯原(yuan)在圖(tu)(tu)形(xing)(xing)處(chu)理(li)器(qi)技術方面(mian)的研發包括高性(xing)能的通用圖(tu)(tu)形(xing)(xing)處(chu)理(li)器(qi)GC8400 IP,該IP適用于汽車(che)電(dian)子(zi),目前仍(reng)處(chu)IP設計驗(yan)證階段,擬(ni)達到每秒1萬億次的浮點運算能力雙倍精密度,512個并行著色器(qi)處(chu)理(li)單元 。
3、航錦科技
航錦科技(ji)(ji)是一(yi)家大(da)型(xing)化工生(sheng)產基地,公司的前身是錦西化工總廠。2017下半年,航錦科技(ji)(ji)通過收購長(chang)沙韶(shao)關和威科電子(zi)兩(liang)家軍工企業(ye),挺進(jin)電子(zi)產業(ye),形成化工+電子(zi)雙(shuang)主(zhu)業(ye)發展模式,構建起三個支(zhi)撐板塊(kuai)(化工、電子(zi)、金融)。
航(hang)錦科技電(dian)(dian)子板塊(kuai)以(yi)芯(xin)(xin)(xin)(xin)(xin)片為核心(xin)產(chan)品(pin)(pin),圍繞(rao)高(gao)端芯(xin)(xin)(xin)(xin)(xin)片與通信兩(liang)大領(ling)域,覆蓋高(gao)端芯(xin)(xin)(xin)(xin)(xin)片(圖形處理芯(xin)(xin)(xin)(xin)(xin)片/特種FPGA/存儲(chu)芯(xin)(xin)(xin)(xin)(xin)片/總線(xian)接口(kou)芯(xin)(xin)(xin)(xin)(xin)片)、北斗3芯(xin)(xin)(xin)(xin)(xin)片以(yi)及通信射(she)頻三(san)大主要產(chan)業。堅(jian)持軍民(min)兩(liang)用(yong)(yong)為發展方向,產(chan)品(pin)(pin)廣(guang)(guang)泛(fan)應用(yong)(yong)于(yu)航(hang)空、航(hang)天(tian)、兵器(qi)、船(chuan)舶(bo)、電(dian)(dian)子等(deng)領(ling)域,擁有廣(guang)(guang)闊的市場空間(jian)。
航錦科技(ji)的(de)GPU技(ji)術源于并(bing)購的(de)長沙韶(shao)(shao)光(guang)(guang)。2018年,長沙韶(shao)(shao)光(guang)(guang)自主研發和合作研發的(de)第一(yi)代及(ji)第二代圖形(xing)處(chu)理(li)芯片(GPU)獲得集(ji)成(cheng)電路布圖設計登記(ji)證書;2019年,長沙韶(shao)(shao)光(guang)(guang)自主研發的(de)第二代改進型圖形(xing)處(chu)理(li)芯片在自主可控設備(bei)領域的(de)應用得到驗證,并(bing)收獲相關訂單。
▲航錦(jin)科技自主可(ke)控芯片板塊示(shi)意圖
4、兆芯:同時掌握CPU、GPU、芯片組三大核心技術
上(shang)(shang)海(hai)兆芯集(ji)成(cheng)電路有限(xian)公(gong)司,簡稱(cheng)“兆芯”,由上(shang)(shang)海(hai)聯合投資(zi)有限(xian)公(gong)司(上(shang)(shang)海(hai)市(shi)國資(zi)委完全(quan)出資(zi))和(he)(he)中國臺灣威盛電子共同成(cheng)立,也是世界(jie)上(shang)(shang)第三家擁(yong)有X86授權(quan)的微處理器公(gong)司,總部位于上(shang)(shang)海(hai)張江(jiang),在北京、西安、武漢(han)、深圳等地設有研發中心和(he)(he)分支機(ji)構。
公司(si)同(tong)時掌握(wo)CPU、GPU、芯(xin)(xin)(xin)片組三大核心(xin)技術(shu),且具(ju)備三大核心(xin)芯(xin)(xin)(xin)片及相(xiang)關(guan)IP設計與(yu)研發(fa)的(de)能(neng)力(li),致(zhi)力(li)于通過(guo)技術(shu)創新(xin)與(yu)兼容主流的(de)發(fa)展路(lu)線,推(tui)動信息產業的(de)整體發(fa)展,并獲評了“高(gao)新(xin)技術(shu)企(qi)業資質(zhi)”。兆芯(xin)(xin)(xin)提供了桌(zhuo)面整機(ji),服務器,工業主板,工業平(ping)臺,系統級解決方案,在(zai)黨政辦公,交通,金融,能(neng)源,教(jiao)育,網絡安全方面有著廣泛的(de)應用。
2019Q2,兆芯(xin)發布了全新的用(yong)于(yu)PC的處(chu)理(li)器KX-6000系列。KX-6000是業內第一款(kuan)完(wan)整集成CPU、GPU、芯(xin)片組(zu)的SoC單芯(xin)片國產(chan)通用(yong)處(chu)理(li)器。
KX-6000系列(lie)處理器(qi)采用(yong)16納米(mi)制程,集成(cheng)高(gao)性能顯卡,支持DP/HDMI/VGA輸出(chu)(chu),兼容DirectX、OpenGL、OpenCL等主流API,最高(gao)可(ke)(ke)同(tong)時輸出(chu)(chu)3臺(tai)顯示器(qi),分(fen)辨率(lv)可(ke)(ke)達4K。
全(quan)新的(de)KX-6000系列(lie)處(chu)理器擁有(you)出色的(de)兼容性和應(ying)用體驗,包括Windows操(cao)作系統,日常辦(ban)公應(ying)用,4K視頻解碼和主流(liu)游(you)戲。
▲兆芯KX-6000系列兼容性和應用體(ti)驗
▲兆芯KX-6000處理器(qi)芯片架構?
▲兆芯(xin)KX-6000處理(li)器集成顯卡(ka)參數
兆芯(xin)KX-6000的(de)C-960 GPU在使(shi)用惠普兆芯(xin)圖(tu)形DCH驅動的(de)情況(kuang)下,Dota 2游戲性(xing)能表現遠落后(hou)英特爾酷(ku)睿(rui)i5-7400的(de)UHD 630。未來,兆芯(xin)還會對(dui)KX系列處(chu)理(li)器進(jin)行進(jin)一(yi)步(bu)的(de)更新(xin)(xin),使(shi)用全(quan)新(xin)(xin)的(de)CPU架(jia)構,將(jiang)(jiang)內存(cun)從DDR4升(sheng)級(ji)為DDR5,將(jiang)(jiang)總線從PCIe3.0升(sheng)級(ji)至PCIe4.0。內存(cun)和總線的(de)升(sheng)級(ji)分別可以(yi)提高顯卡的(de)帶寬和CPU與GPU間的(de)通訊速度(du)。
除(chu)了(le)以(yi)上集成GPU外,兆芯還計劃發(fa)布一(yi)款采用(yong)臺積電28納米工藝(yi),TDP 70瓦的獨立(li)GPU。
▲兆芯(xin)KX6000 GPU游(you)戲性能對比(bi)
▲兆芯處(chu)理器發展路線圖
5、凌久電子GPU
凌久電子創立(li)于1983年,是中國船舶重工(gong)集團公司第(di)七〇九研究所控股的高新(xin)技術(shu)企業。
凌久電子(zi)以嵌入式實時信號處(chu)理與高性能(neng)計算(suan)技術為(wei)基礎(chu),面向船舶(bo)、航空、航天、兵器等(deng)國(guo)防電子(zi)領域及軌道交通、海工裝備、能(neng)源電力、半導體制造等(deng)民用高科(ke)(ke)技領域提供(gong)芯片級(ji)、模塊級(ji)、設(she)備級(ji)、系統(tong)級(ji)等(deng)軟硬件產品;面向科(ke)(ke)研院(yuan)所、部隊及軍(jun)校提供(gong)作定制化軍(jun)事仿真服務(wu)。
凌久電(dian)子(zi)產(chan)品(pin)(pin)包括(kuo)元器件類(lei)(lei)產(chan)品(pin)(pin)、基(ji)礎(chu)硬件設備、基(ji)礎(chu)支(zhi)撐軟件、應(ying)用類(lei)(lei)產(chan)品(pin)(pin)四大類(lei)(lei)。其中國產(chan)通用GPU GP101隸屬于元器件類(lei)(lei)產(chan)品(pin)(pin)。
▲凌久電子平臺產品
▲凌(ling)久電子(zi)元器件(jian)類產品分類
▲凌久電子股權結構
GP101是由中(zhong)國(guo)船舶重(zhong)工集團第709研究所控股的凌久電子(zi)研制,具備完全自(zi)主知識產(chan)權的圖形(xing)處理器(qi)芯(xin)片(pian)。GP101支(zhi)(zhi)持(chi)2D/3D圖形(xing)加速,支(zhi)(zhi)持(chi)二維矢量圖形(xing)加速,支(zhi)(zhi)持(chi)4K分辨率、視頻解碼和硬(ying)件圖層處理等功能GP101支(zhi)(zhi)持(chi)VxWorks、Linux、Windows等通用操作系統,支(zhi)(zhi)持(chi)中(zhong)標麒麟、道等國(guo)產(chan)操作系統,支(zhi)(zhi)持(chi)龍(long)芯(xin)、飛(fei)騰、申威等國(guo)產(chan)處理器(qi)。
GP101實現(xian)了(le)我國通用3D顯卡(ka)零的突(tu)破,在信息(xi)安全(quan)和供貨(huo)能(neng)力方便有充分的保障,可以廣泛應用于(yu)軍民多個領域。
6、中船重工716研究所:JARI G12 GPU
七一(yi)六所(suo)自主(zhu)研發的(de)JARI G12是2018年性(xing)能最(zui)強的(de)國產通用圖形處(chu)理器(qi)。該處(chu)理器(qi)采用混合(he)渲染(ran)架構,兼(jian)顧數據(ju)帶寬和渲染(ran)延時需(xu)求(qiu),極大地(di)增(zeng)強了芯片(pian)的(de)靈活(huo)性(xing)和適應性(xing);
提(ti)供(gong)PCIe 3.0總(zong)線,支(zhi)(zhi)持(chi)(chi)x86處理器和(he)龍芯、飛騰、申威等國產處理器;支(zhi)(zhi)持(chi)(chi)4路數(shu)(shu)字通道(dao)和(he)1路VGA輸(shu)出,提(ti)供(gong)DP、eDP、HDMI、DVI等通用顯(xian)示介面(mian),單路數(shu)(shu)字通道(dao)最大(da)輸(shu)出分(fen)辨率為(wei)3840×2160@60fps,支(zhi)(zhi)持(chi)(chi)擴展、復制顯(xian)示和(he)“擴展+復制”顯(xian)示模式;
內建視頻(pin)編(bian)解碼(ma)硬核(he),支持2路3840×2160分辨率視頻(pin)的編(bian)碼(ma)、解碼(ma)功能(neng);
支持(chi)OpenGL 4.5和OpenGL ES 3.0,滿足高性能3D加速和VR顯示需(xu)求;
支持OpenCL 2.0,滿足并(bing)行計算(suan)(suan)和云計算(suan)(suan)的(de)使用需求;
集成張(zhang)量加速計算硬核,支(zhi)持(chi)(chi)AI計算加速。該(gai)GPU支(zhi)持(chi)(chi)Windows、Linux、VxWorks等(deng)主流(liu)操作(zuo)系統,同時支(zhi)持(chi)(chi)中標(biao)麒(qi)麟(lin)、JARI-Works、道等(deng)國內自(zi)主可控操作(zuo)系統,具備健全的生(sheng)態環境體系。
▲JARI G12架構示意圖
7、芯動科技:國產IP和芯片定制先驅
芯(xin)動(dong)科技是中國(guo)一站式IP和芯(xin)片定制(zhi)領軍企業(ye),提供(gong)全球6大(da)工藝廠(臺積電/三星/格(ge)芯(xin)/中芯(xin)國(guo)際/聯(lian)華(hua)電子/英特爾)從130nm到(dao)5納米全套(tao)高速混(hun)合電路IP核和ASIC定制(zhi)解決方案,聚焦先進制(zhi)程(cheng)。
芯(xin)動科技15年來(lai)立足本(ben)土發展,所有IP和產(chan)品全(quan)自主可控,連續十(shi)年中國市(shi)場份額(e)領先。公(gong)司客戶群(qun)涵蓋華為海思、中興(xing)通(tong)訊、瑞芯(xin)微、全(quan)志、君正、AMD、Microsoft、Amazon、Microchip、Cypress等全(quan)球知名企業(ye)。
在高性能計算/多媒體&汽車電子/IoT物聯網等領域,芯動解決方案具有國際先進水平,涵蓋DDR5/4、LPDDR5/4、GDDR6/GDDR6X、HBM2e/3、Chiplet、HDMI2.1、32G/56G SerDes(含
PCIe5/4/USB3.2/SATA/RapidIO/GMII等)、ADC/DAC、智能圖像處理器(qi)GPU和多媒體處理內核等多種技術(shu)。芯(xin)(xin)動(dong)科(ke)技的芯(xin)(xin)片定制,跨工藝跨封裝,涉及從需求到產品, 能端到端為(wei)客戶加速(su)從規(gui)格、設計到流片量(liang)產,及封裝成(cheng)型全(quan)流程。
▲芯動(dong)科技一站式IP系列(lie)
▲芯動科技(ji)高(gao)性能計算平臺(tai)IP
2020年10月13日(ri),芯動科技與Imagination達成合作。采用(yong)最前沿的多晶(jing)粒芯片(chiplet)和GDDR6高速顯存等SOC創新(xin)(xin),芯動科技將全(quan)球首(shou)發(fa)Imagination全(quan)新(xin)(xin)頂配BXT多核架構。
在信創和(he)算力安全(quan)(quan)方面(mian),“風華”系列(lie)GPU內置國產(chan)物理不可(ke)克隆(long)iUnique Security PUF信息安全(quan)(quan)加密技(ji)術,提升數(shu)據(ju)安全(quan)(quan)和(he)算力抗(kang)攻(gong)擊性,支持桌面(mian)電腦和(he)數(shu)據(ju)中心GPU計算自(zi)主可(ke)控生(sheng)態。
“風華”系(xi)列GPU自帶浮點和智(zhi)能(neng)(neng)3D圖形(xing)處理功能(neng)(neng),全定(ding)制多級流(liu)水(shui)計算(suan)內核,兼具高性能(neng)(neng)渲染和智(zhi)能(neng)(neng)AI算(suan)力,還(huan)可級聯組(zu)合多顆芯片合并(bing)處理能(neng)(neng)力,靈活性強,適配國產(chan)桌面市場(chang)(chang)1080P/4K/8K高品(pin)質顯示,支持VR/AR/AI,多路服務器云(yun)(yun)桌面、5G數據中心、云(yun)(yun)教(jiao)育(yu)、云(yun)(yun)游戲、云(yun)(yun)辦公等中國新基建(jian)5G風口下(xia)的大數據圖形(xing)應用(yong)場(chang)(chang)景(jing)。
8、華為海思:GPU Turbo
GPU Turbo是一種軟硬協(xie)同(tong)的圖形(xing)加速技術,可以減少(shao)無用(yong)渲(xuan)(xuan)染次數,優化或合并渲(xuan)(xuan)染區(qu)域。通(tong)過算(suan)法,將相(xiang)關運(yun)算(suan)放在一個或相(xiang)鄰的寄存器中(zhong),以此來優化圖形(xing)處理(li)效(xiao)率。
GPU Turbo技(ji)術(shu)打通了EMUI操作(zuo)系(xi)統以及GPU和CPU之(zhi)間的處理(li)(li)(li)瓶頸,在系(xi)統底層對傳(chuan)統的圖形處理(li)(li)(li)框架進行了重構(gou),實(shi)現了軟(ruan)硬件協同(tong),使(shi)得GPU圖形處理(li)(li)(li)整體(ti)效率得到大幅提(ti)升。
2018年6月(yue)發(fa)布(bu)了GPU Turbo 1.0,圖形處(chu)理效率提高60%,同時做到更(geng)省電,保證高畫質。
2018年9月發布了GPU Turbo 2.0,游戲場景下(xia)功耗下(xia)降可達13.6%,新增支持多(duo)款主(zhu)流(liu)游戲,同時針對(dui)支持的游戲中關鍵&極限場景(如團戰(zhan)、載具等)進行了重點打磨(mo)與優(you)化。
2019年4月(yue)GPU Turbo全新(xin)升級,不僅帶(dai)來主流游戲接近滿(man)幀運行的(de)酣暢體驗(yan),功(gong)耗的(de)持續降低也(ye)帶(dai)來了續航(hang)時間的(de)提(ti)升。累(lei)計支持60款(kuan)國內(nei)游戲。
▲GPU Turbo 2.0能效對比
9、龍芯:GPU突擊隊
中(zhong)科(ke)院計算所于(yu)2001年(nian)成立龍(long)芯課題組,開始(shi)研制龍(long)芯系列(lie)處(chu)理器(qi),得(de)到了中(zhong)科(ke)院、863、973、核高基等項目大力(li)支持(chi),完成了十(shi)年(nian)的核心(xin)技(ji)術積(ji)累。2010年(nian)4月,中(zhong)國科(ke)學院和(he)北京市共同牽頭(tou)出資(zi)入股,成立龍(long)芯中(zhong)科(ke)技(ji)術有(you)限公(gong)司(si),龍(long)芯正式從(cong)研發(fa)走(zou)向產業化。
目前,龍芯自主研(yan)發的(de)(de)GPU集(ji)成(cheng)在7A1000橋片中。龍芯7A1000橋片是面向龍芯3號處理(li)器(qi)(qi)的(de)(de)芯片組,通過HT3.0接口(kou)與處理(li)器(qi)(qi)相連,集(ji)成(cheng)GPU、顯示控制器(qi)(qi)和(he)獨立顯存接口(kou),外圍(wei)接口(kou)包(bao)括32路PCIE2.0、2路GMAC、3路SATA2.0、6路USB2.0和(he)其它低速接口(kou),可(ke)以滿足桌面和(he)服務器(qi)(qi)領域對IO接口(kou)的(de)(de)應用(yong)需求,并通過外接獨立顯卡的(de)(de)方式支持高(gao)性能圖形(xing)應用(yong)需求。
雖(sui)然龍(long)芯(xin)7A1000橋(qiao)(qiao)片的GPU性能一般,但是(shi)橋(qiao)(qiao)片作為(wei)CPU產(chan)業(ye)鏈(lian)的一環,龍(long)芯(xin)已經(jing)實(shi)現(xian)CPU、橋(qiao)(qiao)片和GPU上(shang)完(wan)全自主化(hua),打通了CPU產(chan)業(ye)鏈(lian)上(shang)每(mei)一個環節(jie)。
2020年(nian),龍芯(xin)成立(li)六支研發突(tu)擊(ji)(ji)隊(dui),分(fen)別為3A5000突(tu)擊(ji)(ji)隊(dui)、3C5000突(tu)擊(ji)(ji)隊(dui)、7A2000突(tu)擊(ji)(ji)隊(dui)、2K2000突(tu)擊(ji)(ji)隊(dui)、GPU突(tu)擊(ji)(ji)隊(dui)、PCIE突(tu)擊(ji)(ji)隊(dui)。這六支突(tu)擊(ji)(ji)隊(dui)的(de)(de)(de)目的(de)(de)(de)就(jiu)是(shi)要(yao)把2-3年(nian)的(de)(de)(de)工作,在一(yi)年(nian)內干完!
▲龍芯7A1000
▲龍(long)芯7A1000 GPU相關參數
10、芯瞳半導體:高性能GPU設計新星
芯(xin)(xin)瞳半導體成(cheng)立(li)于(yu)2019年,主要業(ye)務包括GPU芯(xin)(xin)片(pian)設(she)計(ji)、異構計(ji)算平臺(tai)方(fang)(fang)案、嵌入(ru)式顯(xian)示系統解決(jue)方(fang)(fang)案、GPU應用(yong)(yong)部署解決(jue)方(fang)(fang)案。公(gong)司著(zhu)力于(yu)研發高性能的(de)(de)GPU芯(xin)(xin)片(pian),為用(yong)(yong)戶提供以自研GPU芯(xin)(xin)片(pian)為核心的(de)(de)解決(jue)方(fang)(fang)案,致(zhi)力于(yu)打造業(ye)界領(ling)先的(de)(de)GPU芯(xin)(xin)片(pian)設(she)計(ji)平臺(tai),目標是(shi)成(cheng)為國際一流的(de)(de)GPU芯(xin)(xin)片(pian)設(she)計(ji)企業(ye)。公(gong)司創始團隊(dui)在GPU領(ling)域有著(zhu)超過10年的(de)(de)學術和工(gong)程經驗(yan),是(shi)一支軟(ruan)硬(ying)件全棧(zhan)式支持的(de)(de)研發團隊(dui)。
公(gong)司(si)的(de)GPU架(jia)構(gou)(gou)采用了業(ye)界主(zhu)流的(de)統一渲(xuan)染架(jia)構(gou)(gou),并具有高度可(ke)擴展(zhan)的(de)互(hu)聯結構(gou)(gou)和計算陣列,便于芯(xin)(xin)片(pian)后續迭代升級。經過多年的(de)積累,團(tuan)(tuan)隊構(gou)(gou)建(jian)了芯(xin)(xin)片(pian)建(jian)模虛擬平臺,通過該虛擬平臺,團(tuan)(tuan)隊可(ke)以快(kuai)速(su)地完成GPU相(xiang)關軟件的(de)研發和軟件生態的(de)部署,與此同時,在該虛擬平臺上快(kuai)速(su)地對(dui)芯(xin)(xin)片(pian)架(jia)構(gou)(gou)進行驗證,從(cong)而縮短GPU芯(xin)(xin)片(pian)的(de)設計驗證周期,提升GPU芯(xin)(xin)片(pian)的(de)設計效(xiao)能(neng)。
公(gong)司第一(yi)代(dai)(dai)GPU芯片(GenBu01)初測已(yi)成功(gong),已(yi)與統(tong)信、麒麟及昆侖(lun)完成適配,目前正在為(wei)小批(pi)量量產做最終測試。 GenBu01主要面向的(de)客(ke)戶(hu)(hu)為(wei)需要定制嵌入式(shi)計算機產品的(de)客(ke)戶(hu)(hu)以及為(wei)國產替代(dai)(dai)領域(yu)提供信創(chuang)辦公(gong)PC的(de)ODM/OEM廠(chang)商。
▲芯瞳GenBu01參數
11、天數智芯:國產GPGPU領跑者
天(tian)(tian)(tian)數(shu)智(zhi)(zhi)芯(xin)(xin)于(yu)2018年正(zheng)式啟動GPGPU芯(xin)(xin)片設計(ji)(ji)(ji)(ji),是中國(guo)第一家GPGPU高(gao)端(duan)(duan)芯(xin)(xin)片及超級算(suan)力提(ti)供商。天(tian)(tian)(tian)數(shu)智(zhi)(zhi)芯(xin)(xin)重(zhong)點(dian)打造自主(zhu)可控(kong)、國(guo)際(ji)一流(liu)的(de)通用、標準、高(gao)性(xing)(xing)(xing)能云端(duan)(duan)計(ji)(ji)(ji)(ji)算(suan)芯(xin)(xin)片GPGPU,從芯(xin)(xin)片端(duan)(duan)解決計(ji)(ji)(ji)(ji)算(suan)力問題(ti);并(bing)推出(chu)面向5G技術需求的(de)邊(bian)緣云端(duan)(duan)推理GPGPU,提(ti)供對當前進口主(zhu)流(liu)GPGPU體系的(de)無縫兼容和(he)市場化(hua)選擇。2021年1月15日,天(tian)(tian)(tian)數(shu)智(zhi)(zhi)芯(xin)(xin)成功(gong)點(dian)亮自研7納米制程GPGPU云端(duan)(duan)訓練芯(xin)(xin)片,性(xing)(xing)(xing)能達市場主(zhu)流(liu)產品的(de)兩倍。該芯(xin)(xin)片量產后將廣(guang)泛應用于(yu)AI訓練、高(gao)性(xing)(xing)(xing)能計(ji)(ji)(ji)(ji)算(suan)(HPC)等(deng)場景,服(fu)務于(yu)教(jiao)育、互聯網、金融、自動駕駛、醫(yi)療、安防等(deng)各相(xiang)關行(xing)業(ye),賦能AI智(zhi)(zhi)能社會。
天數智芯7納米GPGPU高端自研云端訓(xun)練(lian)芯片的產品優勢(shi)包括:全方位生(sheng)態兼(jian)容、高性能有(you)效算(suan)力(li)、指令集(ji)編程架構、軟硬件(jian)全棧支持、全自主知識產權。
▲天(tian)數(shu)智芯(xin)GPGPU BI芯(xin)片參數(shu)
12、壁仞科技和沐曦集成電路
壁仞科技創立于2019年,團隊由國內外芯片和云計算(suan)領域核心專業人員、研發人員組成(cheng),在GPU、DSA(專用加速器)和計算(suan)機體系結構等(deng)領域具有深厚的技術(shu)積累和獨(du)到的行業洞見。
壁仞科(ke)(ke)技致(zhi)力(li)于開發(fa)原創性(xing)的(de)通(tong)(tong)用(yong)(yong)計(ji)算體系,建立高(gao)效(xiao)的(de)軟硬件平臺,同(tong)時在智能(neng)計(ji)算領域(yu)提供(gong)一體化的(de)解(jie)決方(fang)案。從發(fa)展(zhan)路徑上,壁仞科(ke)(ke)技將首先(xian)聚(ju)焦云端通(tong)(tong)用(yong)(yong)智能(neng)計(ji)算,逐步(bu)在人(ren)工智能(neng)訓(xun)練和推理(li)、圖形渲染、高(gao)性(xing)能(neng)通(tong)(tong)用(yong)(yong)計(ji)算等多(duo)個領域(yu)趕超現有(you)解(jie)決方(fang)案,實現國產高(gao)端通(tong)(tong)用(yong)(yong)智能(neng)計(ji)算芯(xin)片(pian)的(de)突(tu)破。
沐曦集成電路專注于設計具有完全自主(zhu)知識產權,針對異構計算(suan)(suan)等各類應用(yong)(yong)(yong)的高性能(neng)通用(yong)(yong)(yong)GPU芯片。公(gong)司(si)致力于打造(zao)國內最強商用(yong)(yong)(yong)GPU芯片,產品主(zhu)要應用(yong)(yong)(yong)方向包含傳統GPU及移動應用(yong)(yong)(yong),人(ren)工智能(neng)、云(yun)計算(suan)(suan)、數據中心等高性能(neng)異構計算(suan)(suan)領域。
對于研(yan)發(fa)(fa)的(de)方向(xiang),沐曦表示(shi)將采(cai)用業(ye)界最(zui)先(xian)進的(de)5nm工藝技術,研(yan)發(fa)(fa)全兼容(rong)CUDA及(ji)(ji)(ji)ROCm生態的(de)國產(chan)高性能(neng)GPU芯片,滿足HPC、數據中心(xin)及(ji)(ji)(ji)AI等方面的(de)計算(suan)需求。GPU將采(cai)用原創專利保護的(de)可(ke)重構GPU架構,突破傳統(tong)GPU芯片能(neng)效瓶頸(jing);采(cai)用數據壓縮(suo),數據廣播以及(ji)(ji)(ji)共享(xiang)硬件加速(su)單元等先(xian)進技術,大(da)幅度優化核心(xin)算(suan)力能(neng)耗比。
▲沐曦高性能(neng)GPU研(yan)發項(xiang)目
12、登臨科技和摩爾線程
登臨(lin)科技(ji)(ji)成(cheng)(cheng)立于2017年11月,是一家專(zhuan)注于為新(xin)興計(ji)算領域提供高(gao)性能、高(gao)功效計(ji)算平臺的(de)(de)高(gao)科技(ji)(ji)企業(ye)。公(gong)司(si)的(de)(de)產(chan)品(pin)是以(yi)芯(xin)(xin)片(pian)為核心的(de)(de)系統解決方案,在所有核心IP上(shang)堅(jian)持(chi)自研路線。登臨(lin)科技(ji)(ji)已(yi)完成(cheng)(cheng)由元(yuan)禾璞華、元(yuan)生(sheng)資本聯(lian)合領投(tou)的(de)(de)A+輪融資,包括北(bei)極光(guang)在內的(de)(de)老股東持(chi)續在本輪加碼(ma)跟進。登臨(lin)科技(ji)(ji)的(de)(de)首(shou)款GPU+(軟件定(ding)義的(de)(de)片(pian)內異構(gou)通用(yong)人工智(zhi)能處(chu)理器)產(chan)品(pin)已(yi)成(cheng)(cheng)功回片(pian)通過測試,開始客(ke)戶送樣,公(gong)司(si)團隊具(ju)備(bei)架構(gou)、系統、軟件、硬件、芯(xin)(xin)片(pian)、驗證等方面的(de)(de)綜合能力。
登臨科技GoldwasserTM GPU+產(chan)品在現(xian)有市(shi)場(chang)主流(liu)的(de)GPU架(jia)構(gou)上,創新采用軟(ruan)硬件協同(tong)的(de)異構(gou)設計(ji)。GPU+異構(gou)設計(ji)讓產(chan)品在對客(ke)戶實際(ji)業務繼承在現(xian)有生態(tai)上的(de)投入(ru)、在保證極(ji)高兼容性(xing)的(de)同(tong)時,相比傳(chuan)統GPU在AI計(ji)算上性(xing)能和能效(xiao)均有明顯提升,大大降低了外部帶寬的(de)需(xu)求,顯著降低客(ke)戶總擁有成本。
摩爾線(xian)程創立于(yu)2020年10月(yue),去年12月(yue)獲(huo)(huo)得(de)天使輪(lun)(lun)融資(zi)(zi),今年2月(yue)22日獲(huo)(huo)得(de)Pre-A輪(lun)(lun)融資(zi)(zi)。摩爾線(xian)程致力于(yu)構建中國視覺計(ji)算和人工(gong)智能領域(yu)計(ji)算平臺,研發全球領先(xian)的自(zi)主創新GPU知識產(chan)權,其GPU產(chan)品線(xian)覆蓋通用圖形計(ji)算和高性能計(ji)算。公司核心成員(yuan)主要(yao)來自(zi)英偉達、微軟、英特(te)爾、AMD、ARM等,覆蓋GPU研發設計(ji)、生產(chan)制造、市場(chang)銷售(shou)、服務(wu)支持等完整架構。
13、國產GPU新星:翰博半導體
翰博半導體(ti)成立(li)于2018年12月,立(li)志于發展成為(wei)國(guo)際頂尖(jian)的(de)芯片公司,立(li)足于中(zhong)國(guo)市(shi)(shi)場(chang),填補國(guo)內市(shi)(shi)場(chang)國(guo)產芯片的(de)空(kong)白(bai),為(wei)智(zhi)能應用提供高(gao)效算(suan)力,為(wei)人工智(zhi)能創新(xin)以及(ji)應用落地賦能。
翰博半導體擁有(you)國內外專家組成的(de)(de)團隊。公司核心員工(gong)來自世界頂級的(de)(de)高科(ke)技公司,平(ping)均(jun)擁有(you)15年以上的(de)(de)相關芯片(pian),軟件設計經驗。
瀚(han)博的(de)產品注重計算機視覺及視頻處理(li)的(de)優化,提供豐(feng)富(fu)的(de)特性,高效的(de)性能/功耗;適用多個人工智能領域(yu)。產品覆蓋從邊到(dao)云,SOC及服務(wu)器市場(chang)。
翰博半導(dao)體CEO—錢(qian)軍擁有25年以上(shang)高(gao)端(duan)芯(xin)片(pian)(pian)設(she)計(ji)經驗和(he)(he)(he)40多款芯(xin)片(pian)(pian)設(she)計(ji)和(he)(he)(he)量產(chan)的經驗,帶隊(dui)設(she)計(ji)量產(chan)業界第(di)一顆7納米圖(tu)像處理器(qi)(qi)和(he)(he)(he)AI服(fu)務(wu)器(qi)(qi)芯(xin)片(pian)(pian),曾任(ren)AMD高(gao)管Senior Director,直接負責設(she)計(ji)團隊(dui)超過800人,全面負責GPU( 圖(tu)像處理器(qi)(qi)和(he)(he)(he)AI服(fu)務(wu)器(qi)(qi))芯(xin)片(pian)(pian)設(she)計(ji)和(he)(he)(he)生產(chan),現在市場(chang)上(shang)所有AMD Radeon圖(tu)像處理器(qi)(qi)和(he)(he)(he)AI服(fu)務(wu)器(qi)(qi)都是由其帶隊(dui)開發,包括多個(ge)系(xi)列DGPU和(he)(he)(he)MI系(xi)列產(chan)品。
14、國產GPU新星:燧原科技
燧(sui)原科技成(cheng)立于(yu)2018年3月,專注于(yu)人(ren)工(gong)智(zhi)能領域云端算力平臺,致力為人(ren)工(gong)智(zhi)能產業發(fa)展提供(gong)普惠的基礎設施解決方案,提供(gong)自主知識產權的高算力、高能效比、可編(bian)程的通用人(ren)工(gong)智(zhi)能訓練和推理產品(pin)。
燧(sui)(sui)原科(ke)技的產品技術由訓練、推理、軟(ruan)件(jian)(jian)平(ping)臺構成。其中,訓練業(ye)務包含(han)加速(su)卡 “云(yun)(yun)燧(sui)(sui)T10” 和“云(yun)(yun)燧(sui)(sui)T11”;推理業(ye)務包含(han)加速(su)卡 “云(yun)(yun)燧(sui)(sui)i10”;軟(ruan)件(jian)(jian)平(ping)臺包含(han)“馭算”。
“云燧”系列(lie)加速(su)卡采用自研DTU架構,支持(chi)ESL高速(su)互聯(lian)和(he)開放生(sheng)態(tai)。 “云燧”芯片(pian)采用格羅方德的12nm FinFET工藝,結合 2.5D先進封裝(zhuang),擁有141億晶體管和(he)16GB HBM2顯存,在FP32的算力和(he)能效比方面領先GPU。
計(ji)算及編程平臺“馭(yu)算”,由燧(sui)原自(zi)主研發,支持(chi)主流深度學習(xi)框架,并針對(dui)邃思芯片進行(xing)了針對(dui)性(xing)優化。
智東西認為,GPU設計(ji)(ji)之初是為了圖像處理,但是隨著技術的不斷(duan)迭代升級,GPU的功能已(yi)(yi)經不僅限于“畫圖”,憑借(jie)在(zai)并行處理和通(tong)用計(ji)(ji)算的優勢,GPU在(zai)服(fu)務器、汽車(che)、人工智能、邊緣計(ji)(ji)算等領域已(yi)(yi)經開始大放異彩(cai)。現階(jie)段(duan),雖(sui)然(ran)國產GPU與英偉達、AMD等世界巨頭差距明顯,但在(zai)一些(xie)空白的細(xi)分(fen)領域或許有很(hen)大的“彎道超車(che)”空間。