GPU是(shi)Graphics Processing Unit（圖形處(chu)(chu)理(li)器(qi)(qi)(qi)）的(de)簡稱，它是(shi)一種(zhong)專(zhuan)門在個(ge)人電(dian)腦(nao)、工作站、游戲機(ji)和一些移動設備（如平板(ban)電(dian)腦(nao)、智(zhi)能手(shou)機(ji)等）上(shang)運(yun)(yun)行繪(hui)圖運(yun)(yun)算(suan)工作的(de)微(wei)處(chu)(chu)理(li)器(qi)(qi)(qi)。圖形處(chu)(chu)理(li)器(qi)(qi)(qi)是(shi)NVIDIA公司(si)（NVIDIA）在1999年(nian)8月發表NVIDIA GeForce 256（GeForce 256）繪(hui)圖處(chu)(chu)理(li)芯片時首(shou)先提出的(de)概念，在此(ci)之前，電(dian)腦(nao)中(zhong)處(chu)(chu)理(li)影(ying)像輸出的(de)顯(xian)示芯片，通常很少(shao)被視為是(shi)一個(ge)獨立的(de)運(yun)(yun)算(suan)單元(yuan)。而對(dui)手(shou)冶天(tian)科技（ATi）亦(yi)提出視覺處(chu)(chu)理(li)器(qi)(qi)(qi)（Visual Processing Unit）概念。圖形處(chu)(chu)理(li)器(qi)(qi)(qi)使顯(xian)卡(ka)減少(shao)對(dui)中(zhong)央處(chu)(chu)理(li)器(qi)(qi)(qi)（CPU）的(de)依賴，并分(fen)擔(dan)部分(fen)原本是(shi)由中(zhong)央處(chu)(chu)理(li)器(qi)(qi)(qi)所擔(dan)當的(de)工作，尤其是(shi)在進行三維繪(hui)圖運(yun)(yun)算(suan)時，功效(xiao)更加明顯(xian)。圖形處(chu)(chu)理(li)器(qi)(qi)(qi)所采用的(de)核(he)心技術(shu)有硬件(jian)坐標轉換與(yu)光源、立體環境材質貼圖和頂(ding)點混合(he)、紋理(li)壓縮和凹凸(tu)映(ying)射貼圖、雙重紋理(li)四像素256位渲染引擎等。

圖形處(chu)理(li)器(qi)(qi)可單(dan)獨(du)與專用電路板以(yi)及附(fu)屬(shu)組(zu)件組(zu)成顯(xian)(xian)卡(ka)，或(huo)單(dan)獨(du)一片(pian)芯(xin)(xin)片(pian)直接內(nei)(nei)嵌入到主板上(shang)(shang)，或(huo)者(zhe)內(nei)(nei)置(zhi)于(yu)主板的(de)(de)北橋芯(xin)(xin)片(pian)中，現在也(ye)有(you)內(nei)(nei)置(zhi)于(yu)CPU上(shang)(shang)組(zu)成SoC的(de)(de)。個(ge)(ge)人電腦領(ling)(ling)域中，在2007年(nian)(nian)，90%以(yi)上(shang)(shang)的(de)(de)新型臺式機和(he)筆記本電腦擁有(you)嵌入式繪圖芯(xin)(xin)片(pian)，但是在性能上(shang)(shang)往(wang)往(wang)低(di)于(yu)不少獨(du)立顯(xian)(xian)卡(ka)。但2009年(nian)(nian)以(yi)后，AMD和(he)英特爾都各(ge)自(zi)大(da)(da)力發展內(nei)(nei)置(zhi)于(yu)中央(yang)處(chu)理(li)器(qi)(qi)內(nei)(nei)的(de)(de)高(gao)性能集成式圖形處(chu)理(li)核心(xin)，它們(men)的(de)(de)性能在2012年(nian)(nian)時已(yi)經勝于(yu)那些低(di)端獨(du)立顯(xian)(xian)卡(ka)，這(zhe)使得不少低(di)端的(de)(de)獨(du)立顯(xian)(xian)卡(ka)逐(zhu)漸失去市場需求，兩(liang)大(da)(da)個(ge)(ge)人電腦圖形處(chu)理(li)器(qi)(qi)研發巨頭中，AMD以(yi)AMD APU產品線取(qu)代旗下大(da)(da)部分的(de)(de)低(di)端獨(du)立顯(xian)(xian)示核心(xin)產品線。而在手持設(she)備領(ling)(ling)域上(shang)(shang)，隨著一些如(ru)平板電腦等設(she)備對(dui)圖形處(chu)理(li)能力的(de)(de)需求越來越高(gao)，不少廠商像是高(gao)通(tong)（Qualcomm）、Imagination、ARM、NVIDIA等，也(ye)在這(zhe)個(ge)(ge)領(ling)(ling)域“大(da)(da)顯(xian)(xian)身手”。

GPU不同于傳統(tong)的(de)CPU，如Intel i5或i7處(chu)理器(qi)，其(qi)內核(he)(he)數(shu)量較少，專為通用(yong)計算而(er)設計。相反，GPU是一種特(te)殊類(lei)型的(de)處(chu)理器(qi)，具有數(shu)百(bai)或數(shu)千個內核(he)(he)，經過優化(hua)，可并行運行大量計算。雖(sui)然GPU在游戲中以3D渲染而(er)聞名(ming)，但它們(men)對運行分(fen)析、深度學(xue)習和機器(qi)學(xue)習算法尤其(qi)有用(yong)。GPU允許某些計算比(bi)傳統(tong)CPU上運行相同的(de)計算速度快10倍至100倍。

本(ben)期(qi)的(de)(de)(de)智能內參，我們(men)推(tui)薦方正證券的(de)(de)(de)報告《GPU研究框架》，從GPU的(de)(de)(de)底層技術、產(chan)(chan)業(ye)鏈發展情況(kuang)和國(guo)產(chan)(chan)GPU的(de)(de)(de)自主之路(lu)三方面全面解析GPU及其(qi)產(chan)(chan)業(ye)。

本期內(nei)參來源(yuan)：方正(zheng)證(zheng)券

原標題：

《GPU研究框架》

作者：陳杭等

一、GPU：專用計算時代的“畫師”

GPU（graphics processing unit）圖(tu)(tu)形處理(li)器(qi)，又稱顯(xian)(xian)示核(he)心、視覺處理(li)器(qi)、顯(xian)(xian)示芯片，是(shi)一種在個人(ren)電腦、工作(zuo)站、游戲(xi)機(ji)和一些(xie)移動設(she)備（如(ru)平板電腦、智能手機(ji)等(deng)）上做(zuo)圖(tu)(tu)像和圖(tu)(tu)形相(xiang)關運算工作(zuo)的(de)微處理(li)器(qi)。GPU通常包(bao)括圖(tu)(tu)形顯(xian)(xian)存控制器(qi)、壓縮單(dan)元、BIOS、圖(tu)(tu)形和計(ji)算整(zheng)列、總線接口(kou)、電源(yuan)管理(li)單(dan)元、視頻(pin)管理(li)單(dan)元、顯(xian)(xian)示界面。GPU的(de)出現(xian)使計(ji)算機(ji)減少了(le)對CPU的(de)依(yi)賴，并解放(fang)了(le)部分(fen)原本CPU的(de)工作(zuo)。在3D圖(tu)(tu)形處理(li)時，GPU采用的(de)核(he)心技術有硬件(jian)T&L（幾何(he)轉換(huan)和光照處理(li)）、立方環境材質貼圖(tu)(tu)和頂點混(hun)合、紋理(li)壓縮和凹凸映射貼圖(tu)(tu)、雙(shuang)重(zhong)紋理(li)四(si)像素256位渲染(ran)引擎(qing)等(deng)，而硬件(jian)T&L技術可以說是(shi)GPU的(de)標(biao)志(zhi)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU的(de)內部組成部分

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU核(he)心及PCB板

GPU的微架構（Micro Architecture）是一種給定的指令集和圖形函數集合在處理器中執行的方法。圖(tu)形函數主要用(yong)于繪制各種圖(tu)形所(suo)需要的運算(suan)。當前(qian)和(he)(he)像素、光影處理、3D坐標變換等相(xiang)(xiang)關運算(suan)由GPU硬件加速來實(shi)現(xian)。相(xiang)(xiang)同的指令集(ji)和(he)(he)圖(tu)形函數集(ji)合可以在不(bu)同的微(wei)(wei)架構中執行，但實(shi)施的目的和(he)(he)效(xiao)果可能不(bu)同。優秀(xiu)的微(wei)(wei)架構對GPU性能和(he)(he)效(xiao)能的提升發(fa)揮著(zhu)至關重要的作(zuo)用(yong)，GPU體系是GPU微(wei)(wei)架構和(he)(he)圖(tu)形API的集(ji)合。

以目前最新的(de)英偉達安培微(wei)架構為例(li)，GPU微(wei)架構的(de)運算(suan)部份由流處理(li)器(Stream Processor，SP)、紋理(li)單(dan)元(yuan)（Texture mapping unit, TMU)、張量(liang)單(dan)元(yuan)（Tensor Core）、光線(xian)追蹤單(dan)元(yuan)（RT Cores）、光柵(zha)化處理(li)單(dan)元(yuan)（ROPs）組成。這(zhe)些運算(suan)單(dan)元(yuan)中，張量(liang)單(dan)元(yuan)，光線(xian)追蹤單(dan)元(yuan)由NVIDIA在伏特/圖(tu)靈微(wei)架構引入。

除了(le)上述運(yun)算單(dan)元(yuan)外，GPU的微架構(gou)還(huan)包含L0/L1操(cao)作緩(huan)存、Warp調(diao)度器、分配單(dan)元(yuan)（Dispatch Unit）、寄存器堆（register file）、特殊功能(neng)單(dan)元(yuan)（Special function unit，SFU）、存取單(dan)元(yuan)、顯卡互聯單(dan)元(yuan)（NV Link)、PCIe總(zong)線接(jie)口、L2緩(huan)存、二代高(gao)位寬顯存（HBM2）等(deng)接(jie)口。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達安培內核概覽

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達安培內核“SM”單(dan)元

GPU的(de)流處理器(qi)單(dan)元(yuan)(yuan)(yuan)(yuan)是NVIDIA對其統一架構GPU內通用標量(liang)著(zhu)色器(qi)的(de)命名。SP單(dan)元(yuan)(yuan)(yuan)(yuan)是全(quan)(quan)新的(de)全(quan)(quan)能(neng)渲(xuan)染單(dan)元(yuan)(yuan)(yuan)(yuan)，是繼(ji)Pixel Pipelines（像(xiang)素管線(xian)）和Vertex Pipelines（頂點管線(xian)）之(zhi)后新一代的(de)顯(xian)卡渲(xuan)染技術指標。SP單(dan)元(yuan)(yuan)(yuan)(yuan)既可以完成VS（Vertex Shader，頂點著(zhu)色器(qi)）運算，也可以完成PS（Pixel Shader，像(xiang)素著(zhu)色器(qi)）運算，而且可以根據需要組成任意VS/PS比例，從(cong)而給開發(fa)者更(geng)廣(guang)闊的(de)發(fa)揮空間。

流(liu)處理器單(dan)元(yuan)首次出現于DirectX 10時代(dai)的G80核心的Nvidia GeForce 8800GTX顯卡，是顯卡發展史上(shang)一次重(zhong)大的革新。之后AMD/ATI的顯卡也引入了這(zhe)一概(gai)念，但是流(liu)處理器在(zai)橫向和縱向都不(bu)可類比(bi)，大量的流(liu)處理器是GPU性能強勁(jing)的必要非充分條件。

紋理(li)映射單(dan)元（TMU）作為GPU的部(bu)件，它能夠對二進制圖(tu)像旋轉、縮放、扭曲，然后將其作為紋理(li)放置到給定3D模(mo)型的任意平(ping)面，這個過(guo)程稱為紋理(li)映射。紋理(li)映射單(dan)元不可簡單(dan)跨平(ping)臺(tai)橫向比(bi)較，大量的紋理(li)映射單(dan)元是GPU性能強勁的必要(yao)非(fei)充分條件。

光(guang)柵化處理單(dan)(dan)元（ROPs）主要負責游戲中的光(guang)線和反(fan)射運算(suan)，兼顧AA、高分辨率、煙霧、火焰等效果。游戲里的抗鋸齒和光(guang)影效果越厲害，對ROPs的性能要求就越高，否則可能導致(zhi)幀數的急劇下(xia)降。NVIDIA的ROPs單(dan)(dan)元是和流處理器進(jin)行捆綁(bang)的，二者(zhe)同比例(li)增減。在AMD GPU中，ROPs單(dan)(dan)元和流處理器單(dan)(dan)元沒有直接捆綁(bang)關(guan)系。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達(da)安培(pei)內核(he)SP、ROPs、TMU拆解

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉(wei)達RTX 3080 GPU-Z參數

消費GPU的實(shi)時光(guang)線追蹤在2018年由英偉(wei)達的“圖(tu)靈”GPU首次(ci)引入，光(guang)追單(dan)元（RT Cores）在此過程中發揮著決定(ding)性的作用。圖(tu)靈GPU的光(guang)追單(dan)元支持邊界體積層次(ci)加速(su)，實(shi)時陰(yin)影(ying)、環(huan)境光(guang)、照明和(he)(he)反射，光(guang)追單(dan)元和(he)(he)光(guang)柵單(dan)元可以(yi)協同工作，進一步(bu)提高幀數和(he)(he)陰(yin)影(ying)的真實(shi)感。

光追(zhui)(zhui)單元(yuan)在英(ying)偉達的RTX光線追(zhui)(zhui)蹤技(ji)術、微軟(ruan)DXR API、英(ying)偉達Optix API和Vulkan光追(zhui)(zhui)API的支持(chi)下(xia)可以充分發揮性能(neng)。擁有68個(ge)光追(zhui)(zhui)單元(yuan)的RTX2080Ti在光線處(chu)理(li)性能(neng)上較無光追(zhui)(zhui)單元(yuan)的GTX1080Ti強10倍。

張量單元(yuan)（Tensor Core）在(zai)2017年由英偉達的(de)“伏特”GPU中被首次引(yin)入。張量單元(yuan)主要用于實時深度(du)學習(xi)，服務(wu)于人工智能，大(da)型(xing)矩陣運算和深度(du)學習(xi)超級(ji)采樣（DLSS），可以帶來驚人的(de)游戲和專(zhuan)業圖像顯示，同時提(ti)供基于云系統的(de)快(kuai)速(su)人工智能。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英(ying)偉(wei)達RTX2080Ti張(zhang)量(liang)單元算力

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉(wei)達圖靈GPU光追單元運作流程(cheng)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達圖靈GPU張量(liang)單元提供多(duo)精度AI

GPU的API（Application Programming Interface）應用(yong)程序接(jie)口(kou)發(fa)揮(hui)著連接(jie)應用(yong)程序和(he)顯卡(ka)驅動的橋梁作用(yong)。不過隨著系(xi)統優化的深入(ru)，API也可以直接(jie)統籌管理高級語言、顯卡(ka)驅動和(he)底層(ceng)匯(hui)編語言。

3D API能(neng)夠讓編(bian)(bian)程人員(yuan)所(suo)設計(ji)的(de)3D軟(ruan)件(jian)只需調(diao)動其API內的(de)程序，讓API自動和硬件(jian)的(de)驅動程序溝通，啟動3D芯片內強大的(de)3D圖形處理(li)功能(neng)，從而(er)大幅地提高3D程序的(de)設計(ji)效率。同(tong)樣的(de)，GPU廠家也(ye)可以根據API標準來(lai)設計(ji)GPU芯片，以達(da)到在API調(diao)用硬件(jian)資源時的(de)最(zui)優化，獲得更好的(de)性(xing)能(neng)。3D API可以實現不同(tong)廠家的(de)硬件(jian)、軟(ruan)件(jian)最(zui)大范圍兼容。如(ru)果沒有API，那么開(kai)發人員(yuan)必須對(dui)不同(tong)的(de)硬件(jian)進行(xing)一對(dui)一的(de)編(bian)(bian)碼(ma)，這樣會帶來(lai)大量(liang)的(de)軟(ruan)件(jian)適配問題和編(bian)(bian)碼(ma)成本(ben)。

目(mu)前GPU API可以分為2大陣(zhen)營和若干(gan)其他類(lei)。2大陣(zhen)營分別是微軟(ruan)的DirectX標(biao)準和KhronosGroup標(biao)準，其他類(lei)包括(kuo)蘋(pin)果(guo)的Metal API、AMD的Mantle（地幔）API、英特爾的One API等。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲微(wei)軟DirectX和Khronos Group API組(zu)合對比(bi)

DirectX是Direct eXtension的(de)(de)簡稱，作為(wei)一種API，是由微軟(ruan)公司創建的(de)(de)多媒體編程(cheng)接口。DirectX可以讓以Windows為(wei)平臺的(de)(de)游(you)戲或多媒體程(cheng)序(xu)獲得更高的(de)(de)執行效率，加強3D圖形和聲音效果，并提供設計人員一個共同的(de)(de)硬件驅動(dong)標準，讓游(you)戲開發(fa)者不必(bi)為(wei)每一品牌的(de)(de)硬件來寫不同的(de)(de)驅動(dong)程(cheng)序(xu)，也降低用戶安裝及(ji)設置硬件的(de)(de)復雜度。DirectX已被(bei)廣泛使用于Windows操作系統和Xbox主機(ji)的(de)(de)電子游(you)戲開發(fa)。

OpenGL是Open Graphics Library的簡稱(cheng)，是用(yong)于渲染2D、3D矢量圖形(xing)的跨語言(yan)、跨平(ping)臺的應用(yong)程(cheng)序(xu)編程(cheng)接(jie)口(kou)（API），相比DirectX更加開(kai)放。這(zhe)個(ge)接(jie)口(kou)由近350個(ge)不同的函數調用(yong)組成，用(yong)來繪制從(cong)簡單的二維圖形(xing)到復(fu)雜(za)的三(san)維景象。OpenGL常用(yong)于CAD、虛(xu)擬現實、科學可視化程(cheng)序(xu)和電子游戲開(kai)發。

正是由(you)于OpenGL的開放，所以(yi)它可以(yi)被(bei)運(yun)行在Windows、MacOS、Linux、安卓(zhuo)、iOS等(deng)多個操作系(xi)統(tong)上，學習門檻也(ye)比DirectX更低。但是，效率(lv)低是OpenGL的主(zhu)要缺點。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲DirectX和OpenGL特點對比

Metal是Apple在(zai)(zai)2014年創(chuang)建的(de)(de)接近(jin)底(di)層的(de)(de)，低開銷的(de)(de)硬(ying)件加速3D圖形(xing)和計算著色(se)器(qi)API。Metal在(zai)(zai)iOS 8中首次亮(liang)相。Metal在(zai)(zai)一(yi)個API中結合了(le)類似于OpenGL和OpenCL的(de)(de)功(gong)能。它旨在(zai)(zai)通過為iOS，iPadOS，macOS和tvOS上的(de)(de)應(ying)用程序提(ti)供對GPU硬(ying)件的(de)(de)底(di)層訪問來提(ti)高性能。相較于OpenGL ES，Metal減(jian)少了(le)10倍(bei)的(de)(de)代(dai)碼擁擠(ji)，提(ti)供了(le)更好(hao)的(de)(de)解(jie)決方案，并將會在(zai)(zai)蘋果設備中取(qu)代(dai)OpenGL。Metal也(ye)支持英特(te)爾HD和IRIS系列GPU、AMD的(de)(de)GCN和RDNA GPU、NVIDIA GPU。Metal也(ye)是可以使用Swift或Objective-C編程語(yu)言調(diao)用的(de)(de)面向對象(xiang)的(de)(de)API。GPU的(de)(de)全部操作是通過Metal著色(se)語(yu)言控(kong)制的(de)(de)。

2017年，蘋(pin)果(guo)推出了Metal的(de)升級版Metal2，兼容(rong)前(qian)代Metal硬件，支持(chi)iOS11，MacOS和tvOS11。Metal2可以(yi)在Xcode中更有(you)效地(di)進行配置和調試，加(jia)快機器(qi)學習速度，降低CPU工作量，在MacOS上支持(chi)VR，充分發揮A11 GPU的(de)特(te)性。

Vulkan是一種低開銷，跨平臺的(de)3D圖像(xiang)和計(ji)算API。Vulkan面(mian)向(xiang)跨所(suo)有平臺的(de)高(gao)性(xing)能實(shi)時3D圖形應用(yong)程序，如(ru)視頻游戲和交互式媒體。與OpenGL，Direct3D 11和Metal相比，Vulkan旨(zhi)在(zai)提供(gong)更(geng)高(gao)的(de)性(xing)能和更(geng)平衡的(de)CPU/GPU用(yong)法。除了較低的(de)CPU使(shi)用(yong)外，Vulkan還旨(zhi)在(zai)使(shi)開發人(ren)員更(geng)好地在(zai)多(duo)核CPU中(zhong)分配工作。

Vulkan源(yuan)自(zi)并基(ji)于AMD的(de)Mantle API組(zu)件(jian)，最(zui)初的(de)版本被(bei)稱為OpenGL的(de)下一代。最(zui)新的(de)Vulkan1.2發布(bu)于2020年1月15日，該版本整合了23個額(e)外經常被(bei)使用(yong)的(de)Vulkan拓展。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲Metal與OpenGL性(xing)能對比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲OpenGL和Vulkan對比

軟件生(sheng)態方面，GPU無法單(dan)獨工(gong)作(zuo)，必須由CPU進行(xing)控制調(diao)(diao)用才(cai)能工(gong)作(zuo)，而CPU在(zai)處理大量類型一致(zhi)的(de)數據時，則可調(diao)(diao)用GPU進行(xing)并行(xing)計算。所(suo)以，GPU的(de)生(sheng)態和CPU的(de)生(sheng)態是高(gao)度相關的(de)。

近(jin)年來(lai)，在(zai)摩爾定律演進的(de)放緩和(he)GPU在(zai)通用(yong)計算(suan)(suan)領(ling)域的(de)高速發展的(de)此消彼長之下，通用(yong)圖形處理(li)器（GPGPU）逐(zhu)漸“反(fan)客為主”，利用(yong)GPU來(lai)計算(suan)(suan)原本由(you)CPU處理(li)的(de)通用(yong)計算(suan)(suan)任(ren)務(wu)。

目前，各個(ge)GPU廠商的(de)(de)(de)(de)GPGPU的(de)(de)(de)(de)實現(xian)方法不盡相同，如NVIDIA使用的(de)(de)(de)(de)CUDA（compute unified device architecture）技(ji)術(shu)(shu)、原ATI的(de)(de)(de)(de)ATI Stream技(ji)術(shu)(shu)、Open CL聯盟(meng)、微軟的(de)(de)(de)(de)DirectCompute技(ji)術(shu)(shu)。這些(xie)技(ji)術(shu)(shu)可(ke)以讓GPU在媒體編碼(ma)加(jia)速、視頻補幀與畫面優化、人工智能與深度(du)學習、科(ke)研領域、超級計(ji)算機等方面發揮異構加(jia)速的(de)(de)(de)(de)優勢。以上4種技(ji)術(shu)(shu)中(zhong)，只有OpenCL支持跨平臺和開放(fang)標注的(de)(de)(de)(de)特性(xing)，還可(ke)以使用專門(men)的(de)(de)(de)(de)可(ke)編程電路來加(jia)速計(ji)算，業界支持非常廣泛(fan)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲DirectX和OpenGL生態對比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲OpenCL聯盟生態

GPU根(gen)據接(jie)(jie)入方(fang)式可以劃分為獨(du)立(li)(li)(li)(li)GPU和(he)集(ji)成GPU。獨(du)立(li)(li)(li)(li)GPU一(yi)般(ban)(ban)封裝(zhuang)在獨(du)立(li)(li)(li)(li)的(de)顯(xian)卡電路板上(shang)，擁(yong)有(you)獨(du)立(li)(li)(li)(li)顯(xian)存，而集(ji)成GPU常和(he)CPU共(gong)用一(yi)個(ge)Die，共(gong)享(xiang)系統內(nei)存。GPU根(gen)據接(jie)(jie)入方(fang)式可以劃分為獨(du)立(li)(li)(li)(li)GPU和(he)集(ji)成GPU。獨(du)立(li)(li)(li)(li)GPU一(yi)般(ban)(ban)封裝(zhuang)在獨(du)立(li)(li)(li)(li)的(de)顯(xian)卡電路板上(shang)，擁(yong)有(you)獨(du)立(li)(li)(li)(li)顯(xian)存，而集(ji)成GPU常和(he)CPU共(gong)用一(yi)個(ge)Die，共(gong)享(xiang)系統內(nei)存。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU的主要分類

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲獨(du)立GPU

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲集成GPU Die

GPU顯存(cun)是用(yong)來存(cun)儲顯卡芯(xin)片處理過或者即將提取的(de)渲(xuan)染數據，是GPU正常運作(zuo)不可或缺(que)的(de)核心部件之一(yi)。GPU的(de)顯存(cun)可以分(fen)為獨立顯存(cun)和集(ji)成顯存(cun)兩(liang)種。目(mu)前，獨立顯存(cun)主要采(cai)(cai)用(yong)GDDR3、GDDR5、GDDR5X、GDDR6，而集(ji)成顯存(cun)主要采(cai)(cai)用(yong)DDR3、DDR4。服務器GPU偏(pian)好使用(yong)Chiplet形式(shi)的(de)HBM顯存(cun)，最大(da)化吞吐量(liang)。

集(ji)成(cheng)顯(xian)(xian)存受(shou)制于(yu)64位操作系統的限制，即便組成(cheng)2通道甚至(zhi)4通道，與(yu)獨(du)(du)立顯(xian)(xian)存的帶寬仍有相(xiang)當差距。通常這也造成(cheng)了獨(du)(du)立GPU的性能(neng)強于(yu)集(ji)成(cheng)GPU。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲顯存的主要分類

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲獨立顯存的工作方式

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲獨(du)立顯存的工(gong)作(zuo)方式

集成(cheng)(cheng)顯(xian)卡(ka)是指一(yi)般不帶顯(xian)存(cun)(cun)(cun)(cun)，而(er)是使用(yong)系統的(de)一(yi)部分(fen)主(zhu)內(nei)存(cun)(cun)(cun)(cun)作為顯(xian)存(cun)(cun)(cun)(cun)的(de)顯(xian)卡(ka)。集成(cheng)(cheng)顯(xian)卡(ka)可以(yi)被(bei)整(zheng)合進主(zhu)板(ban)作為北(bei)橋芯片(pian)的(de)一(yi)部分(fen)，也(ye)可以(yi)和CPU集成(cheng)(cheng)在同一(yi)個Die中。集成(cheng)(cheng)顯(xian)卡(ka)的(de)顯(xian)存(cun)(cun)(cun)(cun)一(yi)般根據系統軟件和應用(yong)軟件的(de)需(xu)求(qiu)自動(dong)調整(zheng)。如果顯(xian)卡(ka)運行(xing)需(xu)要占用(yong)大量內(nei)存(cun)(cun)(cun)(cun)空間，那么整(zheng)個系統運行(xing)會受限，此(ci)外系統內(nei)存(cun)(cun)(cun)(cun)的(de)頻率通常(chang)比獨(du)立(li)顯(xian)卡(ka)的(de)顯(xian)存(cun)(cun)(cun)(cun)低很(hen)多，因此(ci)集成(cheng)(cheng)顯(xian)卡(ka)的(de)性能比獨(du)立(li)顯(xian)卡(ka)要遜色一(yi)些。

獨(du)(du)(du)立(li)顯(xian)卡是將顯(xian)示芯片及相關器件制作(zuo)成一個獨(du)(du)(du)立(li)于電(dian)腦主板(ban)的(de)(de)板(ban)卡，成為專業的(de)(de)圖像處(chu)理(li)硬件設備(bei)。獨(du)(du)(du)立(li)顯(xian)卡因為具備(bei)高(gao)(gao)位寬(kuan)、高(gao)(gao)頻獨(du)(du)(du)立(li)顯(xian)存和更多的(de)(de)處(chu)理(li)單元，性(xing)(xing)能遠比集成顯(xian)卡優越，不僅(jin)可用于一般性(xing)(xing)的(de)(de)工作(zuo)，還(huan)具有完善的(de)(de)2D效果和很強(qiang)的(de)(de)3D水平，因此常(chang)應用于高(gao)(gao)性(xing)(xing)能臺式機和筆(bi)記本電(dian)腦，主要的(de)(de)接口(kou)為PCIe。

如今，獨立顯卡(ka)與集成顯卡(ka)已經(jing)不是2個完(wan)全割裂，各自為(wei)營的圖像(xiang)處理(li)單元了。二者在微軟DX12的支持下也可(ke)以(yi)實現獨核(he)顯交(jiao)(jiao)火，同時AMD和NVIDIA的顯卡(ka)也可(ke)實現混合交(jiao)(jiao)火。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲集成顯卡和獨立顯卡對比

GPU對比CPU：從芯片設計思路看(kan)，CPU是(shi)(shi)以低延遲為(wei)導(dao)向的計算單(dan)元(yuan)，通常由專(zhuan)為(wei)串行處理而優化的幾個(ge)核心(xin)組成(cheng)，而GPU是(shi)(shi)以吞吐(tu)量為(wei)導(dao)向的計算單(dan)元(yuan)，由數以千(qian)計的更(geng)小(xiao)、更(geng)高效的核心(xin)組成(cheng)，專(zhuan)為(wei)并行多任務設計。

CPU和GPU設計思路的不同導(dao)致微架構的不同。CPU的緩存大于GPU，但在線程(cheng)數(shu)，寄存器數(shu)和SIMD（單指令(ling)多(duo)數(shu)據流）方面GPU遠(yuan)強于CPU。

微架構的(de)不同最(zui)終導致CPU中大(da)部(bu)(bu)分的(de)晶(jing)體(ti)管用于(yu)構建控制電路和緩存(cun)(cun)，只(zhi)有少(shao)部(bu)(bu)分的(de)晶(jing)體(ti)管完成實際的(de)運算工作，功能(neng)模塊很多(duo)，擅長分支預測等復雜操作。GPU的(de)流處(chu)理器和顯存(cun)(cun)控制器占據了絕大(da)部(bu)(bu)分晶(jing)體(ti)管，而控制器相對簡單(dan)，擅長對大(da)量(liang)數(shu)據進行簡單(dan)操作，擁有遠勝于(yu)CPU的(de)強大(da)浮(fu)點(dian)計算能(neng)力。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU和CPU的核(he)心設計思路對比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU和CPU的(de)核心對比

后摩爾時代，隨著GPU的可編程性不斷增強，GPU的應用能力已經遠遠超出了圖形渲染，部份GPU被用于圖形渲染以外領域的計算成為GPGPU。與(yu)此同時，CPU為(wei)了追求通用性，只(zhi)有少部(bu)分晶體管(guan)被用于(yu)完成運(yun)算，而大(da)部(bu)分晶體管(guan)被用于(yu)構建(jian)控(kong)制(zhi)電(dian)路和高(gao)速緩(huan)存。但是由于(yu)GPU對(dui)CPU的(de)(de)依附(fu)性以及GPU相較CPU更高(gao)的(de)(de)開發難度，所以GPU不可能(neng)完全(quan)取代CPU。我(wo)們認為(wei)未來(lai)計算架構將是GPU+CPU的(de)(de)異構運(yun)算體系。

在GPU+CPU的(de)(de)異構運(yun)算中(zhong)，GPU和CPU之間可(ke)以(yi)無(wu)縫地(di)共享數據，而無(wu)需(xu)內(nei)存拷(kao)貝和緩(huan)存刷新，因為(wei)任務以(yi)極低(di)的(de)(de)開(kai)銷被調度到合適的(de)(de)處(chu)理器上。CPU憑借多(duo)個(ge)專(zhuan)為(wei)串行處(chu)理而優化的(de)(de)核心運(yun)行程序的(de)(de)串行部(bu)份，而GPU使(shi)用數以(yi)千計的(de)(de)小核心運(yun)行程序的(de)(de)并行部(bu)分，充分發揮(hui)協同效應和比較優勢。

異構(gou)運算除了(le)需要相(xiang)關(guan)的(de)(de)CPU和GPU等硬件(jian)支持，還需要能將它們有效組(zu)織(zhi)的(de)(de)軟件(jian)編程。OpenCL是（OpenComputing Language）的(de)(de)簡稱，它是第一個為異構(gou)系(xi)統的(de)(de)通用并(bing)行編程而產生的(de)(de)統一的(de)(de)、免費的(de)(de)標準。OpenCL支持由多(duo)核的(de)(de)CPU、GPU、Cell架(jia)構(gou)以及信號(hao)處(chu)理器(qi)(DSP)等其他并(bing)行設(she)備組(zu)成的(de)(de)異構(gou)系(xi)統。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲OpenCL異構運算(suan)構成

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲異構運(yun)算下的GPU工作流(liu)程

GPU與ASIC和FPGA的對比：數據(ju)、算力和算法是AI三大要素，CPU配合加速芯片的模(mo)式(shi)成為典型的AI部署方(fang)案(an)，CPU提供算力，加速芯片提升算力并(bing)助(zhu)推算法的產生。常見(jian)的AI加速芯片包(bao)括(kuo)GPU、FPGA、ASIC三類。

GPU用(yong)于大(da)量重復(fu)計算，由數以千計的更小、更高效的核(he)心組成(cheng)大(da)規(gui)模并行計算架構，配備GPU的服(fu)務器(qi)可取(qu)代數百(bai)臺通用(yong)CPU服(fu)務器(qi)來(lai)處(chu)理HPC和AI業(ye)務。

FPGA是一種半定制(zhi)芯(xin)片，靈活(huo)性(xing)強集成(cheng)度(du)高，但運(yun)算量小，量產成(cheng)本高，適用于(yu)算法更新頻繁或市場(chang)規模小的專(zhuan)用領域(yu)。

ASIC專用性強，市(shi)場需求(qiu)量(liang)大的專用領域，但開發周期較長且(qie)難度極(ji)高。

在AI訓練階(jie)段需要大(da)量數據(ju)運算，GPU預計(ji)占(zhan)64%左右市場(chang)份(fen)額，FPGA和(he)ASIC分別為22%和(he)14%。推(tui)理(li)階(jie)段無(wu)需大(da)量數據(ju)運算，GPU將占(zhan)據(ju)42%左右市場(chang)，FPGA和(he)ASIC分別為34%和(he)24%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲不同應用(yong)場(chang)景AI芯片性能需求和具體指(zhi)標(biao)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU、FPGA、ASIC AI芯片對比

在(zai)PC誕(dan)生之初，并不(bu)(bu)存在(zai)GPU的(de)(de)概念，所(suo)有的(de)(de)圖形和多媒體運算都由CPU負責。但是由于X86 CPU的(de)(de)暫存器數量有限，適合(he)串行計算而不(bu)(bu)適合(he)并行計算，雖然以英特爾(er)為代表的(de)(de)廠商多次推出(chu)SSE等多媒體拓(tuo)展指(zhi)令集試圖彌補CPU的(de)(de)缺陷，但是僅(jin)(jin)僅(jin)(jin)在(zai)指(zhi)令集方面的(de)(de)改(gai)進不(bu)(bu)能起到根本效果，所(suo)以誕(dan)生了(le)圖形加速器作(zuo)為CPU的(de)(de)輔助(zhu)運算單(dan)元。

GPU的發(fa)(fa)展史概括說(shuo)來就(jiu)是NVIDIA、AMD(ATI)的發(fa)(fa)展史，在此過程中(zhong)曾經的GPU巨頭Imagination、3dfx、東芝等紛紛被(bei)后(hou)輩超越。如(ru)今獨立顯卡領域主要由(you)英偉達和AMD控(kong)制，而集(ji)成(cheng)顯卡領域由(you)英特(te)爾和AMD控(kong)制。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU的發展史

英(ying)偉達的(de)(de)(de)GPU架構自2008年(nian)以來幾乎一直(zhi)保(bao)持著每2年(nian)一次(ci)大(da)更新的(de)(de)(de)節奏(zou)，帶來更多更新的(de)(de)(de)運(yun)算單(dan)元(yuan)和更好(hao)的(de)(de)(de)API適配性(xing)(xing)。在每次(ci)的(de)(de)(de)大(da)換(huan)代(dai)(dai)之間，不乏有一次(ci)的(de)(de)(de)小升級(ji)，如采用(yong)(yong)開(kai)普勒二代(dai)(dai)微架構的(de)(de)(de)GK110核心相較于采用(yong)(yong)初(chu)代(dai)(dai)開(kai)普勒微架構的(de)(de)(de)GK104核心，升級(ji)了(le)顯卡智能(neng)動態超頻技術(shu)，CUDA運(yun)算能(neng)力提(ti)升至(zhi)3.5代(dai)(dai)，極致(zhi)流式(shi)多處理器（SMX）的(de)(de)(de)浮點運(yun)算單(dan)元(yuan)提(ti)升8倍，加(jia)入了(le)Hyper-Q技術(shu)提(ti)高GPU的(de)(de)(de)利(li)用(yong)(yong)率并削減(jian)了(le)閑(xian)置，更新了(le)網格管理單(dan)元(yuan)（Grid Management Unit），為動態并行技術(shu)提(ti)供(gong)了(le)靈(ling)活(huo)性(xing)(xing)。

英(ying)(ying)偉(wei)達(da)GPU微(wei)架構的(de)持續更(geng)新，使英(ying)(ying)偉(wei)達(da)GPU的(de)能效提升了數十倍，占領了獨立(li)顯卡技術的(de)制高點。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2008-2020英偉(wei)達GPU微架構進化

圖形API在GPU的運(yun)算過程(cheng)中(zhong)發(fa)揮著(zhu)連接高(gao)級語言(yan)、顯(xian)卡(ka)驅(qu)動乃(nai)至底層匯編語言(yan)的作(zuo)用(yong)，充當GPU運(yun)行和開發(fa)的“橋梁(liang)”和“翻譯官”。微軟DirectX標準可以劃(hua)分(fen)為顯(xian)示部(bu)份、聲音部(bu)份、輸(shu)入部(bu)分(fen)和網絡部(bu)分(fen)，其中(zhong)與GPU具(ju)有最(zui)直接關系的是顯(xian)示部(bu)分(fen)。顯(xian)示部(bu)份可分(fen)為DirectDraw和Direct3D等(deng)標準，前者主要(yao)負責(ze)2D圖像加速，后者主要(yao)負責(ze)3D效果顯(xian)示。

從1995年發布(bu)的(de)(de)初(chu)代DirectX 1.0開(kai)始微軟的(de)(de)DirectX已經更(geng)新到了DirectX 12。在此過(guo)程中，DirectX不斷完善(shan)對各類GPU的(de)(de)兼容，增加開(kai)發人員的(de)(de)權限，提高GPU的(de)(de)顯示質量和運(yun)行幀數。

DirectX一般和Windows操作系統同步更新(xin)，如Windows 7推(tui)出(chu)了(le)DX11、Windows 10推(tui)出(chu)了(le)DX12。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲1998-2014微(wei)軟DirectX進化

GPU和CPU都(dou)是以先進(jin)制程(cheng)為導向的(de)數(shu)字芯片。先進(jin)制程(cheng)可以在控制發(fa)熱和電能消(xiao)耗的(de)同(tong)時，在有限(xian)的(de)Die中(zhong)放入盡可能多的(de)晶體管，提高GPU的(de)性能和能效。

NVIDIA的(de)GPU從2008年GT200系列的(de)65納(na)(na)米(mi)(mi)制(zhi)程歷經12年逐步(bu)升(sheng)級到了(le)RTX3000系列的(de)7/8納(na)(na)米(mi)(mi)制(zhi)程，在(zai)整(zheng)個過(guo)程中(zhong)，晶體管數量提(ti)升(sheng)了(le)20多倍，逐步(bu)確(que)立了(le)在(zai)獨立GPU的(de)市場龍頭地位(wei)。

同時(shi)在整個過(guo)程(cheng)中(zhong)，NVIDIA一直堅持不采用IDM的(de)模(mo)式，而是讓臺積(ji)電負責GPU的(de)制造，自生(sheng)專注于芯片設計，充分發(fa)揮(hui)比較優勢。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2008-2020英偉(wei)達GPU主(zhu)要(yao)制程和晶體(ti)管數進化

根據前12年的GPU發展軌跡來看，GPU微架構的升級趨勢可以簡要地概括為”更多”、”更專”、”更智能”。“更(geng)多”是(shi)指(zhi)晶體管數量和(he)運(yun)算(suan)(suan)單(dan)元(yuan)(yuan)(yuan)(yuan)的(de)(de)增加(jia)，其(qi)中包括(kuo)流(liu)處理(li)器單(dan)元(yuan)(yuan)(yuan)(yuan)、紋理(li)單(dan)元(yuan)(yuan)(yuan)(yuan)、光柵(zha)單(dan)元(yuan)(yuan)(yuan)(yuan)等數量上升。“更(geng)專”是(shi)指(zhi)除了(le)常(chang)規(gui)的(de)(de)計算(suan)(suan)單(dan)元(yuan)(yuan)(yuan)(yuan)，GPU還會增加(jia)新的(de)(de)運(yun)算(suan)(suan)單(dan)元(yuan)(yuan)(yuan)(yuan)。例如，英偉達的(de)(de)圖靈架(jia)構相較于(yu)(yu)帕(pa)斯卡架(jia)構新增加(jia)了(le)光追(zhui)單(dan)元(yuan)(yuan)(yuan)(yuan)和(he)張量單(dan)元(yuan)(yuan)(yuan)(yuan)，分別處理(li)實(shi)時光線追(zhui)蹤和(he)人工智(zhi)能(neng)運(yun)算(suan)(suan)。“更(geng)智(zhi)能(neng)”是(shi)指(zhi)GPU的(de)(de)AI運(yun)算(suan)(suan)能(neng)力上升。如第三代的(de)(de)張量單(dan)元(yuan)(yuan)(yuan)(yuan)相較于(yu)(yu)上代在吞吐量上提(ti)升了(le)1倍。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉(wei)達GTX1080對比(bi)RTX2080

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達伏(fu)特微架(jia)構對比安培微架(jia)構AI加(jia)速性能

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達安培架構提升

綜合分析微軟的(de)DirectX12、蘋果(guo)的(de)Metal2、Khronos Group的(de)Vulkan API分別相較于前代(dai)DirectX11、Metal、OpenGL的(de)升級(ji)，我們認(ren)為GPU API的(de)升級(ji)趨勢是(shi)提(ti)高GPU的(de)運行(xing)效率、增加高級(ji)語(yu)言(yan)和顯(xian)卡驅動(dong)(dong)之間(jian)的(de)連接(jie)、優化視(shi)覺特(te)效等(deng)。其中，提(ti)供更(geng)底(di)層的(de)支持：統籌高級(ji)語(yu)言(yan)、顯(xian)卡驅動(dong)(dong)和底(di)層語(yu)言(yan)是(shi)幾乎所有API升級(ji)的(de)主(zhu)要方向。

不過提(ti)供更(geng)底(di)層的支持只是更(geng)高的幀(zhen)數(shu)或更(geng)好(hao)的畫(hua)質的必要(yao)非充分條(tiao)件。在整個(ge)軟件的開發過程中，軟件開發商需要(yao)比驅(qu)動(dong)程序和系統層更(geng)好(hao)地調(diao)度硬件資源(yuan)，才能(neng)充分發揮底(di)層API的效果(guo)。

在(zai)顯(xian)示質(zhi)量方面(mian)，DirectX 12 Ultimate采(cai)用當下最新的圖(tu)形硬件技術(shu)，支持(chi)光(guang)線追蹤、網格著(zhu)色(se)器和可變速率著(zhu)色(se)，PC和Xbox共用同一個API，堪稱(cheng)次世(shi)代游戲的全新黃金(jin)標準。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲非底(di)層DirectX 11對比底(di)層DirectX 12

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲DirectX 12 Ultimate新特性

GPU制造升級趨勢：以先進制程為導向。GPU性(xing)能的(de)三大決(jue)定因(yin)素為主頻、微架構、API。這些因(yin)素中主頻通常是由GPU的(de)制程(cheng)(cheng)決(jue)定的(de)。制程(cheng)(cheng)在過去(qu)通常表示晶(jing)體管(guan)或柵極長度(du)等特征尺寸，不過出于營銷的(de)需要，現在的(de)制程(cheng)(cheng)已經偏(pian)離了(le)本意(yi)，因(yin)此(ci)單(dan)純比較(jiao)納米數沒有意(yi)義。按英特爾的(de)觀點，每平(ping)方毫米內(nei)的(de)晶(jing)體管(guan)數（百萬）更能衡量制程(cheng)(cheng)。據此(ci)，臺(tai)積電和(he)三星的(de)7nm工藝更接近(jin)英特爾的(de)10nm工藝。

先進的(de)制(zhi)程可以降低(di)每一個晶(jing)(jing)體管(guan)的(de)成本(ben)，提升(sheng)晶(jing)(jing)體管(guan)密度，在(zai)GPU Die體積不變下實現(xian)更高(gao)的(de)性能(neng)(neng)；先進制(zhi)程可以提升(sheng)處(chu)理器(qi)的(de)效能(neng)(neng)，在(zai)性能(neng)(neng)不變的(de)情況(kuang)(kuang)下，減少(shao)發(fa)(fa)熱(re)或(huo)在(zai)發(fa)(fa)熱(re)不變的(de)情況(kuang)(kuang)下，通過提升(sheng)主(zhu)頻來拉高(gao)性能(neng)(neng)。

先進(jin)制(zhi)程的(de)主要目的(de)是降(jiang)低平面結(jie)構帶來(lai)的(de)漏電率問題，提升方案可以通過改(gai)變工藝，如采用(yong)FinFET（鰭式場效應晶體(ti)管）或GAA（環繞式柵(zha)極）；或采用(yong)特殊材料，如FD-SOI（基于SOI的(de)超(chao)薄絕(jue)緣(yuan)層上硅體(ti)技術)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲先進制程工藝之FinFET

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾10nm先進制(zhi)程(cheng)帶來的性能和效能提(ti)升

GPU制造升級趨勢：Chiplet化。高位(wei)寬內存（HBM）是小(xiao)芯片（Chiplet）在GPU中(zhong)的常(chang)見(jian)應用(yong)。HBM是一(yi)種(zhong)高速計算(suan)機存儲器3D堆棧SDRAM接(jie)口。首款HBM于2013年推出，第二代HBM2已(yi)于2016年被JEDEC接(jie)受。目(mu)前，HBM主要應用(yong)在高端獨(du)立(li)顯卡(ka)和(he)服務器顯卡(ka)。

HBM通過3D堆疊(die)4個(ge)(ge)DRAM Die和1片(pian)(pian)邏輯Die組成一(yi)(yi)個(ge)(ge)Chiplet，其中(zhong)(zhong)每片(pian)(pian)DRAM具有2個(ge)(ge)128位(wei)(wei)通道，通過TSV（硅通孔）相連(lian)。所以，一(yi)(yi)片(pian)(pian)Chiplet總(zong)共8個(ge)(ge)128位(wei)(wei)通道，總(zong)位(wei)(wei)寬(kuan)1024比特。每片(pian)(pian)Chiplet又(you)與(yu)GPU封裝在(zai)同一(yi)(yi)中(zhong)(zhong)介層（Interposer）連(lian)接GPU芯片(pian)(pian)。相比之下，GDDR5內存(cun)的(de)總(zong)線寬(kuan)度(du)為(wei)32位(wei)(wei)，帶有512位(wei)(wei)內存(cun)接口的(de)顯卡也(ye)只有16個(ge)(ge)通道，而且(qie)采用傳統的(de)FBGA封裝。HBM與(yu)GDDR5相比，每GB的(de)表面(mian)積減(jian)少94%，每GB/S帶寬(kuan)的(de)能效提升2倍多(duo)。

HBM支持最多每(mei)個Chiplet 4GB的(de)(de)存(cun)儲(chu)，HBM2在HBM的(de)(de)基礎(chu)上將每(mei)片Chiplet的(de)(de)最大容量提(ti)升至(zhi)了(le)8GB，顯存(cun)主頻提(ti)升1倍，同時總位寬(kuan)保持不變。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲HBM的GPU應用

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GDDR5對比HBM

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲HBM先進封裝結構

GPU制造(zao)可分為(wei)(wei)IDM和Fab+Fabless。IDM集芯片(pian)設計、芯片(pian)制造(zao)、芯片(pian)封(feng)裝和測試等多個產業鏈環節于一身(shen)。英(ying)特(te)爾為(wei)(wei)IDM的代表。

Fabless只(zhi)負責(ze)(ze)芯(xin)(xin)片的(de)電(dian)路設(she)計與銷(xiao)售，將生產(chan)、測試(shi)、封(feng)裝等環節外包。蘋果(guo)和(he)AMD為Fabless的(de)代(dai)表。Foundry只(zhi)負責(ze)(ze)制(zhi)造，不(bu)負責(ze)(ze)芯(xin)(xin)片設(she)計，可以同時為多家(jia)設(she)計公司服務，但受(shou)制(zhi)于公司間的(de)競爭關系。臺積電(dian)為Foundry的(de)代(dai)表。目前英(ying)特爾GPU落(luo)后的(de)主要原因(yin)是GPU制(zhi)程的(de)落(luo)后，根本(ben)(ben)原因(yin)是英(ying)特爾受(shou)困于IDM運作模式。隨著28納米以下先(xian)進制(zhi)程的(de)發展(zhan)，芯(xin)(xin)片的(de)制(zhi)造成本(ben)(ben)和(he)設(she)計成本(ben)(ben)成指數級上升(sheng)。同時，一條(tiao)12英(ying)寸晶圓的(de)生產(chan)線從建設(she)到生產(chan)的(de)周期約2年(nian)，投資至(zhi)少30-50億(yi)美元，資本(ben)(ben)支出占(zhan)比80%，整體風險非常(chang)大。英(ying)特爾以有(you)限的(de)資源不(bu)支持它持續的(de)設(she)計和(he)生產(chan)的(de)的(de)兩(liang)線作戰。

Fab+Fabless的(de)模式通過充分(fen)發揮(hui)比較優勢，分(fen)散了GPU設計(ji)和制造的(de)風險，符合半導體(ti)分(fen)工的(de)大趨勢。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲IDM與Fab+Fabless對比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯片設計(ji)費用(yong)趨勢（億美(mei)元）

過去20多(duo)年里，GPU的(de)(de)基本需(xu)(xu)求源于(yu)視頻加速，2D/3D游戲(xi)。隨后GPU運(yun)用自身在(zai)并行處(chu)理和通用計算(suan)的(de)(de)優勢，逐步開(kai)拓(tuo)服(fu)務器(qi)、汽車、礦(kuang)機(ji)、人工智(zhi)能、邊緣計算(suan)等領域的(de)(de)衍生需(xu)(xu)求。雖然GPU無法離開(kai)CPU獨立運(yun)作，但是(shi)在(zai)當(dang)前(qian)“云(yun)化(hua)”加速的(de)(de)時(shi)代，離開(kai)了GPU的(de)(de)CPU也(ye)無法勝任(ren)龐大的(de)(de)計算(suan)需(xu)(xu)求。所以GPU和CPU組成了異構運(yun)算(suan)體系，從底層經由系統軟(ruan)件(jian)和驅動層支持著上層的(de)(de)各種應用。GPU已經成為了專用計算(suan)時(shi)代的(de)(de)剛需(xu)(xu)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲現代云計算中GPU加速的(de)剛需(xu)

二、GPU的全球格局

2020年(nian)全球GPU市(shi)場價值(zhi)預計(ji)為254.1億美元，預計(ji)2027年(nian)將(jiang)達到(dao)1853.1億美元，年(nian)平(ping)均增(zeng)速(su)為32.82%。按(an)GPU的類型進行劃(hua)分，市(shi)場可以(yi)細分為獨立、集成(cheng)(cheng)(cheng)和(he)混(hun)合(he)。2019年(nian)，集成(cheng)(cheng)(cheng)GPU占GPU市(shi)場的主(zhu)導地位，但是由于混(hun)合(he)GPU同時擁(yong)有集成(cheng)(cheng)(cheng)和(he)專用GPU的能力，所以(yi)混(hun)合(he)細分市(shi)場預計(ji)實現最高(gao)復合(he)增(zeng)長率。

按GPU的(de)(de)設(she)備進(jin)行劃(hua)分(fen)(fen)，市(shi)場(chang)可細分(fen)(fen)為計(ji)算機、平板(ban)電(dian)腦、智(zhi)能(neng)手機、游戲機、電(dian)視、其(qi)他(ta)。就(jiu)收入而(er)言，智(zhi)能(neng)手機細分(fen)(fen)市(shi)場(chang)占比最大，在未(wei)來也將(jiang)保持這一趨勢。但是，由于醫療等其(qi)他(ta)設(she)備中對小(xiao)型GPU的(de)(de)需(xu)求(qiu)不斷增加，預計(ji)未(wei)來的(de)(de)年復合增長率將(jiang)最高。

按(an)GPU的行(xing)(xing)業進(jin)行(xing)(xing)劃(hua)分，市場(chang)可(ke)細分為電子、IT與電信(xin)、國(guo)防與情報、媒體與娛樂、汽車、其他。由于GPU在設(she)計和工程應用(yong)中的廣(guang)泛使用(yong)，預計汽車細分行(xing)(xing)業的年復合增(zeng)長(chang)率最高。

按GPU的地理區(qu)域(yu)劃分，市場(chang)可細分為北美、歐洲、亞(ya)(ya)太(tai)和其他地區(qu)。亞(ya)(ya)太(tai)地區(qu)在2019年(nian)主(zhu)導了(le)全球(qiu)GPU市場(chang)，預計在整個預測期內將保持主(zhu)導地位。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲全(quan)球GPU市場(chang)規模預測

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2015-2025全球(qiu)前三GPU供應商(shang)營收(shou)總和

全球GPU已經進入了寡頭壟斷的格局。在傳統GPU市場中，排名前三的Nvidia、AMD、Intel的營收幾乎可以代表整個GPU行業收入。英偉達的收入占56%、AMD占26%、英特爾占18%。

在手機和平(ping)板GPU方(fang)面，聯發科、海思麒麟、三星Exynos的(de)(de)GPU設計(ji)主要基于公版(ban)ARM MaliGPU或PowerVR微架構(gou)。高通驍龍Adreno和蘋(pin)(pin)(pin)果(guo)A系列采用自研GPU微架構(gou)。2019Q2，ARM、高通、蘋(pin)(pin)(pin)果(guo)、Imagination科技、英特爾是(shi)全球智(zhi)能手機和平(ping)板的(de)(de)前五大GPU供應(ying)商。同期ARM Mali在以(yi)上五大GPU供應(ying)商中占43%的(de)(de)市(shi)場份(fen)額，高通Adreno占36%的(de)(de)份(fen)額，蘋(pin)(pin)(pin)果(guo)占12%的(de)(de)份(fen)額。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2019前三家GPU供應商收入份額對比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2019 Q2手機和平板GPU供應(ying)商份額(e)

1、英偉達

英(ying)偉達(da)公(gong)司(si)成(cheng)立(li)于1993年(nian)，于1999年(nian)率先推出(chu)“GPU”的(de)圖形解決方(fang)案(an)。公(gong)司(si)主要設計游(you)戲和專業市場的(de)GPU，移動(dong)計算和自動(dong)駕駛(shi)汽車的(de)SoC，是GPU計算領域公(gong)認的(de)全球(qiu)領導者。它主要的(de)GPU產(chan)線“GeForce”和AMD的(de)“Radeon”形成(cheng)直(zhi)接競爭。同時，英(ying)偉達(da)為了拓展移動(dong)游(you)戲平臺，推出(chu)了掌機Shield、Shield平板、Shield電視(shi)盒子(zi)和云游(you)戲服務GeForce Now。目前，公(gong)司(si)已(yi)經完成(cheng)了由(you)芯片(pian)供應商向計算平臺的(de)轉型(xing)。

英偉達的四大(da)增長驅動力分別(bie)是(shi)游戲業(ye)(ye)務(wu)、數據(ju)中心(xin)業(ye)(ye)務(wu)、專業(ye)(ye)視(shi)覺業(ye)(ye)務(wu)、自動駕駛業(ye)(ye)務(wu)，各業(ye)(ye)務(wu)的代表性(xing)GPU方案分別(bie)是(shi)GeForce，DGX、EGX、HGX，Quadro、AGX。

英偉達2021財年營收167億美元，其中(zhong)游戲、數據中(zhong)心(xin)、專業視覺(jue)、自動駕駛(shi)業務在2020財年分別貢獻了(le)營收的47%、40%、6%、3%。公司(si)繼(ji)2014年毛利率(lv)突破50%后(hou)，于2021財年毛利率(lv)突破60%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達2021財年的業(ye)務(wu)構成

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉(wei)達(da)的主要增長驅動力

英偉達的(de)游(you)(you)戲(xi)業務由GeForce和(he)(he)Shield組成(cheng)。其中Shield面向(xiang)移(yi)動端和(he)(he)云(yun)，GeForce面向(xiang)PC。游(you)(you)戲(xi)筆記本和(he)(he)云(yun)游(you)(you)戲(xi)是公司拓(tuo)展市場(chang)的(de)2大(da)(da)方向(xiang)。GeForce是英偉達游(you)(you)戲(xi)業務的(de)核心。GeForce是全(quan)(quan)球最大(da)(da)的(de)游(you)(you)戲(xi)平臺，擁有超過2億名玩家(jia)。在PC游(you)(you)戲(xi)領(ling)域，英偉達的(de)營收(shou)是其他主要GPU供應(ying)商的(de)三倍多。GeForce已經來到了RTX30系列，采用第二代NVIDIA RTX架(jia)構(gou)(gou)-NVIDIA安培架(jia)構(gou)(gou)，搭載全(quan)(quan)新的(de)RT Core、Tensor Core及流式(shi)多處理器，擁有RTX游(you)(you)戲(xi)、DLSS、G-SYNC、DirectX12等先進技術，可帶來逼真的(de)光線追(zhui)蹤(zong)效(xiao)果和(he)(he)先進的(de)AI性(xing)能(neng)。

除了PC游戲市場，英(ying)偉(wei)達(da)也(ye)向(xiang)合(he)作伙伴(ban)–任(ren)天堂Switch主機提(ti)供(gong)定(ding)制版Tegra SoC。作為合(he)作的一部(bu)分，Shield主機可以(yi)暢(chang)享任(ren)天堂的游戲，GameStream串(chuan)流游戲和(he)熱門(men)游戲，實現4KHDR畫質，支持百度DuerOS對話式人工智能。

英(ying)偉達(da)的(de)數據中(zhong)心(xin)(xin)業務(wu)的(de)技術根源是CUDA（統一計(ji)算設備架(jia)構）。CUDA首(shou)次推(tui)出于2006年(nian)的(de)G80核心(xin)(xin)，隸屬于通用并行計(ji)算架(jia)構，創(chuang)造了GPGPU。在“安培”時(shi)代，CUDA核心(xin)(xin)已經進化到(dao)了8.0，被運用在幾乎所(suo)有的(de)英(ying)偉達(da)產品線。

CUDA兼容DirectCompute、OpenCL等計算接口。與(yu)Direct3D、OpenGL等高級(ji)圖形(xing)API相比，CUDA可(ke)以(yi)使開發者更容易使用GPU資源(yuan)。當前(qian)，CUDA在(zai)廣義上既代表GPU的硬件(jian)平臺又代表GPU的軟件(jian)平臺。

在硬(ying)件平臺方面，CUDA包(bao)含了CUDA指令集以及GPU內(nei)部(bu)的(de)并行計算引(yin)擎。GPU平臺的(de)矢量運算如(ru)INT、FP32、FP64都(dou)由CUDA承擔(dan)。開發人員可(ke)以使用C語(yu)言(yan)(yan)和Fortran語(yu)言(yan)(yan)為CUDA編(bian)寫程序(xu)。

在軟件平臺方(fang)面，基于CUDA的(de)CUDA-X加(jia)速庫、工具和(he)(he)科技集合(he)，向(xiang)上對接(jie)不同的(de)行業(ye)應用需求。在英偉達的(de)軟件棧體系中，分為(wei)CUDA-X AI和(he)(he)CUDA-X HPC，分別(bie)面向(xiang)AI和(he)(he)HPC兩大(da)領域，可以在人工智能(neng)和(he)(he)高性能(neng)計算方(fang)面提供遠超(chao)其(qi)他競品的(de)性能(neng)。CUDA-X的(de)開發者已經超(chao)過100萬。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英(ying)偉達(da)CUDA-X HPC

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉(wei)達CUDA-X AI

英(ying)偉(wei)達數據中心的(de)產(chan)品包括適(shi)用(yong)于(yu)(yu)AI的(de)DGX系統，適(shi)用(yong)于(yu)(yu)邊緣計(ji)(ji)算(suan)的(de)EGX平(ping)臺，適(shi)用(yong)于(yu)(yu)超算(suan)的(de)HGX平(ping)臺、適(shi)用(yong)于(yu)(yu)數據處理的(de)DPU、簡化(hua)深度學(xue)習，機器學(xue)習，高性能計(ji)(ji)算(suan)的(de)NGC目錄(lu)。相關的(de)GPU加速器有采用(yong)安培(pei)架(jia)構的(de)A100、A40，采用(yong)圖靈架(jia)構的(de)T4、RTX6000、RTX8000，采用(yong)伏特架(jia)構的(de)V100。

過(guo)去5個財年(nian)中(zhong)(zhong)，英偉達(da)數據(ju)中(zhong)(zhong)心的(de)營收(shou)從8.3億(yi)美(mei)元上升至66.96億(yi)美(mei)元，年(nian)復合增速69%。同時(shi)，公司的(de)注冊開發者超(chao)過(guo)200萬(wan)，與(yu)主(zhu)要的(de)云供應商如(ru)谷歌(ge)、騰訊、阿里建立(li)了(le)供應關系，世界500強(qiang)超(chao)算中(zhong)(zhong)的(de)份額從6%上升至70%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英(ying)偉達主要云合作伙伴

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉(wei)達數據(ju)中心(xin)營收趨勢

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達(da)在超算500強中份額

英偉達(da)專業視(shi)覺業務(wu)主要由Quadro產品線組(zu)成。Quadro在(zai)GeForce的基礎上加強了NVLink、GPU的通用(yong)計算性能和顯(xian)存容量，擁有(you)Iray、Omniverse平臺(tai)、材質定義語言(yan)等(deng)特有(you)技(ji)術。Quadro被廣泛應用(yong)在(zai)臺(tai)式工作(zuo)站(zhan)、筆記本電腦、EGX服務(wu)器、虛(xu)擬工作(zuo)空間、云(yun)端、定制(zhi)化方案(an)中。英偉達(da)Quadro方案(an)有(you)超過50種(zhong)應用(yong)、4000萬設計用(yong)戶和2000萬企(qi)業用(yong)戶，并正在(zai)不斷解鎖(suo)新市(shi)場(chang)。

在過去(qu)的(de)5個(ge)財年，英偉達(da)專(zhuan)業視覺的(de)營收從8.35億(yi)美(mei)元上升至10.53億(yi)美(mei)元，年復合增(zeng)速6%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達專業視覺(jue)GPU加速合作(zuo)伙(huo)伴(ban)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達專業視覺營收趨(qu)勢

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達專業視覺方案

英偉達的汽車產品包括相(xiang)關駕(jia)駛(shi)軟件、駕(jia)駛(shi)基礎設計、AGX平(ping)臺，提供訓(xun)練、模擬、智(zhi)能駕(jia)駛(shi)艙體驗、高清地圖和定位等解決方案(an)。在絕對(dui)性能方面，搭載4顆Drive AGX Origin的蔚來(lai)ADAM超算(suan)平(ping)臺支持(chi)L4以上(shang)自動(dong)駕(jia)駛(shi)，超過7個(ge)特(te)斯拉FSD算(suan)力總和。

不同于(yu)特斯(si)拉自動駕駛追求軟硬件的(de)(de)高度契合(he)(he)，英偉達的(de)(de)方案更追求開放(fang)性。公司(si)在汽車(che)領域(yu)的(de)(de)合(he)(he)作伙伴以軟件服務和(he)轎車(che)居多，分別達到了76家(jia)和(he)42家(jia)。同時(shi)，公司(si)與大眾(zhong)、豐田、本田、奔(ben)馳(chi)、寶馬(ma)、奧迪、沃爾(er)沃、馬(ma)牌、滴滴、采埃孚、蔚來、小鵬、圖森(sen)等世界知名(ming)公司(si)建立了強力的(de)(de)生(sheng)態。

在過(guo)去的5個財年(nian)(nian)，英偉達自動駕駛的營(ying)收(shou)從(cong)4.87億美元(yuan)上升(sheng)至5.36億美元(yuan)，年(nian)(nian)復(fu)合(he)增速3%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達自動駕駛營收趨勢

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達自動(dong)駕駛合作伙伴分布數(shu)

2020年9月13日，NVIDIA宣布以400億美元收購ARM。本次收購意義可以細(xi)分為以下5個方面(mian)：

1. 創造AI時代的世界級計算公司，將(jiang)英偉達領先(xian)的AI計算平(ping)臺(tai)和ARM龐大(da)的CPU生態相結合(he)；

2. 通過(guo)英偉達在移動(dong)端(duan)和PC等大型終端(duan)市(shi)場的科(ke)技拓展ARM的IP授權組合；

3. 加速ARM的服務器(qi)CPU、數據中心、邊(bian)緣AI、IoT發展(zhan)；

4. 將(jiang)英偉達計算平臺(tai)的開發者(zhe)由200萬提升至超過1500萬；

5. 并購可以立即(ji)增加英偉達的非(fei)GAAP毛利率(lv)和非(fei)GAAP每(mei)股收(shou)益；

合(he)并后的(de)(de)英偉達將(jiang)把計(ji)算從(cong)云、智能(neng)手(shou)機(ji)、PC、自動(dong)駕駛車和機(ji)器人(ren)技術推(tui)進到了(le)邊緣(yuan)物(wu)聯網，將(jiang)AI計(ji)算拓展到全球，在拓展大規模、高增長市場的(de)(de)同時加速創新。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英偉達從云到邊緣

2、全球GPU先驅：AMD

AMD是全球唯一可以(yi)同時提供高(gao)性能GPU和(he)CPU的(de)企業。AMD的(de)顯(xian)卡來源于2006年并購的(de)ATI科技。在這之后的(de)4年中，AMD繼續使用ATI作為顯(xian)卡品(pin)牌。直到2010年，AMD才拋棄(qi)原ATI的(de)品(pin)牌命名方(fang)式。

目前(qian)，AMD同時提供獨(du)立GPU和集(ji)成(cheng)GPU，其集(ji)成(cheng)GPU主要運用(yong)(yong)(yong)在(zai)Ryzen APU、嵌入式、半(ban)定制(zhi)平臺(tai)中，獨(du)立GPU分為Radeon和Instinct系(xi)列，主要用(yong)(yong)(yong)于游戲、專(zhuan)業視覺、服務器等應(ying)用(yong)(yong)(yong)。

過去六年，AMD的(de)計(ji)算和圖形收(shou)入的(de)營收(shou)由18.05億(yi)美(mei)元(yuan)上升至64.32億(yi)美(mei)元(yuan)，年復(fu)合增速29%。

未來(lai)五年(nian)，AMD計劃成為高性能計算的領導者，提供顛覆性的CPU和GPU方案(an)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD計算和(he)圖(tu)形部門(men)營(ying)收(shou)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD GPU的聚(ju)焦領域

AMD的(de)集(ji)成GPU主(zhu)要被運用(yong)在臺式機和(he)(he)筆記(ji)本(ben)的(de)APU產(chan)品(pin)中(zhong)，和(he)(he)CPU組成異(yi)構運算單(dan)元。臺式和(he)(he)筆記(ji)本(ben)APU的(de)GPU部(bu)份共用(yong)微(wei)架構和(he)(he)核心技術，二者GPU的(de)主(zhu)要差異(yi)在于TDP和(he)(he)處理單(dan)元的(de)數量，臺式強于筆記(ji)本(ben)。

“Renior”APU的GPU繼(ji)續使用Vega微架構(gou)，但(dan)受益于7納米制程，每個處理單(dan)元效能顯著提升。

7納米Vega的(de)提(ti)升(sheng)包括：數據網絡(luo)翻倍、優(you)化低功耗(hao)狀(zhuang)態轉換(huan)、25%主(zhu)頻提(ti)升(sheng)、77%存儲位(wei)寬提(ti)升(sheng)。這(zhe)些提(ti)升(sheng)帶來了在保持15W功耗(hao)不變的(de)前提(ti)下，每(mei)個計算單元59%的(de)性能提(ti)升(sheng)、1.79TFLOPS的(de)32位(wei)浮點峰值吞吐。

在3DMark Time Spy（DX12）的跑分中(zhong)，7納米的Ryzen 4800U的GPU表現超過10納米i7-1065G7，是14納米i7-10710U的2倍以上。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD “RENIOR”APU

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD “RENIOR”APU內核解析(xi)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD “RENIOR”APU跑(pao)分(fen)對比

AMD的(de)Radeon系列(lie)游(you)戲獨(du)立GPU按(an)微架構(gou)推出(chu)時間依次遞減可以(yi)分為RX6000系列(lie)、RX5000系列(lie)、Radeon 7、 RX500系列(lie)。以(yi)上(shang)四(si)大(da)系列(lie)中，除RX500系列(lie)外均(jun)采用臺(tai)積電7納米制程。

2020年(nian)11月推(tui)出(chu)的RDNA2微架構相較(jiao)于前代(dai)RDNA絕(jue)對性能最(zui)高(gao)(gao)提升一倍，能效提高(gao)(gao)54%，支(zhi)持DirectX12 Ultimate，硬(ying)件(jian)光線追蹤和(he)可變速(su)率著色器等先進(jin)技術。搭(da)載16GBGDDR6顯(xian)存和(he)128MB InfinityCache高(gao)(gao)速(su)緩存的RX 6900XT的游戲性能接近英偉(wei)達的RTX 3090。

為了(le)發(fa)揮(hui)AMD CPU和GPU的(de)協(xie)同效應，Radeon擁有AMD SmartAccess Memory技術，銳龍(long)CPU和顯卡之間能實(shi)現更出(chu)色的(de)通信。RX6800系(xi)列顯卡在部分游戲中(zhong)4K畫質性能額外(wai)提升最高可達7%。

2022年前(qian)，AMD將基于更先進(jin)的制程打造(zao)RDNA3微架構，進(jin)一步強化光追等計算表現。

除了傳(chuan)統的BGA顯(xian)存(cun)封裝，AMD還積(ji)極運用HBM系(xi)列顯(xian)存(cun)。在(zai)Radeon7中，16GB的HBM2顯(xian)存(cun)擁(yong)有1TB/S的帶(dai)寬，超過(guo)同期Titan RTX 50%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD獨立游(you)戲GPU路(lu)線圖

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD獨立游戲GPU產品(pin)線

AMD的數(shu)據中心GPU業務由Radeon Instinct加速器系列(lie)、以(yi)客戶(hu)為核心的數(shu)據中心解決方案和ROCm組成。AMD的主要(yao)合作伙(huo)伴包括戴爾(er)、惠(hui)普等OEM，同時AMD也向微軟AZURE和亞馬遜網絡服務提(ti)供(gong)視覺云(yun)解決方案。

ROCm是全球首個針(zhen)對加速式計算且不限定(ding)編程語言的超(chao)大規模開(kai)源平臺(tai)，遵循(xun)UNIX的選擇哲學(xue)、極簡主(zhu)義以及針(zhen)對GPU計算的模塊(kuai)化軟件開(kai)發。

ROCm適合大規模(mo)計算，支持多路GPU，有(you)豐富的系(xi)統運行庫(ku)(ku)，包括框架、庫(ku)(ku)、編程模(mo)型、互聯和Linux Kernel上游支持，提供各種重要功(gong)能來支持大規模(mo)應用、編譯(yi)器和語言運行庫(ku)(ku)的開(kai)發。

AMD正與美國(guo)能源部(bu)、橡樹嶺國(guo)家實驗室和Cray公司合作，使(shi)用EPYC（霄龍）CPU、Radeon Instinct GPU和ROCm打造超過150億(yi)億(yi)次(ci)FLOPS的全球最(zui)快超算平臺。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD ROCm開源軟件生態

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD數據中心GPU產品線(xian)

Radeon Instinct MI 100加(jia)速器(qi)采用專注計(ji)算的CDNA微架構(gou)，在計(ji)算和連接方面實現了(le)巨大飛(fei)躍(yue)，與AMD上一代加(jia)速器(qi)相比，高(gao)性(xing)能計(ji)算工(gong)作(zuo)負載(zai)(zai)（FP32矩陣(zhen)）性(xing)能提升(sheng)近3.5倍(bei)(bei)，而人工(gong)智能工(gong)作(zuo)負載(zai)(zai)（FP16）性(xing)能提升(sheng)近7倍(bei)(bei)。InstinctMI 100在FP32和FP64的峰值TFLOPS中超(chao)越了(le)同期英偉達安培(pei)A100，同時功耗比后(hou)者低100瓦。

為(wei)了(le)(le)滿足多(duo)路GPU的互聯(lian)(lian)通訊需求，AMD研(yan)發了(le)(le)InfinityFabric技術(shu)。Infinity Fabric擁(yong)有(you)先進(jin)的平(ping)臺連接性(xing)和可拓展性(xing)，最多(duo)支持(chi)4路GPU互聯(lian)(lian)。P2P帶(dai)寬是PCIe 4.0的2倍，四GPU集群的P2P帶(dai)寬最高可達(da)552GB/s。

未來，AMD將基于(yu)更先進的制程打造CDNA2微(wei)架構，進入百億億級時代。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲Instinct MI 100與安培A100對比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD數據(ju)中心GPU路線圖

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲AMD Infinity Fabric互聯

AMD的其他(ta)獨立GPU主要包括嵌入式、半定制化、Radeon Pro工作站顯卡。半定制化獨立顯卡主要倍(bei)運用在索(suo)尼、微軟的本世代和次世代主機中。如今，AMD的技術存(cun)在于2.2億個家庭暢享游戲和視頻(pin)娛樂(le)時所用設備的核心。

嵌(qian)入(ru)式GPU的(de)(de)特點包括卓越的(de)(de)圖形(xing)性(xing)能(neng)(neng)、多屏顯(xian)示、外形(xing)緊湊、高能(neng)(neng)效、長期供(gong)貨。嵌(qian)入(ru)式GPU分為超高性(xing)能(neng)(neng)嵌(qian)入(ru)式GPU、高性(xing)能(neng)(neng)嵌(qian)入(ru)式GPU、高能(neng)(neng)效嵌(qian)入(ru)式GPU，它(ta)們(men)主要(yao)使用(yong)14納(na)米的(de)(de)GCN 1.4北極星微架(jia)構，TDP覆蓋20W-135W范圍(wei)。

Radeon Pro系列(lie)顯卡被廣泛應用于建筑(zhu)工(gong)程、設計制(zhi)造、媒體娛樂等(deng)領域，擁(yong)有(you)AMD遠程工(gong)作站、AMD Eyefinity多屏(ping)顯示技術、AMD Radeon ProRender等(deng)技術。Radeon Pro系列(lie)采用Vega微架構，7或(huo)14納米制(zhi)程，直接競爭對手是英(ying)偉達的Quadro系列(lie)。Radeon Pro移動和臺(tai)式工(gong)作站的合作伙伴包括蘋(pin)果(guo)、戴(dai)爾(er)、惠普等(deng)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲Radeon? Pro VII GPU規格(ge)

3、英特爾：全球GPU追趕者

英(ying)特(te)爾是全球最大(da)的(de)PC GPU供應(ying)商(shang)，也是PC和(he)服務器顯(xian)卡唯一(yi)的(de)IDM廠商(shang)。英(ying)特(te)爾的(de)GPU最早可以追溯到(dao)1998年的(de)i740，但是由于羸弱的(de)性(xing)能(neng)和(he)緩慢的(de)更新速度，一(yi)直(zhi)(zhi)沒有非常大(da)的(de)起色(se)。進入Core i時代后，英(ying)特(te)爾通過(guo)將核芯顯(xian)卡和(he)CPU進行捆綁銷售，利用CPU的(de)龐大(da)市(shi)場(chang)份(fen)額，確立了(le)公(gong)司(si)在集成GPU領域(yu)的(de)寡頭壟斷地(di)位，在此過(guo)程中AMD的(de)APU一(yi)直(zhi)(zhi)是酷睿的(de)直(zhi)(zhi)接競爭(zheng)對手。

2020年，英特爾推(tui)出了第(di)12代GPGPU，采用全新的(de)Xe微架構和10納米Super Fin制程。相較(jiao)于第(di)11代核顯，Xe-LP在(zai)保持電(dian)壓不變的(de)前提(ti)下，大幅(fu)提(ti)升主頻，能(neng)(neng)效(xiao)顯著提(ti)高(gao)。搭載Xe-LP的(de)i7 1185G7在(zai)GPU性能(neng)(neng)方(fang)面(mian)已經(jing)超過同期AMD的(de)Vega核顯和英偉達的(de)MX系列獨顯。

Xe系列可以細分為，集(ji)成/低(di)功(gong)耗(hao)的Xe-LP、娛(yu)樂/游戲的Xe-HPG、數據中(zhong)心(xin)/高(gao)性(xing)能的Xe-HP、高(gao)性(xing)能計算的Xe-HPC。

目前，Xe-LP的集成版(ban)(ban)本(ben)(ben)已經(jing)被(bei)第(di)11代(dai)酷睿所采用。Xe-LP的移動獨(du)立(li)GPU版(ban)(ban)本(ben)(ben)DG1和(he)服務器獨(du)立(li)GPU版(ban)(ban)本(ben)(ben)SG1也已發布(bu)。獨(du)顯版(ban)(ban)在核(he)顯版(ban)(ban)的基礎上進一步提升主(zhu)頻(pin)，并加入了128位4GB LPDDR4X-4266獨(du)立(li)顯存，單精度浮點(dian)算力提升15%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾Xe縱向對比第11代核顯

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾Xe產品線

英特爾的集成GPU在形式上表現為核芯(xin)顯卡。核芯(xin)顯卡使用系統DRAM作為非獨立顯存，通過處(chu)理(li)器內(nei)部(bu)的環狀(zhuang)總線與CPU連(lian)接(jie)，負責(ze)處(chu)理(li)游(you)戲、視頻娛樂等圖像負載。

英特爾Xe核顯借助10納米SuperFin的(de)優勢，將(jiang)處理單元最(zui)高提(ti)升(sheng)至96個，相(xiang)較(jiao)于Icelake的(de)64個提(ti)升(sheng)了50%，并(bing)且(qie)將(jiang)連接CPU和(he)GPU的(de)總(zong)線(xian)帶(dai)寬提(ti)升(sheng)一(yi)倍，獨立最(zui)終緩(huan)存（LLC）提(ti)高50%，支持(chi)最(zui)高86GB/s的(de)存儲帶(dai)寬。以(yi)上這些(xie)提(ti)升(sheng)使i7-1185G7的(de)3DMark跑分較(jiao)前代i7-1065G7提(ti)升(sheng)接近(jin)一(yi)倍，超過(guo)AMD的(de)R74800U和(he)同(tong)期英偉(wei)達的(de)MX350。

Xe核顯的顯示引擎和(he)媒體引擎也都得到加強。接口方面(mian)，內部支(zhi)持(chi)雙(shuang)eDP，外部支(zhi)持(chi)DP1.4、HDMI2.0、雷電4、USB4 Type-C。畫質(zhi)方面(mian)，支(zhi)持(chi)8K、HDR10、12比特BT2020色域、360赫茲刷(shua)新率等。

英特(te)爾Xe核心顯卡和CPU經(jing)由自家One API驅動中(zhong)間層(ceng)框架和上層(ceng)應(ying)用(yong)。英特(te)爾One API解決了編碼模(mo)型在(zai)不同微架構(gou)間的壁壘，最大(da)化跨平臺表現和最小化開發成(cheng)本。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾Tiger Lake 實物圖和Die

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾Tiger Lake Xe核(he)顯3DMark性能對(dui)比

英特爾獨(du)立GPU分為銳炬Xe MAX和服(fu)務(wu)器GPU，均隸屬于Xe LP系列，微架構與核顯Xe相同，采用(yong)標準封裝和10納米SuperFin制程(cheng)。

目前，銳炬(ju)Xe MAX是第一款(kuan)基于英特爾(er) Xe 架構的(de)面向輕薄(bo)型筆記本電腦的(de)GPU。銳炬(ju)Xe MAX在Xe集(ji)成GPU的(de)基礎(chu)上增加(jia)了(le)4GBLPDDR4X-4266的(de)獨立顯(xian)存，TDP 25W，峰值主頻(pin)1650MHz，單精度浮點性能(neng)2.46TFLOPs。銳炬(ju)Xe MAX可以和11代酷睿處(chu)理器、銳炬(ju)Xe GPU同(tong)時工(gong)作。借助英特爾(er)Deep Link技術，獲得具(ju)有強(qiang)大性能(neng)和經過功(gong)耗優(you)化的(de)集(ji)成系統，以改(gai)進(jin)創造力和游戲體驗。

目前(qian)，英特(te)爾服務器GPU在Xe核(he)顯(xian)的(de)基礎上，TDP提升到23W，增(zeng)加了8GB LPDDR4的(de)獨(du)立(li)(li)顯(xian)存，支(zhi)持高密度、低延(yan)遲(chi)的(de)安卓(zhuo)云(yun)游戲和高密度媒體轉(zhuan)碼/編(bian)碼，以(yi)實現實時的(de)OTT視(shi)頻直播。同時，英特(te)爾服務器GPU支(zhi)持2顆、4顆獨(du)立(li)(li)GPU的(de)聚合，成倍提高性(xing)能。

未來(lai)，英(ying)特爾還將推出(chu)面向游戲(xi)和高性(xing)能桌面的Xe HPG產品線，增加了光(guang)線追蹤等(deng)硬件支持，采(cai)用傳統封裝，外包生(sheng)產。英(ying)特爾服務器GPU將使用Xe HPC、Xe HP微(wei)架構，采(cai)用2.5D和3D先進封裝，10納米SuperFin及更(geng)先進自家(jia)或外包工藝。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英(ying)特爾Xe服務器(qi)GPU參數

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾(er)Xe產品、封裝、制程

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲英特爾銳炬Xe MAX

4、ARM Mali：全球GPU IP巨頭

ARM是(shi)全(quan)球(qiu)最(zui)大的(de)半導(dao)體IP提供商。全(quan)世界超(chao)過(guo)95%的(de)智能(neng)手機和(he)(he)平板(ban)電(dian)腦都采(cai)用ARM架構。2019Q2，全(quan)球(qiu)近43%的(de)手機和(he)(he)平板(ban)GPU由Mali驅動。2020第四(si)季度(du)，ARM半導(dao)體合作伙伴基(ji)于ARM技術的(de)芯片出貨(huo)量(liang)達到67億顆，再創歷史(shi)新高(gao)，超(chao)過(guo)其他(ta)所有流行的(de)CPU指(zhi)令集架構—X86、ARC、Power、MIPS的(de)總和(he)(he)。

國產SoC中，有95%是基于(yu)ARM處理(li)器技術(shu)，ARM中國授權客戶超過(guo)150家，基于(yu)ARM架構(gou)的(de)國產芯片出貨量已經超過(guo)184億。

ARM的Mali GPU按(an)性(xing)能可以分(fen)為3大類，分(fen)別是高性(xing)能、主(zhu)流、高能效(xiao)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲ARM IP組合和SoC設計(ji)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲ARM Mali GPU路(lu)線圖(tu)

Arm Mali-G78 GPU是用于(yu)高(gao)端設(she)備的(de)第二(er)代基(ji)于(yu)Valhall架(jia)構(gou)的(de)GPU。Mali-G78是性能最高(gao)的(de)ArmGPU，可支持(chi)復(fu)雜的(de)應用，例如(ru)適用于(yu)Vulkan和OpenCL等所有最新API的(de)游戲圖(tu)形和機器(qi)學習（ML）。

Mali-G78與上一代設(she)(she)備相比，GPU性能(neng)提(ti)高了25％，并增(zeng)強了設(she)(she)備上的(de)ML功能(neng)，從而有助于將高度復雜的(de)游戲帶入移(yi)動設(she)(she)備。Mali-G78最多支持24個內(nei)核，并包含異步頂級功能(neng)，可(ke)確保(bao)性能(neng)有效地(di)分布在各個內(nei)核上，從而使圖形運行更加流暢。全新執行引擎中的(de)新型(xing)融合乘加（FMA）單(dan)(dan)元(yuan)可(ke)進一步降低30%的(de)單(dan)(dan)元(yuan)能(neng)耗。

在GFXBench Aztec Ruin的跑(pao)分中，使用臺積電5納米工(gong)藝，搭載24個Mali-G78內核的麒麟9000 SoCGPU的幀數強于驍龍865的Adreno 650，但仍落后于蘋果A14。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲ARM Mali-G78

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲麒麟9000系列的ARM Mali-G78應用

Imagination Technologies是一(yi)家總部在英(ying)國，專注于半導體(ti)和相關知(zhi)識產(chan)權許可，銷售PowerVR移動(dong)圖(tu)形處理(li)(li)器(qi)，MIPS嵌入式(shi)微處理(li)(li)器(qi)和消費電子產(chan)品。公司還提供無線基帶處理(li)(li)，網絡，數(shu)字信(xin)號處理(li)(li)器(qi)，視頻和音(yin)頻硬件，IP語音(yin)軟件，云計(ji)算，以及芯片和系統設計(ji)服務。2017年，董事會宣布公司被(bei)中資的Canyon Bridge收購。

Imagination在(zai)(zai)GPU領(ling)(ling)域歷史(shi)悠久，在(zai)(zai)其超(chao)過25年的(de)(de)歷史(shi)中，Imagination先(xian)后推出過多代GPU產品，已積累(lei)超(chao)過1500項GPU專利，曾(ceng)為蘋(pin)果供應圖像(xiang)處(chu)理器（GPU），在(zai)(zai)圖像(xiang)處(chu)理器（GPU）領(ling)(ling)域與高(gao)通、ARM三(san)分天下，曾(ceng)占(zhan)GPU市場大約占(zhan)據(ju)三(san)分之一的(de)(de)份額(e)，在(zai)(zai)汽車領(ling)(ling)域更是達到(dao)43%。帶有Imagination IP的(de)(de)芯片產品累(lei)計出貨量已超(chao)過110億。

Imagination的IP包(bao)括(kuo)圖形處理器和視覺與人工智能(neng)(neng)2類。公(gong)司Power VR產品被廣泛(fan)應用于移動設備（智能(neng)(neng)手機、平板）、汽(qi)車(che)（儀表、信息娛樂、輔(fu)助駕駛）、沉(chen)浸(jin)式體驗（AR/VR）、消(xiao)費(fei)電子（電視、機頂盒）。

根據Imagination的GPU路線(xian)圖(tu)，在A系(xi)(xi)列(lie)GPU性(xing)能最高(gao)提升(sheng)(sheng)2.5倍(bei)之后，B系(xi)(xi)列(lie)到D系(xi)(xi)列(lie)GPU的年復合增速在30%左右。2021年的C系(xi)(xi)列(lie)GPU將首次加入L4級別的光(guang)線(xian)追蹤，從硬件層面支持一致性(xing)分類的層次包圍體（BVH）和(he)復雜光(guang)線(xian)處理，相(xiang)比目(mu)前英偉達(da)和(he)AMD的L3級別光(guang)線(xian)追蹤方案可顯(xian)著(zhu)提升(sheng)(sheng)能效，實現(xian)更好(hao)的用戶體驗。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲IMG系列(lie)GPU路線圖

5、全球GPU IP巨頭：Imagination

2020年10月(yue)，Imagination推出了全新(xin)的IMG B系列(lie)GPU，這是(shi)公司(si)第一(yi)個包含(han)新(xin)多(duo)核(he)(he)架(jia)構(gou)的GPU IP系列(lie)，也(ye)是(shi)首次采用RISC-V，可(ke)提(ti)供最高的性能(neng)(neng)密度。得益(yi)于(yu)多(duo)核(he)(he)架(jia)構(gou)和Imagination圖(tu)像壓縮(suo)技(ji)（IMGIC），B系列(lie)相比(bi)A系列(lie)，功(gong)耗降(jiang)低30%，帶寬(kuan)降(jiang)低35%、面積(ji)縮(suo)減25%，AI算力達到24 TOPS，且填充率(lv)比(bi)競品IP內核(he)(he)高2.5倍(bei)。與A系列(lie)相似，B系列(lie)GPU也(ye)支持AI協同技(ji)術，在提(ti)供圖(tu)形(xing)處(chu)(chu)理功(gong)能(neng)(neng)的同時(shi)，可(ke)用備用資源來處(chu)(chu)理可(ke)編(bian)程AI等任務。

IMG B系列GPU共有IMG BXE、IMG BXM、IMG BXT、IMG BXS四種(zhong)系列。其中IMG BXE面(mian)向高清顯示(shi)應用，IMG BXM主打圖形處理體(ti)驗，IMG BXT面(mian)向高性能(neng)應用，IMG BXS面(mian)向未來汽車(che)。

BXS系列符合ISO 26262標準，也是迄今為(wei)止所開發(fa)的最先進(jin)汽車GPU IP內核。BXS提供了一個完整(zheng)的產品(pin)系列，從入門到高端，可(ke)為(wei)下一代人機界面(mian)（HMI）、UI顯(xian)示(shi)、信息(xi)娛(yu)樂系統、數字駕艙、環(huan)繞視圖(tu)提供解決方(fang)案。高計(ji)算能力的配(pei)置可(ke)支持自動駕駛和(he)ADAS。

憑(ping)借核心可擴展(zhan)的優勢，IMG B系(xi)列(lie)適用于傳(chuan)統移動設(she)備、消費類(lei)設(she)備、物聯(lian)網、微控(kong)制器(qi)、數字(zi)電視(DTV)和汽車(che)等市場(chang)領域。IMG B系(xi)列(lie)也可擴展(zhan)至桌(zhuo)面GPU、云(yun)端GPU服務器(qi)，且支持自動駕(jia)駛和輔助(zhu)駕(jia)駛等。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲IMG B系列(lie)對比A系列(lie)能效(xiao)提升

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲Imagination GPU組(zu)合

6、高通Adreno：全球移動GPU先驅

高通的自研GPU Adreno源于收購的AMD移(yi)動GPU Imageon系(xi)列。早(zao)期的Adreno 100系(xi)列只(zhi)有2D圖形加(jia)速和有限的多媒體(ti)功能(neng)。2008年發布的Adreno 200是首款(kuan)被集成到驍龍SoC中的GPU，并(bing)加(jia)入了3D硬(ying)件加(jia)速功能(neng)。

2020年(nian)12月，高(gao)通推出了搭(da)載Adreno 660的驍(xiao)龍(long)888 SoC。Adreno 660繼(ji)承了Adreno650的微架構，采用(yong)了三星(xing)5納米LPE工藝(yi)，大幅提(ti)高(gao)主頻，使圖形渲(xuan)染性(xing)能提(ti)高(gao)35%，能效提(ti)高(gao)20%。Adreno 660全面支(zhi)持Qualcomm? Snapdragon Elite Gaming和(he)Qualcomm? Game Quick Touch ，二(er)者將(jiang)可變速率渲(xuan)染和(he)響應速度分別提(ti)升30%和(he)20%。

在GFXBench Aztec Ruin 1080P測試中，Adreno 660的(de)峰值幀數追平麒(qi)麟9000，但相較蘋果A14仍有近(jin)20%的(de)差(cha)距(ju)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲高通Adreno 660 1080P性(xing)能對比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲高通Adreno 660 GPU

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲高通(tong)Adreno 660參數

7、蘋果：全球移動GPU新秀

蘋(pin)果的自(zi)研(yan)(yan)GPU首(shou)次出現(xian)于(yu)2017年的A11 SoC。A11的三核心(xin)GPU作為(wei)蘋(pin)果的首(shou)款自(zi)研(yan)(yan)GPU，其(qi)性能超過采用Power VR GT7600+的A10 GPU 30%。其(qi)后，所(suo)有的A系列SoC的GPU均(jun)為(wei)蘋(pin)果自(zi)研(yan)(yan)。

2020年，蘋(pin)果推出了(le)5納米制程的(de)M1芯片，該(gai)款SoC基于A14芯片，在CPU、GPU、NPU、緩(huan)存等(deng)各方面(mian)都進行了(le)強化，用(yong)于驅動蘋(pin)果的(de)Mac產(chan)品。M1芯片的(de)發布標志(zhi)著蘋(pin)果繼2005年放棄IBM的(de)PowerPC指令(ling)集轉向Intel的(de)X86指令(ling)集后的(de)又一大PC領(ling)域轉換。

采用(yong)8核(he)GPU的(de)(de)M1擁(yong)有(you)128個(ge)執行(xing)單(dan)元(yuan)，可以同步運行(xing)近(jin)25000個(ge)線(xian)程，單(dan)精(jing)度浮點(dian)算力達到2.6 TFLOPs。M1 GPU的(de)(de)能(neng)效表現是當時同類PC中集成GPU的(de)(de)三倍，峰值性能(neng)最高可達其(qi)他GPU的(de)(de)2倍。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲蘋果M1 GPU參數(shu)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲蘋果M1能效對比

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲蘋(pin)果M1 8核GPU

三、國產GPU自主之路

國(guo)(guo)產(chan)GPU的(de)(de)發(fa)(fa)展(zhan)落后于國(guo)(guo)產(chan)CPU，直到2014年4月，景嘉微才(cai)成功研(yan)(yan)發(fa)(fa)出國(guo)(guo)內首款國(guo)(guo)產(chan)高性能、低(di)功耗GPU芯片—JM5400。在國(guo)(guo)產(chan)GPU的(de)(de)開發(fa)(fa)中，GPU對(dui)CPU的(de)(de)依賴(lai)性和GPU的(de)(de)高研(yan)(yan)發(fa)(fa)難度，阻(zu)礙了該產(chan)業的(de)(de)快速發(fa)(fa)展(zhan)。

首(shou)先(xian)，GPU對CPU有依賴性。GPU結構沒有控制(zhi)器，必須由CPU進行(xing)控制(zhi)調用(yong)才(cai)能工作，否則GPU無法單獨工作。所以國產(chan)CPU較國產(chan)GPU先(xian)行(xing)一步是(shi)符合芯片產(chan)業(ye)發(fa)展邏輯(ji)的。

再者(zhe)，GPU技(ji)術難(nan)度很高。Moor Insights & Strategy首(shou)席分析師(shi)(shi)(shi)莫海德(de)曾表(biao)示：“相比CPU，開發(fa)GPU要更加困難(nan)，而GPU設計(ji)師(shi)(shi)(shi)、工(gong)程師(shi)(shi)(shi)和(he)驅動程序的作者(zhe)都要更少。”國內(nei)人(ren)才缺口(kou)也是國產GPU發(fa)展緩慢(man)的重要原因之(zhi)一(yi)。在(zai)芯片(pian)行業，一(yi)般來說，培養一(yi)位擁有豐富經驗并且能夠根據市(shi)場動態及時修改芯片(pian)設計(ji)方案的成熟工(gong)程師(shi)(shi)(shi)，至少需要10年。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲國(guo)產GPU公(gong)司及其業務(wu)簡介(jie)

中國GPU市場(chang)規模和(he)潛力非(fei)常大(da)，龐大(da)的整機制造(zao)能(neng)(neng)力意(yi)味(wei)著巨(ju)量(liang)的GPU采購。雖然近些年，計(ji)算機整機和(he)智能(neng)(neng)手(shou)(shou)機產量(liang)增(zeng)長(chang)都(dou)出現瓶頸，但由于(yu)這兩類產品體(ti)量(liang)龐大(da)，2019年國內(nei)智能(neng)(neng)手(shou)(shou)機出貨量(liang)為3.72億部(bu)，電子計(ji)算機整機年產量(liang)達到3.56億臺(tai)，GPU的需求量(liang)大(da)且單品價值非(fei)常高，市場(chang)規模依然非(fei)常可觀。

同(tong)時，服務(wu)器(qi)GPU伴隨著整機出貨(huo)(huo)的快(kuai)速(su)成長，需求(qiu)量增(zeng)長也(ye)較為迅(xun)速(su)。據統計，2018年國內服務(wu)器(qi)出貨(huo)(huo)量達到330.4萬(wan)臺，同(tong)比增(zeng)長26%，其中互聯網、電(dian)信、金融和(he)服務(wu)業等行業的出貨(huo)(huo)量增(zeng)速(su)也(ye)均超過20%。另外，國內在(zai)物聯網、車聯網、人工智能(neng)等新興計算領(ling)域，對(dui)GPU也(ye)存在(zai)海(hai)量的需求(qiu)。

據(ju)統計，近年(nian)(nian)來中國(guo)集成(cheng)電路自給(gei)率不斷提升，2018年(nian)(nian)為13%，預計2020年(nian)(nian)有(you)望提升至(zhi)15%，但仍然處于較(jiao)低水平。根據(ju)國(guo)務院印發的(de)《新時期促進(jin)集成(cheng)電路產業(ye)和軟件產業(ye)高質(zhi)量發展的(de)若干政策》等文件，中國(guo)芯片(pian)自給(gei)率要在2025年(nian)(nian)達(da)到70%，這將產生8000億元的(de)國(guo)產芯片(pian)需求。中國(guo)芯片(pian)產業(ye)發展空間非常(chang)大(da)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2019年(nian)中(zhong)國大陸集成(cheng)電(dian)路進口額結(jie)構

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2012-2020年中國大陸集成電(dian)路自(zi)給率(lv)

1、景嘉微：具有完全自主知識產權，打破國外GPU長期壟斷

長沙(sha)景嘉微電子(zi)股份有限公司成立于2006年4月(yue)，位(wei)于長沙(sha)市高(gao)新(xin)技(ji)術開(kai)發區(qu)，公司擁(yong)有經(jing)驗豐富的集成電路設計(ji)團隊，是(shi)國(guo)產GPU的主(zhu)(zhu)要參(can)與(yu)者，也是(shi)唯一自主(zhu)(zhu)開(kai)發并已經(jing)大規模(mo)商(shang)用的企(qi)業。

2014年4月，成(cheng)功研發出國(guo)(guo)內首(shou)款國(guo)(guo)產(chan)高可靠、低功耗GPU芯(xin)片-JM5400，具有完全自主(zhu)知(zhi)識(shi)產(chan)權，打(da)破了國(guo)(guo)外(wai)產(chan)品長(chang)期(qi)壟斷(duan)我國(guo)(guo)GPU市場的局面，在(zai)多個國(guo)(guo)家重點項目中得到了成(cheng)功的應(ying)用(yong)；

2018年8月，公司自(zi)主研發的新一(yi)代(dai)高性能、高可靠GPU芯片(pian)-JM7200流片(pian)成功，將國產GPU的技術發展提高到新的水平，可為各類信息系統提供(gong)強大的顯示能力；

2019年，公司在(zai)JM7200基礎上，推(tui)(tui)出了商用版本(ben)-JM7201，滿足(zu)桌(zhuo)面系(xi)統高性(xing)能顯示需求(qiu)，并(bing)全面支持國(guo)(guo)產(chan)CPU和國(guo)(guo)產(chan)操作系(xi)統，推(tui)(tui)動(dong)國(guo)(guo)產(chan)計算(suan)機的生態(tai)構建(jian)和進一(yi)步完善。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲景嘉微發展歷程

景(jing)(jing)嘉(jia)微(wei)(wei)已完成兩(liang)(liang)個系列(lie)、三款GPU的(de)(de)(de)量(liang)產(chan)應(ying)用(yong)(yong)，產(chan)品覆蓋軍用(yong)(yong)和民用(yong)(yong)兩(liang)(liang)大市(shi)場(chang)。景(jing)(jing)嘉(jia)微(wei)(wei)第一(yi)代GPU JM5400主(zhu)要(yao)運用(yong)(yong)于軍用(yong)(yong)市(shi)場(chang)，替(ti)代原ATI M9、M54、M72等(deng)美系GPU芯(xin)片。景(jing)(jing)嘉(jia)微(wei)(wei)第二(er)代GPU JM7200在(zai)產(chan)品性能和工藝設計(ji)上較(jiao)(jiao)JM5400有較(jiao)(jiao)大提升，是(shi)首(shou)例進入民用(yong)(yong)市(shi)場(chang)的(de)(de)(de)圖形(xing)芯(xin)片。公司與國內主(zhu)要(yao)CPU廠商(shang)(shang)和計(ji)算機(ji)整機(ji)廠商(shang)(shang)已建立合作關系。JM7201在(zai)JM7200的(de)(de)(de)基礎上對(dui)民用(yong)(yong)市(shi)場(chang)的(de)(de)(de)桌(zhuo)面應(ying)用(yong)(yong)進行了(le)優化(hua)，推(tui)出標(biao)(biao)準(zhun)MXM和標(biao)(biao)準(zhun)PCIE顯卡，在(zai)保(bao)證性能的(de)(de)(de)同時，降低(di)了(le)功耗，縮小了(le)體積。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲景(jing)嘉微國產(chan)(chan)GPU芯(xin)片產(chan)(chan)品線(xian)

景嘉微的(de)(de)第二代GPU JM7200系列于2018年8月流(liu)片成功，并在2019年3月獲得首個訂單(dan)。相較于前(qian)代JM5400，JM7200在理論性能(neng)上有(you)(you)翻倍的(de)(de)提升，同時制(zhi)程也進化到了28納米。但是JM7200在顯存帶寬、像素填充率(lv)、浮點性能(neng)等方面較2012年發售，采用完(wan)整版GK107核心(xin)的(de)(de)英偉達GT640還(huan)有(you)(you)相當差距。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲各(ge)景嘉(jia)微GPU參數(shu)對比

2018年12月(yue)，景(jing)嘉微定增募集10.88億元(yuan)，用于高性能(neng)通(tong)用圖(tu)形(xing)處(chu)理器和面(mian)向消費電子(zi)領域(yu)的通(tong)用類芯(xin)片研發(fa)和產業化項目(mu)。其中(zhong)，高性能(neng)通(tong)用圖(tu)形(xing)處(chu)理器項目(mu)包括JM9231和JM9271兩款GPU芯(xin)片，分別面(mian)向不(bu)同應(ying)用領域(yu)的中(zhong)、高檔系列產品。據公司2020年中(zhong)報顯示(shi)，下一(yi)代圖(tu)形(xing)處(chu)理器研發(fa)處(chu)于后端設計階段，研發(fa)進(jin)程(cheng)一(yi)切順利。

景嘉微JM9系(xi)列是繼JM5400和(he)JM7200局部渲染計算(suan)內核之后(hou)，首次采用統一(yi)渲染結(jie)構的(de)(de)GPU，并且增(zeng)加了(le)可編程計算(suan)模塊數量。JM9231和(he)JM9271在性能表現分別與英(ying)偉達于2016年推出的(de)(de)GTX1050和(he)GTX1080相近(jin)。JM9系(xi)列的(de)(de)推出將使(shi)公(gong)司(si)GPU水平(ping)與海外龍頭水平(ping)縮短至5年，大幅(fu)提(ti)升公(gong)司(si)在GPU領域的(de)(de)競爭力。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲景嘉微后續(xu)高(gao)性(xing)能通用GPU性(xing)能參數(shu)對比(bi)

2、芯原微電子：國產GPU IP龍頭

芯(xin)原微電(dian)子是(shi)依托自(zi)主半(ban)(ban)導(dao)體IP，為(wei)(wei)客戶提供平臺(tai)化、全(quan)方(fang)位、一站式芯(xin)片定制服(fu)務(wu)和半(ban)(ban)導(dao)體IP授權服(fu)務(wu)的企業(ye)。公(gong)司(si)(si)至今擁有高(gao)清視頻、高(gao)清音頻及語(yu)音、車載娛樂(le)系統(tong)處(chu)(chu)理(li)(li)器(qi)、視頻監(jian)控(kong)、物(wu)聯(lian)網(wang)連接、數據(ju)中心等(deng)多(duo)(duo)種一站式芯(xin)片定制解決方(fang)案，以(yi)及5類自(zi)主可控(kong)的處(chu)(chu)理(li)(li)器(qi)IP，分別為(wei)(wei)圖(tu)形處(chu)(chu)理(li)(li)器(qi)IP、神經網(wang)絡處(chu)(chu)理(li)(li)器(qi)IP、視頻處(chu)(chu)理(li)(li)器(qi)IP、數字(zi)信號(hao)處(chu)(chu)理(li)(li)器(qi)IP和圖(tu)像(xiang)信號(hao)處(chu)(chu)理(li)(li)器(qi)IP，以(yi)及1,400多(duo)(duo)個(ge)數模混合IP和射頻IP，年均(jun)流片項目超(chao)過40個(ge)。主營(ying)業(ye)務(wu)的應用領域廣泛包(bao)(bao)括消費電(dian)子、汽車電(dian)子、計算機及周邊、工業(ye)、數據(ju)處(chu)(chu)理(li)(li)、物(wu)聯(lian)網(wang)等(deng)，主要客戶包(bao)(bao)括IDM、芯(xin)片設(she)計公(gong)司(si)(si)，以(yi)及系統(tong)廠商、大(da)型物(wu)聯(lian)網(wang)公(gong)司(si)(si)等(deng)。

芯原(yuan)在傳(chuan)統CMOS、先(xian)進FinFET和(he)FD-SOI等(deng)全(quan)球主流半(ban)導(dao)體(ti)工(gong)(gong)藝節(jie)點上都具有(you)優秀的(de)設(she)計能力(li)，先(xian)進工(gong)(gong)藝制程覆(fu)蓋14nm/10nm/7nm FinFET和(he)28nm/22nm FD-SOI，并已開始進行5nm FinFET 芯片(pian)的(de)設(she)計研發和(he)新一代 FD-SOI 工(gong)(gong)藝節(jie)點芯片(pian)的(de)設(she)計預研。

此外(wai)，根據Ipnest統計，芯(xin)原是2019年中國(guo)大陸排名第一(yi)、全球排名第七的半導體IP授權(quan)服務供應(ying)商，全球市場占有率(lv)約為1.8%。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯原股份發展歷程

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2019全球IP企業(ye)市占率排名

芯原(yuan)GPU IP源于公司在(zai)2016年收購的(de)美國(guo)嵌入式GPU設(she)計(ji)商圖芯技術（Vivante）。芯原(yuan)在(zai)GPU IP領域已經掌握了支持(chi)主(zhu)流圖形(xing)加速標準、自主(zhu)可控指令集和可拓展性強，性能范圍(wei)廣泛(fan)等核心技術，可廣泛(fan)應用于IOT、汽車電子、PC等市場。根據 IPnest 報告，芯原(yuan)GPU IP（含(han) ISP）市場占(zhan)有(you)率排名(ming)全球前三，僅(jin)次于ARM和Imagination，2019 年全球市場占(zhan)有(you)率約為 11.8%。

目前，芯原在(zai)圖(tu)形處(chu)理器(qi)(qi)(qi)技(ji)術的(de)研發課題包括通用(yong)(yong)圖(tu)形處(chu)理器(qi)(qi)(qi)運(yun)算內核的(de)持續優化和矢量(liang)圖(tu)形處(chu)理器(qi)(qi)(qi)DDR-Less技(ji)術。矢量(liang)GPU DDR-Less技(ji)術可(ke)以在(zai)不使用(yong)(yong)外部(bu)存儲器(qi)(qi)(qi)DDR的(de)基(ji)礎上，實現架構清(qing)晰、分(fen)工明確(que)、易于使用(yong)(yong)、軟件控制流程簡(jian)單等優點，適用(yong)(yong)于物(wu)聯(lian)網、可(ke)穿戴(dai)設備(bei)(bei)和車載設備(bei)(bei)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲2019全(quan)球(qiu)IP設計分(fen)類

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯原GPU IP的(de)核心技術和典型應用示(shi)例

芯原可拓展Vivante GPU IP應用涵蓋從低功耗(hao)的小型物聯網MCU（GPU Nano IP系列）到面向汽車和計算機(ji)應用的強大(da)SoC（GPUArcturus圖形IP），可滿足(zu)各種芯片尺寸和功耗(hao)預算，是具有(you)成(cheng)本(ben)效益的優(you)質圖形處理器解(jie)決方(fang)案。

芯原(yuan)的的圖形處(chu)理(li)器技術支持業界主流(liu)的嵌(qian)入式圖形加速標準Vulkan1.0、OpenGL3.2、OpenCL1.2 EP/FP和OpenVX1.2等，具(ju)有自主可控(kong)的指令集及專用編譯器，支持每(mei)秒2500億次的浮(fu)點運(yun)算(suan)能力及128個并行(xing)著色器處(chu)理(li)單(dan)元。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯原GPU Nano IP產品線及其可應用場景

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯原GPU IP API和(he)操作系統兼容(rong)性

芯原股份(fen)現有的(de)(de)半導體(ti)IP分為處(chu)理(li)(li)器IP、數模混合IP及(ji)射頻(pin)IP，其中GPU IP隸(li)屬(shu)于處(chu)理(li)(li)器IP。整體(ti)來看，2017-2019芯原得(de)益于不斷豐富的(de)(de)IP儲備及(ji)一站式(shi)芯片定(ding)制業務(wu)的(de)(de)協同效應，公(gong)司半導體(ti)IP授權業務(wu)收入持續上升，GPU IP的(de)(de)年(nian)復合增速達13%。2019年(nian)GPU IP的(de)(de)營收占公(gong)司半導體(ti)IP營收的(de)(de)31.29%，主要由(you)于其他類型IP收入上升，GPU IP比重相對下降。

芯原(yuan)在圖(tu)(tu)形(xing)(xing)處(chu)理(li)器(qi)技術方面(mian)的研發包括高性(xing)能的通用圖(tu)(tu)形(xing)(xing)處(chu)理(li)器(qi)GC8400 IP，該IP適用于汽車(che)電(dian)子(zi)，目前仍(reng)處(chu)IP設計驗(yan)證階段，擬(ni)達到每秒1萬億次的浮點運算能力雙倍精密度，512個并行著色器(qi)處(chu)理(li)單元。

3、航錦科技

航錦科技(ji)(ji)是一(yi)家大(da)型(xing)化工生(sheng)產基地，公司的前身是錦西化工總廠。2017下半年，航錦科技(ji)(ji)通過收購長(chang)沙韶(shao)關和威科電子(zi)兩(liang)家軍工企業(ye)，挺進(jin)電子(zi)產業(ye)，形成化工+電子(zi)雙(shuang)主(zhu)業(ye)發展模式，構建起三個支(zhi)撐板塊(kuai)（化工、電子(zi)、金融）。

航(hang)錦科技電(dian)(dian)子板塊(kuai)以(yi)芯(xin)(xin)(xin)(xin)(xin)片為核心(xin)產(chan)品(pin)(pin)，圍繞(rao)高(gao)端芯(xin)(xin)(xin)(xin)(xin)片與通信兩(liang)大領(ling)域，覆蓋高(gao)端芯(xin)(xin)(xin)(xin)(xin)片（圖形處理芯(xin)(xin)(xin)(xin)(xin)片/特種FPGA/存儲(chu)芯(xin)(xin)(xin)(xin)(xin)片/總線(xian)接口(kou)芯(xin)(xin)(xin)(xin)(xin)片）、北斗3芯(xin)(xin)(xin)(xin)(xin)片以(yi)及通信射(she)頻三(san)大主要產(chan)業。堅(jian)持軍民(min)兩(liang)用(yong)(yong)為發展方向，產(chan)品(pin)(pin)廣(guang)(guang)泛(fan)應用(yong)(yong)于(yu)航(hang)空、航(hang)天(tian)、兵器(qi)、船(chuan)舶(bo)、電(dian)(dian)子等(deng)領(ling)域，擁有廣(guang)(guang)闊的市場空間(jian)。

航錦科技(ji)的(de)GPU技(ji)術源于并(bing)購的(de)長沙韶(shao)(shao)光(guang)(guang)。2018年，長沙韶(shao)(shao)光(guang)(guang)自主研發和合作研發的(de)第一(yi)代及(ji)第二代圖形(xing)處(chu)理(li)芯片（GPU）獲得集(ji)成(cheng)電路布圖設計登記(ji)證書；2019年，長沙韶(shao)(shao)光(guang)(guang)自主研發的(de)第二代改進型圖形(xing)處(chu)理(li)芯片在自主可控設備(bei)領域的(de)應用得到驗證，并(bing)收獲相關訂單。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲航錦(jin)科技自主可(ke)控芯片板塊示(shi)意圖

4、兆芯：同時掌握CPU、GPU、芯片組三大核心技術

上(shang)(shang)海(hai)兆芯集(ji)成(cheng)電路有限(xian)公(gong)司，簡稱(cheng)“兆芯”，由上(shang)(shang)海(hai)聯合投資(zi)有限(xian)公(gong)司（上(shang)(shang)海(hai)市(shi)國資(zi)委完全(quan)出資(zi)）和(he)(he)中國臺灣威盛電子共同成(cheng)立，也是世界(jie)上(shang)(shang)第三家擁(yong)有X86授權(quan)的微處理器公(gong)司，總部位于上(shang)(shang)海(hai)張江(jiang)，在北京、西安、武漢(han)、深圳等地設有研發中心和(he)(he)分支機(ji)構。

公司(si)同(tong)時掌握(wo)CPU、GPU、芯(xin)(xin)(xin)片組三大核心(xin)技術(shu)，且具(ju)備三大核心(xin)芯(xin)(xin)(xin)片及相(xiang)關(guan)IP設計與(yu)研發(fa)的(de)能(neng)力(li)，致(zhi)力(li)于通過(guo)技術(shu)創新(xin)與(yu)兼容主流的(de)發(fa)展路(lu)線，推(tui)動信息產業的(de)整體發(fa)展，并獲評了“高(gao)新(xin)技術(shu)企(qi)業資質(zhi)”。兆芯(xin)(xin)(xin)提供了桌(zhuo)面整機(ji)，服務器，工業主板，工業平(ping)臺，系統級解決方案，在(zai)黨政辦公，交通，金融，能(neng)源，教(jiao)育，網絡安全方面有著廣泛的(de)應用。

2019Q2，兆芯(xin)發布了全新的用(yong)于(yu)PC的處(chu)理(li)器KX-6000系列。KX-6000是業內第一款(kuan)完(wan)整集成CPU、GPU、芯(xin)片組(zu)的SoC單芯(xin)片國產(chan)通用(yong)處(chu)理(li)器。

KX-6000系列(lie)處理器(qi)采用(yong)16納米(mi)制程，集成(cheng)高(gao)性能顯卡，支持DP/HDMI/VGA輸出(chu)(chu)，兼容DirectX、OpenGL、OpenCL等主流API，最高(gao)可(ke)(ke)同(tong)時輸出(chu)(chu)3臺(tai)顯示器(qi)，分(fen)辨率(lv)可(ke)(ke)達4K。

全(quan)新的(de)KX-6000系列(lie)處(chu)理器擁有(you)出色的(de)兼容性和應(ying)用體驗，包括Windows操(cao)作系統，日常辦(ban)公應(ying)用，4K視頻解碼和主流(liu)游(you)戲。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲兆芯KX-6000系列兼容性和應用體(ti)驗

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲兆芯KX-6000處理器(qi)芯片架構?

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲兆芯(xin)KX-6000處理(li)器集成顯卡(ka)參數

兆芯(xin)KX-6000的(de)C-960 GPU在使(shi)用惠普兆芯(xin)圖(tu)形DCH驅動的(de)情況(kuang)下，Dota 2游戲性(xing)能表現遠落后(hou)英特爾酷(ku)睿(rui)i5-7400的(de)UHD 630。未來，兆芯(xin)還會對(dui)KX系列處(chu)理(li)器進(jin)行進(jin)一(yi)步(bu)的(de)更新(xin)(xin)，使(shi)用全(quan)新(xin)(xin)的(de)CPU架(jia)構，將(jiang)(jiang)內存(cun)從DDR4升(sheng)級(ji)為DDR5，將(jiang)(jiang)總線從PCIe3.0升(sheng)級(ji)至PCIe4.0。內存(cun)和總線的(de)升(sheng)級(ji)分別可以(yi)提高顯卡的(de)帶寬和CPU與GPU間的(de)通訊速度(du)。

除(chu)了(le)以(yi)上集成GPU外，兆芯還計劃發(fa)布一(yi)款采用(yong)臺積電28納米工藝(yi)，TDP 70瓦的獨立(li)GPU。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲兆芯(xin)KX6000 GPU游(you)戲性能對比(bi)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲兆芯處(chu)理器發展路線圖

5、凌久電子GPU

凌久電子創立(li)于1983年，是中國船舶重工(gong)集團公司第(di)七〇九研究所控股的高新(xin)技術(shu)企業。

凌久電子(zi)以嵌入式實時信號處(chu)理與高性能(neng)計算(suan)技術為(wei)基礎(chu)，面向船舶(bo)、航空、航天、兵器等(deng)國(guo)防電子(zi)領域及軌道交通、海工裝備、能(neng)源電力、半導體制造等(deng)民用高科(ke)(ke)技領域提供(gong)芯片級(ji)、模塊級(ji)、設(she)備級(ji)、系統(tong)級(ji)等(deng)軟硬件產品；面向科(ke)(ke)研院(yuan)所、部隊及軍(jun)校提供(gong)作定制化軍(jun)事仿真服務(wu)。

凌久電(dian)子(zi)產(chan)品(pin)(pin)包括(kuo)元器件類(lei)(lei)產(chan)品(pin)(pin)、基(ji)礎(chu)硬件設備、基(ji)礎(chu)支(zhi)撐軟件、應(ying)用類(lei)(lei)產(chan)品(pin)(pin)四大類(lei)(lei)。其中國產(chan)通用GPU GP101隸屬于元器件類(lei)(lei)產(chan)品(pin)(pin)。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲凌久電子平臺產品

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲凌(ling)久電子(zi)元器件(jian)類產品分類

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲凌久電子股權結構

GP101是由中(zhong)國(guo)船舶重(zhong)工集團第709研究所控股的凌久電子(zi)研制，具備完全自(zi)主知識產(chan)權的圖形(xing)處理器(qi)芯(xin)片(pian)。GP101支(zhi)(zhi)持(chi)2D/3D圖形(xing)加速，支(zhi)(zhi)持(chi)二維矢量圖形(xing)加速,支(zhi)(zhi)持(chi)4K分辨率、視頻解碼和硬(ying)件圖層處理等功能GP101支(zhi)(zhi)持(chi)VxWorks、Linux、Windows等通用操作系統，支(zhi)(zhi)持(chi)中(zhong)標麒麟、道等國(guo)產(chan)操作系統，支(zhi)(zhi)持(chi)龍(long)芯(xin)、飛(fei)騰、申威等國(guo)產(chan)處理器(qi)。

GP101實現(xian)了(le)我國通用3D顯卡(ka)零的突(tu)破，在信息(xi)安全(quan)和供貨(huo)能(neng)力方便有充分的保障,可以廣泛應用于(yu)軍民多個領域。

6、中船重工716研究所：JARI G12 GPU

七一(yi)六所(suo)自主(zhu)研發的(de)JARI G12是2018年性(xing)能最(zui)強的(de)國產通用圖形處(chu)理器(qi)。該處(chu)理器(qi)采用混合(he)渲染(ran)架構，兼(jian)顧數據(ju)帶寬和渲染(ran)延時需(xu)求(qiu)，極大地(di)增(zeng)強了芯片(pian)的(de)靈活(huo)性(xing)和適應性(xing)；

提(ti)供(gong)PCIe 3.0總(zong)線，支(zhi)(zhi)持(chi)(chi)x86處理器和(he)龍芯、飛騰、申威等國產處理器；支(zhi)(zhi)持(chi)(chi)4路數(shu)(shu)字通道(dao)和(he)1路VGA輸(shu)出，提(ti)供(gong)DP、eDP、HDMI、DVI等通用顯(xian)示介面(mian)，單路數(shu)(shu)字通道(dao)最大(da)輸(shu)出分(fen)辨率為(wei)3840×2160@60fps，支(zhi)(zhi)持(chi)(chi)擴展、復制顯(xian)示和(he)“擴展+復制”顯(xian)示模式；

內建視頻(pin)編(bian)解碼(ma)硬核(he)，支持2路3840×2160分辨率視頻(pin)的編(bian)碼(ma)、解碼(ma)功能(neng)；

支持(chi)OpenGL 4.5和OpenGL ES 3.0，滿足高性能3D加速和VR顯示需(xu)求；

支持OpenCL 2.0，滿足并(bing)行計算(suan)(suan)和云計算(suan)(suan)的(de)使用需求；

集成張(zhang)量加速計算硬核，支(zhi)持(chi)(chi)AI計算加速。該(gai)GPU支(zhi)持(chi)(chi)Windows、Linux、VxWorks等(deng)主流(liu)操作(zuo)系統，同時支(zhi)持(chi)(chi)中標(biao)麒(qi)麟(lin)、JARI-Works、道等(deng)國內自(zi)主可控操作(zuo)系統，具備健全的生(sheng)態環境體系。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲JARI G12架構示意圖

7、芯動科技：國產IP和芯片定制先驅

芯(xin)動(dong)科技是中國(guo)一站式IP和芯(xin)片定制(zhi)領軍企業(ye)，提供(gong)全球6大(da)工藝廠（臺積電/三星/格(ge)芯(xin)/中芯(xin)國(guo)際/聯(lian)華(hua)電子/英特爾）從130nm到(dao)5納米全套(tao)高速混(hun)合電路IP核和ASIC定制(zhi)解決方案，聚焦先進制(zhi)程(cheng)。

芯(xin)動科技15年來(lai)立足本(ben)土發展，所有IP和產(chan)品全(quan)自主可控，連續十(shi)年中國市(shi)場份額(e)領先。公(gong)司客戶群(qun)涵蓋華為海思、中興(xing)通(tong)訊、瑞芯(xin)微、全(quan)志、君正、AMD、Microsoft、Amazon、Microchip、Cypress等全(quan)球知名企業(ye)。

在高性能計算/多媒體&汽車電子/IoT物聯網等領域，芯動解決方案具有國際先進水平，涵蓋DDR5/4、LPDDR5/4、GDDR6/GDDR6X、HBM2e/3、Chiplet、HDMI2.1、32G/56G SerDes（含
PCIe5/4/USB3.2/SATA/RapidIO/GMII等）、ADC/DAC、智能圖像處理器(qi)GPU和多媒體處理內核等多種技術(shu)。芯(xin)(xin)動(dong)科(ke)技的芯(xin)(xin)片定制，跨工藝跨封裝，涉及從需求到產品，能端到端為(wei)客戶加速(su)從規(gui)格、設計到流片量(liang)產，及封裝成(cheng)型全(quan)流程。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯動(dong)科技一站式IP系列(lie)

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯動科技(ji)高(gao)性能計算平臺(tai)IP

2020年10月13日(ri)，芯動科技與Imagination達成合作。采用(yong)最前沿的多晶(jing)粒芯片（chiplet）和GDDR6高速顯存等SOC創新(xin)(xin)，芯動科技將全(quan)球首(shou)發(fa)Imagination全(quan)新(xin)(xin)頂配BXT多核架構。

在信創和(he)算力安全(quan)(quan)方面(mian)，“風華”系列(lie)GPU內置國產(chan)物理不可(ke)克隆(long)iUnique Security PUF信息安全(quan)(quan)加密技(ji)術，提升數(shu)據(ju)安全(quan)(quan)和(he)算力抗(kang)攻(gong)擊性，支持桌面(mian)電腦和(he)數(shu)據(ju)中心GPU計算自(zi)主可(ke)控生(sheng)態。

“風華”系(xi)列GPU自帶浮點和智(zhi)能(neng)(neng)3D圖形(xing)處理功能(neng)(neng)，全定(ding)制多級流(liu)水(shui)計算(suan)內核，兼具高性能(neng)(neng)渲染和智(zhi)能(neng)(neng)AI算(suan)力，還(huan)可級聯組(zu)合多顆芯片合并(bing)處理能(neng)(neng)力，靈活性強，適配國產(chan)桌面市場(chang)(chang)1080P/4K/8K高品(pin)質顯示，支持VR/AR/AI，多路服務器云(yun)(yun)桌面、5G數據中心、云(yun)(yun)教(jiao)育(yu)、云(yun)(yun)游戲、云(yun)(yun)辦公等中國新基建(jian)5G風口下(xia)的大數據圖形(xing)應用(yong)場(chang)(chang)景(jing)。

8、華為海思：GPU Turbo

GPU Turbo是一種軟硬協(xie)同(tong)的圖形(xing)加速技術，可以減少(shao)無用(yong)渲(xuan)(xuan)染次數，優化或合并渲(xuan)(xuan)染區(qu)域。通(tong)過算(suan)法，將相(xiang)關運(yun)算(suan)放在一個或相(xiang)鄰的寄存器中(zhong)，以此來優化圖形(xing)處理(li)效(xiao)率。

GPU Turbo技(ji)術(shu)打通了EMUI操作(zuo)系(xi)統以及GPU和CPU之(zhi)間的處理(li)(li)(li)瓶頸，在系(xi)統底層對傳(chuan)統的圖形處理(li)(li)(li)框架進行了重構(gou)，實(shi)現了軟(ruan)硬件協同(tong)，使(shi)得GPU圖形處理(li)(li)(li)整體(ti)效率得到大幅提(ti)升。

2018年6月(yue)發(fa)布(bu)了GPU Turbo 1.0，圖形處(chu)理效率提高60%，同時做到更(geng)省電，保證高畫質。

2018年9月發布了GPU Turbo 2.0，游戲場景下(xia)功耗下(xia)降可達13.6%，新增支持多(duo)款主(zhu)流(liu)游戲，同時針對(dui)支持的游戲中關鍵&極限場景（如團戰(zhan)、載具等）進行了重點打磨(mo)與優(you)化。

2019年4月(yue)GPU Turbo全新(xin)升級，不僅帶(dai)來主流游戲接近滿(man)幀運行的(de)酣暢體驗(yan)，功(gong)耗的(de)持續降低也(ye)帶(dai)來了續航(hang)時間的(de)提(ti)升。累(lei)計支持60款(kuan)國內(nei)游戲。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲GPU Turbo 2.0能效對比

9、龍芯：GPU突擊隊

中(zhong)科(ke)院計算所于(yu)2001年(nian)成立龍(long)芯課題組，開始(shi)研制龍(long)芯系列(lie)處(chu)理器(qi)，得(de)到了中(zhong)科(ke)院、863、973、核高基等項目大力(li)支持(chi)，完成了十(shi)年(nian)的核心(xin)技(ji)術積(ji)累。2010年(nian)4月，中(zhong)國科(ke)學院和(he)北京市共同牽頭(tou)出資(zi)入股，成立龍(long)芯中(zhong)科(ke)技(ji)術有(you)限公(gong)司(si)，龍(long)芯正式從(cong)研發(fa)走(zou)向產業化。

目前，龍芯自主研(yan)發的(de)(de)GPU集(ji)成(cheng)在7A1000橋片中。龍芯7A1000橋片是面向龍芯3號處理(li)器(qi)(qi)的(de)(de)芯片組，通過HT3.0接口(kou)與處理(li)器(qi)(qi)相連，集(ji)成(cheng)GPU、顯示控制器(qi)(qi)和(he)獨立顯存接口(kou)，外圍(wei)接口(kou)包(bao)括32路PCIE2.0、2路GMAC、3路SATA2.0、6路USB2.0和(he)其它低速接口(kou)，可(ke)以滿足桌面和(he)服務器(qi)(qi)領域對IO接口(kou)的(de)(de)應用(yong)需求，并通過外接獨立顯卡的(de)(de)方式支持高(gao)性能圖形(xing)應用(yong)需求。

雖(sui)然龍(long)芯(xin)7A1000橋(qiao)(qiao)片的GPU性能一般，但是(shi)橋(qiao)(qiao)片作為(wei)CPU產(chan)業(ye)鏈(lian)的一環，龍(long)芯(xin)已經(jing)實(shi)現(xian)CPU、橋(qiao)(qiao)片和GPU上(shang)完(wan)全自主化(hua)，打通了CPU產(chan)業(ye)鏈(lian)上(shang)每(mei)一個環節(jie)。

2020年(nian)，龍芯(xin)成立(li)六支研發突(tu)擊(ji)(ji)隊(dui)，分(fen)別為3A5000突(tu)擊(ji)(ji)隊(dui)、3C5000突(tu)擊(ji)(ji)隊(dui)、7A2000突(tu)擊(ji)(ji)隊(dui)、2K2000突(tu)擊(ji)(ji)隊(dui)、GPU突(tu)擊(ji)(ji)隊(dui)、PCIE突(tu)擊(ji)(ji)隊(dui)。這六支突(tu)擊(ji)(ji)隊(dui)的(de)(de)(de)目的(de)(de)(de)就(jiu)是(shi)要(yao)把2-3年(nian)的(de)(de)(de)工作，在一(yi)年(nian)內干完！

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲龍芯7A1000

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲龍(long)芯7A1000 GPU相關參數

10、芯瞳半導體：高性能GPU設計新星

芯(xin)(xin)瞳半導體成(cheng)立(li)于(yu)2019年，主要業(ye)務包括GPU芯(xin)(xin)片(pian)設(she)計(ji)、異構計(ji)算平臺(tai)方(fang)(fang)案、嵌入(ru)式顯(xian)示系統解決(jue)方(fang)(fang)案、GPU應用(yong)(yong)部署解決(jue)方(fang)(fang)案。公(gong)司著(zhu)力于(yu)研發高性能的(de)(de)GPU芯(xin)(xin)片(pian)，為用(yong)(yong)戶提供以自研GPU芯(xin)(xin)片(pian)為核心的(de)(de)解決(jue)方(fang)(fang)案，致(zhi)力于(yu)打造業(ye)界領(ling)先的(de)(de)GPU芯(xin)(xin)片(pian)設(she)計(ji)平臺(tai)，目標是(shi)成(cheng)為國際一流的(de)(de)GPU芯(xin)(xin)片(pian)設(she)計(ji)企業(ye)。公(gong)司創始團隊(dui)在GPU領(ling)域有著(zhu)超過10年的(de)(de)學術和工(gong)程經驗(yan)，是(shi)一支軟(ruan)硬(ying)件全棧(zhan)式支持的(de)(de)研發團隊(dui)。

公(gong)司(si)的(de)GPU架(jia)構(gou)(gou)采用了業(ye)界主(zhu)流的(de)統一渲(xuan)染架(jia)構(gou)(gou)，并具有高度可(ke)擴展(zhan)的(de)互(hu)聯結構(gou)(gou)和計算陣列，便于芯(xin)(xin)片(pian)后續迭代升級。經過多年的(de)積累，團(tuan)(tuan)隊構(gou)(gou)建(jian)了芯(xin)(xin)片(pian)建(jian)模虛擬平臺，通過該虛擬平臺，團(tuan)(tuan)隊可(ke)以快(kuai)速(su)地完成GPU相(xiang)關軟件的(de)研發和軟件生態的(de)部署，與此同時，在該虛擬平臺上快(kuai)速(su)地對(dui)芯(xin)(xin)片(pian)架(jia)構(gou)(gou)進行驗證，從(cong)而縮短GPU芯(xin)(xin)片(pian)的(de)設計驗證周期，提升GPU芯(xin)(xin)片(pian)的(de)設計效(xiao)能(neng)。

公(gong)司第一(yi)代(dai)(dai)GPU芯片（GenBu01）初測已(yi)成功(gong)，已(yi)與統(tong)信、麒麟及昆侖(lun)完成適配，目前正在為(wei)小批(pi)量量產做最終測試。 GenBu01主要面向的(de)客(ke)戶(hu)(hu)為(wei)需要定制嵌入式(shi)計算機產品的(de)客(ke)戶(hu)(hu)以及為(wei)國產替代(dai)(dai)領域(yu)提供信創(chuang)辦公(gong)PC的(de)ODM/OEM廠(chang)商。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲芯瞳GenBu01參數

11、天數智芯：國產GPGPU領跑者

天(tian)(tian)(tian)數(shu)智(zhi)(zhi)芯(xin)(xin)于(yu)2018年正(zheng)式啟動GPGPU芯(xin)(xin)片設計(ji)(ji)(ji)(ji)，是中國(guo)第一家GPGPU高(gao)端(duan)(duan)芯(xin)(xin)片及超級算(suan)力提(ti)供商。天(tian)(tian)(tian)數(shu)智(zhi)(zhi)芯(xin)(xin)重(zhong)點(dian)打造自主(zhu)可控(kong)、國(guo)際(ji)一流(liu)的(de)通用、標準、高(gao)性(xing)(xing)(xing)能云端(duan)(duan)計(ji)(ji)(ji)(ji)算(suan)芯(xin)(xin)片GPGPU，從芯(xin)(xin)片端(duan)(duan)解決計(ji)(ji)(ji)(ji)算(suan)力問題(ti)；并(bing)推出(chu)面向5G技術需求的(de)邊(bian)緣云端(duan)(duan)推理GPGPU，提(ti)供對當前進口主(zhu)流(liu)GPGPU體系的(de)無縫兼容和(he)市場化(hua)選擇。2021年1月15日，天(tian)(tian)(tian)數(shu)智(zhi)(zhi)芯(xin)(xin)成功(gong)點(dian)亮自研7納米制程GPGPU云端(duan)(duan)訓練芯(xin)(xin)片，性(xing)(xing)(xing)能達市場主(zhu)流(liu)產品的(de)兩倍。該芯(xin)(xin)片量產后將廣(guang)泛應用于(yu)AI訓練、高(gao)性(xing)(xing)(xing)能計(ji)(ji)(ji)(ji)算(suan)（HPC）等(deng)場景，服(fu)務于(yu)教(jiao)育、互聯網、金融、自動駕駛、醫(yi)療、安防等(deng)各相(xiang)關行(xing)業(ye)，賦能AI智(zhi)(zhi)能社會。

天數智芯7納米GPGPU高端自研云端訓(xun)練(lian)芯片的產品優勢(shi)包括：全方位生(sheng)態兼(jian)容、高性能有(you)效算(suan)力(li)、指令集(ji)編程架構、軟硬件(jian)全棧支持、全自主知識產權。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲天(tian)數(shu)智芯(xin)GPGPU BI芯(xin)片參數(shu)

12、壁仞科技和沐曦集成電路

壁仞科技創立于2019年，團隊由國內外芯片和云計算(suan)領域核心專業人員、研發人員組成(cheng)，在GPU、DSA（專用加速器）和計算(suan)機體系結構等(deng)領域具有深厚的技術(shu)積累和獨(du)到的行業洞見。

壁仞科(ke)(ke)技致(zhi)力(li)于開發(fa)原創性(xing)的(de)通(tong)(tong)用(yong)(yong)計(ji)算體系，建立高(gao)效(xiao)的(de)軟硬件平臺，同(tong)時在智能(neng)計(ji)算領域(yu)提供(gong)一體化的(de)解(jie)決方(fang)案。從發(fa)展(zhan)路徑上，壁仞科(ke)(ke)技將首先(xian)聚(ju)焦云端通(tong)(tong)用(yong)(yong)智能(neng)計(ji)算，逐步(bu)在人(ren)工智能(neng)訓(xun)練和推理(li)、圖形渲染、高(gao)性(xing)能(neng)通(tong)(tong)用(yong)(yong)計(ji)算等多(duo)個領域(yu)趕超現有(you)解(jie)決方(fang)案，實現國產高(gao)端通(tong)(tong)用(yong)(yong)智能(neng)計(ji)算芯(xin)片(pian)的(de)突(tu)破。

沐曦集成電路專注于設計具有完全自主(zhu)知識產權，針對異構計算(suan)(suan)等各類應用(yong)(yong)(yong)的高性能(neng)通用(yong)(yong)(yong)GPU芯片。公(gong)司(si)致力于打造(zao)國內最強商用(yong)(yong)(yong)GPU芯片，產品主(zhu)要應用(yong)(yong)(yong)方向包含傳統GPU及移動應用(yong)(yong)(yong)，人(ren)工智能(neng)、云(yun)計算(suan)(suan)、數據中心等高性能(neng)異構計算(suan)(suan)領域。

對于研(yan)發(fa)(fa)的(de)方向(xiang)，沐曦表示(shi)將采(cai)用業(ye)界最(zui)先(xian)進的(de)5nm工藝技術，研(yan)發(fa)(fa)全兼容(rong)CUDA及(ji)(ji)(ji)ROCm生態的(de)國產(chan)高性能(neng)GPU芯片，滿足HPC、數據中心(xin)及(ji)(ji)(ji)AI等方面的(de)計算(suan)需求。GPU將采(cai)用原創專利保護的(de)可(ke)重構GPU架構，突破傳統(tong)GPU芯片能(neng)效瓶頸(jing)；采(cai)用數據壓縮(suo)，數據廣播以及(ji)(ji)(ji)共享(xiang)硬件加速(su)單元等先(xian)進技術，大(da)幅度優化核心(xin)算(suan)力能(neng)耗比。

GPU深度報告，三大巨頭，十四個國內玩家一文看懂 | 智東西內參

▲沐曦高性能(neng)GPU研(yan)發項(xiang)目

12、登臨科技和摩爾線程

登臨(lin)科技(ji)(ji)成(cheng)(cheng)立于2017年11月，是一家專(zhuan)注于為新(xin)興計(ji)算領域提供高(gao)性能、高(gao)功效計(ji)算平臺的(de)(de)高(gao)科技(ji)(ji)企業(ye)。公(gong)司(si)的(de)(de)產(chan)品(pin)是以(yi)芯(xin)(xin)片(pian)為核心的(de)(de)系統解決方案，在所有核心IP上(shang)堅(jian)持(chi)自研路線。登臨(lin)科技(ji)(ji)已(yi)完成(cheng)(cheng)由元(yuan)禾璞華、元(yuan)生(sheng)資本聯(lian)合領投(tou)的(de)(de)A+輪融資，包括北(bei)極光(guang)在內的(de)(de)老股東持(chi)續在本輪加碼(ma)跟進。登臨(lin)科技(ji)(ji)的(de)(de)首(shou)款GPU+（軟件定(ding)義的(de)(de)片(pian)內異構(gou)通用(yong)人工智(zhi)能處(chu)理器)產(chan)品(pin)已(yi)成(cheng)(cheng)功回片(pian)通過測試，開始客(ke)戶送樣，公(gong)司(si)團隊具(ju)備(bei)架構(gou)、系統、軟件、硬件、芯(xin)(xin)片(pian)、驗證等方面的(de)(de)綜合能力。

登臨科技GoldwasserTM GPU+產(chan)品在現(xian)有市(shi)場(chang)主流(liu)的(de)GPU架(jia)構(gou)上，創新采用軟(ruan)硬件協同(tong)的(de)異構(gou)設計(ji)。GPU+異構(gou)設計(ji)讓產(chan)品在對客(ke)戶實際(ji)業務繼承在現(xian)有生態(tai)上的(de)投入(ru)、在保證極(ji)高兼容性(xing)的(de)同(tong)時，相比傳(chuan)統GPU在AI計(ji)算上性(xing)能和能效(xiao)均有明顯提升，大大降低了外部帶寬的(de)需(xu)求，顯著降低客(ke)戶總擁有成本。

摩爾線(xian)程創立于(yu)2020年10月(yue)，去年12月(yue)獲(huo)(huo)得(de)天使輪(lun)(lun)融資(zi)(zi)，今年2月(yue)22日獲(huo)(huo)得(de)Pre-A輪(lun)(lun)融資(zi)(zi)。摩爾線(xian)程致力于(yu)構建中國視覺計(ji)算和人工(gong)智能領域(yu)計(ji)算平臺，研發全球領先(xian)的自(zi)主創新GPU知識產(chan)權，其GPU產(chan)品線(xian)覆蓋通用圖形計(ji)算和高性能計(ji)算。公司核心成員(yuan)主要(yao)來自(zi)英偉達、微軟、英特(te)爾、AMD、ARM等，覆蓋GPU研發設計(ji)、生產(chan)制造、市場(chang)銷售(shou)、服務(wu)支持等完整架構。

13、國產GPU新星：翰博半導體

翰博半導體(ti)成立(li)于2018年12月，立(li)志于發展成為(wei)國(guo)際頂尖(jian)的(de)芯片公司，立(li)足于中(zhong)國(guo)市(shi)(shi)場(chang)，填補國(guo)內市(shi)(shi)場(chang)國(guo)產芯片的(de)空(kong)白(bai)，為(wei)智(zhi)能應用提供高(gao)效算(suan)力，為(wei)人工智(zhi)能創新(xin)以及(ji)應用落地賦能。

翰博半導體擁有(you)國內外專家組成的(de)(de)團隊。公司核心員工(gong)來自世界頂級的(de)(de)高科(ke)技公司，平(ping)均(jun)擁有(you)15年以上的(de)(de)相關芯片(pian)，軟件設計經驗。

瀚(han)博的(de)產品注重計算機視覺及視頻處理(li)的(de)優化，提供豐(feng)富(fu)的(de)特性，高效的(de)性能/功耗；適用多個人工智能領域(yu)。產品覆蓋從邊到(dao)云，SOC及服務(wu)器市場(chang)。

翰博半導(dao)體CEO—錢(qian)軍擁有25年以上(shang)高(gao)端(duan)芯(xin)片(pian)(pian)設(she)計(ji)經驗和(he)(he)(he)40多款芯(xin)片(pian)(pian)設(she)計(ji)和(he)(he)(he)量產(chan)的經驗，帶隊(dui)設(she)計(ji)量產(chan)業界第(di)一顆7納米圖(tu)像處理器(qi)(qi)和(he)(he)(he)AI服(fu)務(wu)器(qi)(qi)芯(xin)片(pian)(pian)，曾任(ren)AMD高(gao)管Senior Director，直接負責設(she)計(ji)團隊(dui)超過800人，全面負責GPU（圖(tu)像處理器(qi)(qi)和(he)(he)(he)AI服(fu)務(wu)器(qi)(qi)）芯(xin)片(pian)(pian)設(she)計(ji)和(he)(he)(he)生產(chan)，現在市場(chang)上(shang)所有AMD Radeon圖(tu)像處理器(qi)(qi)和(he)(he)(he)AI服(fu)務(wu)器(qi)(qi)都是由其帶隊(dui)開發，包括多個(ge)系(xi)列DGPU和(he)(he)(he)MI系(xi)列產(chan)品。

14、國產GPU新星：燧原科技

燧(sui)原科技成(cheng)立于(yu)2018年3月，專注于(yu)人(ren)工(gong)智(zhi)能領域云端算力平臺，致力為人(ren)工(gong)智(zhi)能產業發(fa)展提供(gong)普惠的基礎設施解決方案，提供(gong)自主知識產權的高算力、高能效比、可編(bian)程的通用人(ren)工(gong)智(zhi)能訓練和推理產品(pin)。

燧(sui)(sui)原科(ke)技的產品技術由訓練、推理、軟(ruan)件(jian)(jian)平(ping)臺構成。其中，訓練業(ye)務包含(han)加速(su)卡 “云(yun)(yun)燧(sui)(sui)T10” 和“云(yun)(yun)燧(sui)(sui)T11”；推理業(ye)務包含(han)加速(su)卡 “云(yun)(yun)燧(sui)(sui)i10”；軟(ruan)件(jian)(jian)平(ping)臺包含(han)“馭算”。

“云燧”系列(lie)加速(su)卡采用自研DTU架構，支持(chi)ESL高速(su)互聯(lian)和(he)開放生(sheng)態(tai)。 “云燧”芯片(pian)采用格羅方德的12nm FinFET工藝，結合 2.5D先進封裝(zhuang)，擁有141億晶體管和(he)16GB HBM2顯存，在FP32的算力和(he)能效比方面領先GPU。

計(ji)算及編程平臺“馭(yu)算”，由燧(sui)原自(zi)主研發，支持(chi)主流深度學習(xi)框架，并針對(dui)邃思芯片進行(xing)了針對(dui)性(xing)優化。

智東西認為，GPU設計(ji)(ji)之初是為了圖像處理，但是隨著技術的不斷(duan)迭代升級，GPU的功能已(yi)(yi)經不僅限于“畫圖”，憑借(jie)在(zai)并行處理和通(tong)用計(ji)(ji)算的優勢，GPU在(zai)服(fu)務器、汽車(che)、人工智能、邊緣計(ji)(ji)算等領域已(yi)(yi)經開始大放異彩(cai)。現階(jie)段(duan)，雖(sui)然(ran)國產GPU與英偉達、AMD等世界巨頭差距明顯，但在(zai)一些(xie)空白的細(xi)分(fen)領域或許有很(hen)大的“彎道超車(che)”空間。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、GPU：專用計算時代的“畫師”

二、GPU的全球格局

1、英偉達

2、全球GPU先驅：AMD

3、英特爾：全球GPU追趕者

4、ARM Mali：全球GPU IP巨頭

5、全球GPU IP巨頭：Imagination

6、高通Adreno：全球移動GPU先驅

7、蘋果：全球移動GPU新秀

三、國產GPU自主之路

1、景嘉微：具有完全自主知識產權，打破國外GPU長期壟斷

2、芯原微電子：國產GPU IP龍頭

3、航錦科技

4、兆芯：同時掌握CPU、GPU、芯片組三大核心技術

5、凌久電子GPU

6、中船重工716研究所：JARI G12 GPU

7、芯動科技：國產IP和芯片定制先驅

8、華為海思：GPU Turbo

9、龍芯：GPU突擊隊

10、芯瞳半導體：高性能GPU設計新星

11、天數智芯：國產GPGPU領跑者

12、壁仞科技和沐曦集成電路

12、登臨科技和摩爾線程

13、國產GPU新星：翰博半導體

14、國產GPU新星：燧原科技

相關推薦