芯東西(公眾號:aichip001)
編輯 |? GACS

9月(yue)14日(ri)-15日(ri),2023全球AI芯片峰會(hui)(GACS 2023)在(zai)深圳市(shi)南山區圓滿(man)舉(ju)行。在(zai)首日(ri)主(zhu)題演(yan)講(jiang)中的(de)(de)AI芯片架(jia)構創(chuang)新專場,AMD人工智能事業部高級總(zong)監王宏強分享了主(zhu)題為《AMD Pervasive Al:從(cong)數據中心(xin)、邊緣、客戶端(duan)到終端(duan),Al無所不在(zai)》的(de)(de)主(zhu)題演(yan)講(jiang)。

AMD人(ren)工智能事業(ye)部高級總監王(wang)宏強談道,AMD在單個(ge)GPU能做到(dao)(dao)上千T的(de)浮點(dian)算力(li)規(gui)模(mo),通過多節點(dian)橫向擴展,更是能達(da)到(dao)(dao)每秒百億億次浮點(dian)計算能力(li)(EFLOPS),并提供額外(wai)的(de)超大內存(cun)容(rong)量及帶寬(kuan),可實現700億參數級大模(mo)型在單個(ge)GPU上的(de)部署(shu),并達(da)到(dao)(dao)更高的(de)TCO(總擁有成(cheng)本)。

王(wang)宏強(qiang)(qiang)也特別強(qiang)(qiang)調了AMD AI軟件(jian)的(de)易用性(xing)以及強(qiang)(qiang)大(da)的(de)開放(fang)軟件(jian)生態(tai)的(de)重(zhong)要性(xing),它是釋放(fang)這些創新硬件(jian)性(xing)能的(de)關鍵。AMD通過統(tong)(tong)一AI軟件(jian)實現跨平(ping)臺AI部署,以開放(fang)和模(mo)塊化的(de)方式構建軟件(jian)解決方案(an),從而(er)擁抱(bao)更高層(ceng)次的(de)抽象,并與最重(zhong)要的(de)生態(tai)系(xi)統(tong)(tong)(PyTorch, ONNX, HuggingFace, Open AI Trito, Open XLA等)合作(zuo)對接(jie)推動開箱即用的(de)用戶體驗(yan)。

以下為王宏強的演講實錄:

尊敬的各(ge)位嘉賓,各(ge)位同行(xing),下午好!

我很榮幸今天(tian)有(you)機會(hui)參加芯東西舉辦的(de)(de)AI峰會(hui)上,這也(ye)是AMD第一次在線下參加芯東西舉辦的(de)(de)AI峰會(hui)。

今(jin)天我將與(yu)大家分(fen)享AI無所不在(zai),無限可能(neng)的(de)(de)人(ren)工智能(neng)變(bian)革時代。人(ren)工智能(neng)領域正在(zai)快速變(bian)化。處理如此大量(liang)數(shu)據的(de)(de)計(ji)算能(neng)力對于人(ren)工智能(neng)的(de)(de)發揮(hui)至關重(zhong)要。

一、從云到端,全產品線看向AI,AMD瞄準1500億美元AI芯片市場

人工智能(AI)正(zheng)在快速地變化、快速地發(fa)展,特別是(shi)隨著ChatGPT的(de)推(tui)出。所以(yi)要處理如(ru)此大量的(de)AI計(ji)算(suan),我們需要有非常(chang)強大的(de)AI處理能力硬件平臺和開(kai)放的(de)AI軟件生(sheng)態(tai)系(xi)統。

AMD是非常(chang)專注于異構計算(suan)的(de)一個公司(si),我(wo)們將很大一部分(fen)投入放(fang)在(zai)研(yan)發(fa)處(chu)理(li)AI的(de)平(ping)(ping)臺(tai)上(shang),從數據中心,邊緣,到端(duan),這(zhe)種全(quan)產品線的(de)AI加速解決平(ping)(ping)臺(tai)。同時,我(wo)們也非常(chang)致力于專注發(fa)展開放(fang)的(de)AI軟件生態系(xi)統。

在AMD,非常有幸的(de)(de)(de)是(shi)我們有很多產品線(xian),我們可(ke)以為不同的(de)(de)(de)市場(chang)來服務(wu)。比如說(shuo),在數據中心(xin)的(de)(de)(de)云端,我們有強大的(de)(de)(de)EPYC處理器,用(yong)我們平常說(shuo)的(de)(de)(de)最多的(de)(de)(de)一句(ju)話是(shi)“它是(shi)比強者(zhe)更強的(de)(de)(de)CPU”,從96核到128核的(de)(de)(de)CPU,都(dou)已(yi)經(jing)陸續推出,它們可(ke)以用(yong)來做通用(yong)AI。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

同時,我們(men)也有MI GPU,可以(yi)用(yong)于數(shu)據中心的AI推理和訓練。我們(men)也有用(yong)于工(gong)業、醫療、科學、自動駕駛等應用(yong)的嵌(qian)入式平臺(tai)(tai)。我們(men)的客(ke)(ke)戶群非常地(di)廣(guang)泛,有數(shu)千個嵌(qian)入式的客(ke)(ke)戶使用(yong)我們(men)這些產品。我們(men)也推出了消費級的帶(dai)有AI功能的Ryzen AI PC端加(jia)速平臺(tai)(tai)。

AMD也(ye)正(zheng)是(shi)(shi)看到這(zhe)些(xie)傳統的(de)算法和(he)應用(yong)(yong)正(zheng)在(zai)(zai)被人工(gong)智(zhi)能所替代(dai),特別是(shi)(shi)AIGC,它讓AI變(bian)得普遍(bian)存在(zai)(zai),甚至在(zai)(zai)各個行(xing)業、各個應用(yong)(yong)中(zhong)都可以利用(yong)(yong)它來為我(wo)們人類提供一(yi)些(xie)更加(jia)便利、更加(jia)豐富的(de)生(sheng)活,帶(dai)來更加(jia)安全的(de)駕駛,這(zhe)些(xie)都是(shi)(shi)需要AI技術和(he)平臺來作為支撐。AI最終將變(bian)得非常普遍(bian),無所不在(zai)(zai),人工(gong)智(zhi)能技術將會是(shi)(shi)在(zai)(zai)整(zheng)(zheng)個產業界、行(xing)業一(yi)個絕對性(xing)的(de)大趨勢,引領整(zheng)(zheng)個社會的(de)變(bian)革(ge)。

整(zheng)個(ge)(ge)AI市場(chang),也是(shi)極速地在增長(chang),所(suo)以它(ta)的機會是(shi)無限可能。預計到2027年,在整(zheng)個(ge)(ge)AI市場(chang)中,芯片市場(chang)就將達到1500億(yi)美元(yuan),所(suo)以這也是(shi)各家(jia)企業逐鹿的一個(ge)(ge)戰(zhan)略重地。

二、AI需求多樣化對芯片架構提出挑戰,AMD推出多樣針對性架構創新

隨著這些多樣(yang)化(hua)的(de)(de)(de)人工智能(neng)應(ying)(ying)用(yong)的(de)(de)(de)發展,越來越明顯的(de)(de)(de)是沒(mei)有(you)一(yi)種單一(yi)的(de)(de)(de)架(jia)構或者(zhe)產品(pin)可以去適應(ying)(ying)所(suo)有(you)應(ying)(ying)用(yong)的(de)(de)(de)需(xu)(xu)求。因為各(ge)種需(xu)(xu)求不一(yi)樣(yang),有(you)的(de)(de)(de)是需(xu)(xu)要很(hen)高的(de)(de)(de)計算能(neng)力,有(you)的(de)(de)(de)需(xu)(xu)要很(hen)大的(de)(de)(de)內存,有(you)的(de)(de)(de)可能(neng)需(xu)(xu)要一(yi)個更低(di)的(de)(de)(de)延時或者(zhe)是更低(di)的(de)(de)(de)功(gong)耗。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

比(bi)如在筆記本中,功耗就成為一(yi)個非(fei)常(chang)關鍵的因素(su)。而在云中,有超高(gao)的算力的需求、內(nei)存的需求,需要(yao)數千萬億次的計算來滿足計算負載。

比(bi)如訓練一(yi)些大(da)模型,是需要上(shang)千個GPU節(jie)點才可(ke)能完(wan)成,這些都是需要我們提供強大(da)的(de)計算,存(cun)儲的(de)支撐(cheng)來(lai)滿足(zu)。

例(li)如(ru)自動駕(jia)駛,它對延遲的需求是非常嚴格的,比如(ru)你(ni)需要(yao)在(zai)毫秒(miao)級(ji)的時間范(fan)圍里做(zuo)出一個響應,比如(ru)對路況的判斷(duan)、有沒(mei)有行人、路標的檢(jian)測、要(yao)做(zuo)一系列決策來達到自動駕(jia)駛的安全性。這些可(ke)能(neng)需要(yao)上百TOPS的算力,同時還要(yao)求一個相對比較低(di)的功耗。

在端側,像筆記本電(dian)(dian)腦這些,對于算力能(neng)耗比很關注,電(dian)(dian)池(chi)的(de)消(xiao)耗是非常關鍵的(de)一個因(yin)素(su)。比如我們(men)在Teams、Zoom上開會(hui),就會(hui)利用筆記本電(dian)(dian)腦端側的(de)AI功(gong)能(neng),讓會(hui)議系統變得更(geng)加智能(neng)化。

在(zai)AMD,我們針(zhen)對這(zhe)些不同的(de)(de)需(xu)求(qiu)進行了架構的(de)(de)創(chuang)新(xin)。一(yi)方面,我們高性能的(de)(de)旗艦CDNA架構,建立在(zai)之前多代(dai)GPU的(de)(de)基礎(chu)上。業界有說道:AMD其(qi)實是中國GPU的(de)(de)“黃埔軍校”。可見,AMD在(zai)GPU上還是有很多技術上的(de)(de)積(ji)累和創(chuang)新(xin)的(de)(de)。

為行業(ye)提(ti)供(gong)最高性(xing)能的AI計算(suan)(suan)(suan)解決(jue)方案,并為最大(da)(da)的超(chao)級計算(suan)(suan)(suan)機提(ti)供(gong)支(zhi)持,以(yi)在單個(ge)計算(suan)(suan)(suan)上適應最大(da)(da)的人(ren)工智(zhi)能推(tui)理工作負載(zai)。GPU它提(ti)供(gong)了一個(ge)靈(ling)活的編(bian)程模型來運(yun)(yun)行通用(yong)workloads,單個(ge)計算(suan)(suan)(suan)節點或者GPU來算(suan)(suan)(suan),我(wo)們甚(shen)至可以(yi)做到(dao)數千(qian)TOPS的能力。我(wo)們也(ye)可以(yi)橫向的擴展,使用(yong)多個(ge)節點,達(da)到(dao)千(qian)萬(wan)億次(ci)浮點運(yun)(yun)算(suan)(suan)(suan)的能力。

另外一方(fang)面(mian),我(wo)們有XDNA架構,它是(shi)(shi)基于(yu)AI引擎(qing)的(de)處(chu)理(li)架構,它也是(shi)(shi)一個并行的(de)陣列數(shu)據流(liu)處(chu)理(li)架構,我(wo)們有可以提供(gong)一個非常(chang)高速的(de)、低延時的(de)實時處(chu)理(li),因為它采用(yong)的(de)是(shi)(shi)數(shu)據流(liu)的(de)架構來優化。

上午有(you)同行分享到Chiplet,XDNA就是AMD產品線里(li)(li)非(fei)常(chang)重要(yao)的(de)一個Chiplet,也是重要(yao)的(de)一個計算單元,因為(wei)它可(ke)以(yi)擴展到不同的(de)平臺里(li)(li)面。比(bi)如(ru)在終端,邊緣測嵌入(ru)式(shi)器(qi)件里(li)(li)面,可(ke)以(yi)集成AI引擎(qing)的(de)Chiplet。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

這(zhe)些平(ping)臺是基(ji)于Chiplet的(de)架構(gou),所(suo)以(yi)可(ke)以(yi)根據(ju)算(suan)力需(xu)求去集(ji)成相應數(shu)量的(de)AI Engine,達到(dao)提供(gong)這(zhe)種可(ke)擴展計算(suan)的(de)能力。同時(shi),我們可(ke)以(yi)與CPU、與傳統FPGA還有存儲器(qi)集(ji)成在一(yi)起,做一(yi)個異構(gou)計算(suan)平(ping)臺,來滿(man)足(zu)各種計算(suan)的(de)需(xu)求。甚至可(ke)以(yi)在器(qi)件里(li)面(mian)(mian)去集(ji)成RDNA架構(gou)的(de)獨立的(de)顯卡(ka)iGPU,在一(yi)個APU里(li)面(mian)(mian)。

三、五大產品線多點出擊,700億參數大模型單個GPU部署

我們接下來就看一(yi)下基于這些架構的產品(pin)示例(li)。

AMD的(de)戰略(lve),是要為業界、為同行提供(gong)最廣泛的(de)計算產品的(de)組合,以滿足(zu)人工(gong)智能這(zhe)種普遍性(xing)(xing)的(de)、多樣性(xing)(xing)的(de)需(xu)求。在這(zhe)方(fang)面,我們(men)(men)也取得了非常大(da)的(de)進(jin)展,我們(men)(men)有(you)陸續的(de)推出這(zhe)些(xie)產品。這(zhe)些(xie)(見PPT),都是我們(men)(men)已(yi)經推出來的(de)產品。

在數據中(zhong)心,我們有基(ji)于CDNA架構的(de)Instinct數據中(zhong)心GPU,它可以滿足(zu)AIGC,這些生(sheng)成式(shi)AI的(de)workload的(de)訓練或推(tui)理。

EPYC處理器,有遠超于同(tong)行(xing)的CPU核心數,目前我們(men)可以達到128個(ge)核心數,這些都為(wei)通用AI提供(gong)了強大計算平臺。

基(ji)于Radeon架構的(de)GPU,它(ta)可以通過(guo)AI技(ji)術增強(qiang)游戲體驗變得更好。

Versal AI Edge產(chan)品系列(lie),主要目標(biao)市(shi)場是為嵌入式或者(zhe)邊緣(yuan)側的(de)應用。

對端側的應用,今年(nian)5月(yue)份,我(wo)們推(tui)出了(le)(le)Ryzen AI,這(zhe)個產(chan)品(pin)(pin)是集(ji)(ji)成了(le)(le)CPU、XDNA AI Engine的IPU,還有(you)RDNA的iGPU集(ji)(ji)成在一個異(yi)構計算平(ping)臺里,可(ke)以用來滿足電腦市場這(zhe)些AI推(tui)理的需求(qiu)。這(zhe)個產(chan)品(pin)(pin)已經發貨,已經有(you)超過35個PC系列里,集(ji)(ji)成了(le)(le)Ryzen AI這(zhe)款產(chan)品(pin)(pin)。

接下來我們具體看一(yi)下,這些產品如何去滿(man)足(zu)這些多樣化(hua)的AI市場需求(qiu)。

AMD的(de)Instinct GPU主要是用在數據(ju)中心,它是專為生成式AI而設計的(de)GPU。

它將(jiang)CDNA 3與業界(jie)領(ling)先的HBM3相結合,采用業界(jie)領(ling)先的2.5D/3D Chiplet結構構建,它提(ti)供高達數千TOPS的計算(suan)能(neng)力,并(bing)提(ti)供額外(wai)的,超大的內存容(rong)量,我(wo)們(men)對大模(mo)型(xing)有(you)優勢(shi),因為我(wo)們(men)可以直接在內存中運(yun)行更(geng)大的模(mo)型(xing),減少(shao)所需的GPU數量顯(xian)著提(ti)高性能(neng),尤(you)其是推(tui)理性能(neng)。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

這個產品可以支持700億(yi)參數的模型(xing)在單個GPU上做部署,是因為它(ta)有更大(da)的內(nei)存容量(liang)及帶寬。

業(ye)界其他的(de)(de)GPU不能做到700億參數的(de)(de)模(mo)型在同一個GPU里(li)部署,可(ke)能需要兩(liang)個GPU來(lai)實現(xian)。

請繼續關注,我們將在今年晚些時候分享(xiang)有關該(gai)產品的(de)更多信(xin)息。

我們(men)剛(gang)剛(gang)講的(de)是在數(shu)據中(zhong)心這(zhe)一(yi)側。其實終端(duan)AI也在快速發生變化。

今年早些時(shi)候,我們(men)推出了(le)Ryzen AI系列,這個產品是基(ji)于(yu)我們(men)XDNA的核心引擎(qing)作為基(ji)礎AI推理及(ji)運算,在一個APU封裝里面集成了(le)CPU、iGPU。

投(tou)入到市場以來(lai),其受到業界ISV,OEM的追(zhui)捧,有35個筆記(ji)本電腦(nao)已經(jing)利用到這個產品來(lai)提供AI解決(jue)方案。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

AMD Ryzen AI的專用AI硬件開啟個人電腦(nao)新時代(dai),電腦(nao)首先(xian)會被(bei)AI化,Windows12即將發布,將全面基于AI(ChatGPT)技術。

據(ju)行(xing)業專業人士分析:“AI將(jiang)改變電腦的每一個(ge)應(ying)用、每一個(ge)體驗!今(jin)天買電腦,推薦買AI電腦!

四、AI不止于硬件,軟件開發和生態系統建設是重中之重

我(wo)們(men)剛(gang)剛(gang)講了很多硬件(jian)相(xiang)關的(de),與支持(chi)這(zhe)些創(chuang)新(xin)硬件(jian)的(de)架(jia)構創(chuang)新(xin)一樣,我(wo)們(men)需要強大的(de)AI軟件(jian)及生態來使(shi)能(neng)發(fa)揮這(zhe)些創(chuang)新(xin)硬件(jian)們(men)的(de)性能(neng)。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

首先AI軟(ruan)件開發穩步提(ti)高了(le)硬件編程的抽象級(ji)別(bie)。

已經從用以前匯編或C編寫(xie)的代(dai)碼(ma)->線性代(dai)數庫(ku)或卷(juan)積庫(ku)等庫(ku)->PyTorch/TensorFlow 等框(kuang)架→轉(zhuan)向位(wei)于框(kuang)架之上的更高級別的API,獲(huo)得最(zui)佳的開箱(xiang)即用體驗(yan)。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

隨著AI軟件越(yue)來越(yue)有能(neng)力釋放(fang)硬件的(de)巨大進步,人(ren)工智(zhi)能(neng)創新也(ye)出現了(le)巨大的(de)加速。自2018年以(yi)來,Transformer掀起了(le)一場革命,出現了(le)諸如ChatGPT推出等分水嶺(ling)時刻(ke)。

開放生(sheng)態系(xi)統中也發生(sheng)了大(da)量此類(lei)創新(xin):更(geng)大(da)的模(mo)(mo)型(xing)(xing)(xing)(xing)、或更(geng)小的模(mo)(mo)型(xing)(xing)(xing)(xing)、模(mo)(mo)型(xing)(xing)(xing)(xing)得到微(wei)調(diao)、模(mo)(mo)型(xing)(xing)(xing)(xing)是多(duo)模(mo)(mo)式的、模(mo)(mo)型(xing)(xing)(xing)(xing)之間甚至相(xiang)互(hu)交互(hu),模(mo)(mo)型(xing)(xing)(xing)(xing)變得更(geng)加高(gao)效、模(mo)(mo)型(xing)(xing)(xing)(xing)與人類(lei)目標保(bao)持一致,模(mo)(mo)型(xing)(xing)(xing)(xing)變得值得信(xin)賴可靠。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

隨著創新的(de)加速(su),我(wo)們(men)既看到(dao)了挑戰,也看到(dao)了絕佳(jia)的(de)機遇。我(wo)們(men)正在以開放和模(mo)塊(kuai)化的(de)方式構建(jian)我(wo)們(men)的(de)軟(ruan)件解決方案(an),以擁(yong)抱(bao)更(geng)高(gao)層次的(de)抽象(xiang)并與開放生(sheng)態系統緊密協作。

在AMD,我們擁有三個(ge)軟件(jian)平臺(tai):用(yong)(yong)于(yu)GPU平臺(tai)的(de)ROCm、用(yong)(yong)于(yu)XDNA AI引擎(qing)平臺(tai)的(de)Vitis AI以及(ji)用(yong)(yong)于(yu)EPYC CPU平臺(tai)的(de)zenDNN。

AMD正(zheng)在(zai)進行大量投(tou)資(zi),以(yi)確保我們的(de)客戶在(zai)從更高抽(chou)象級別(bie)進行編譯時獲得最佳的(de)開箱即(ji)用體驗 。

AMD也在開(kai)發統一的(de)AI軟件用于(yu)AMD所(suo)有平臺,從而達到簡(jian)化(hua)使用的(de)用戶體驗。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

我(wo)(wo)們正(zheng)在(zai)這樣做,我(wo)(wo)們正(zheng)在(zai)取得的巨大進展,而且還通過與最(zui)重要(yao)的生(sheng)態系統參與者合(he)作,像PyTorch這樣的框架(jia)和像Hugging Face這樣的模型(xing)中(zhong)心。

舉(ju)個具體的(de)例子,基于我(wo)們(men)與(yu)PyTorch的(de)廣泛合(he)(he)作,PyTorch 2.0在第0天(tian)就支持ROCm 5。與(yu)Hugging Face的(de)合(he)(he)作正(zheng)在幫助我(wo)們(men)在所有AMD平(ping)臺上運(yun)行(xing)各(ge)種AI模型。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

這是我(wo)們GPU的(de)(de)軟件開發(fa)棧,它是在GPU上做(zuo)AI開發(fa)、運行和調整 AI模型和算法所需的(de)(de)一整套庫、編(bian)譯器和Runtime工(gong)具。

AMD ROCm堆棧的(de)(de)很大一(yi)部(bu)分(fen)是(shi)開放的(de)(de)。我(wo)們的(de)(de)驅動程(cheng)序、Runtime、調試器和分(fen)析器等(deng)工(gong)具以(yi)及我(wo)們的(de)(de)庫都是(shi)開放的(de)(de)。

ROCm 5擁有一整(zheng)套(tao)優(you)化,可(ke)提供具有競爭力的性能……算法和內核(例如(ru)flashattention)、新的降(jiang)低精度的數(shu)據類型,以及新興工具(例如(ru)Triton)。

我們將ROCm連接到開放生(sheng)態系統方面取得了重大進展,包括PyTorch等(deng)(deng)框(kuang)架和Hugging Face等(deng)(deng)模(mo)型中心。以幫助客(ke)戶在AMD GPU平(ping)臺上快速移植(zhi)、優(you)化和部署其(qi)AI模(mo)型。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

對用(yong)戶(hu)來講,他最(zui)關心的(de)是(shi)從(cong)不同的(de)GPU平臺或者說友商的(de)GPU平臺如何遷(qian)移到AMD的(de)GPU上?

AMD提供與NVIDIA等(deng)效的庫功能,由框架調用(yong),在框架層面開發的用(yong)戶可以(yi)獲得“即(ji)插(cha)即(ji)用(yong)”的兼容軟件體驗。

像基礎模(mo)型(xing)構建者這(zhe)樣高度復雜的(de)用戶(hu)通常擁有一定(ding)數量的(de)自定(ding)義(yi)內核代碼,需要與(yu)AMD AI軟件工(gong)程結合(he)進行(xing)聯合(he)優化。HipiFY工(gong)具可讓(rang)您非常快速地實(shi)現功能等(deng)效。致力于(yu)這(zhe)些(xie)定(ding)制內核的(de)性能優化。AMD已經與(yu)客戶(hu)成功做到(dao)了這(zhe)一點,并展示了在聯合(he)優化后達到(dao)與(yu)NVIDIA同(tong)等(deng)性能的(de)能力。與(yu)此同(tong)時,AMD不斷優化和(he)改進我們的(de)庫(ku)。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

這里是(shi)Mosaic實(shi)現無縫遷移至AMD GPU的成功案例,基(ji)于PyTorch 2.0和(he)ROCm 5,ROCm直接替(ti)代(dai)CUDA,RCCL替(ti)代(dai)NCCL,Infinity Fabric替(ti)代(dai)節點內的NVSwitch。從而實(shi)現大模型訓(xun)練(lian)在AMD MI250加速器上開箱(xiang)即用,零(ling)代(dai)碼更改和(he)高性(xing)能(neng)。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

我(wo)們來看一下(xia)AMD在的client側AI軟(ruan)件解決方案。

自從我(wo)們(men)今年早些(xie)時候(hou)宣布該產品以來,ISV和(he)用(yong)戶開發人員都非(fei)常希望在(zai)我(wo)們(men)的(de)(de)AI平(ping)臺上(shang)開發應用(yong)的(de)(de)需求為(wei)了滿足這一(yi)巨大的(de)(de)興(xing)趣,我(wo)們(men)在(zai)今年早些(xie)時候(hou)與 微軟(ruan)Build活動(dong)中表示,我(wo)們(men)在(zai)微軟(ruan)的(de)(de)ONNX Runtime框架下提供我(wo)們(men)的(de)(de)工(gong)具。

這(zhe)使得開(kai)發(fa)人員(yuan)可以使用ONNX中熟悉的API進行模型部(bu)署。

現在我(wo)們(men)眼見為實,我(wo)給(gei)大家演示一下在AMD GPU平(ping)臺(tai),Ryzen AI平(ping)臺(tai)上跑各種大模(mo)型。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

這是在我(wo)們MI GPU上實現一個(ge)(ge)Stable Diffusion的推理(li),可以很(hen)快地圖(tu)文生成,在毫秒級里達到(dao)這個(ge)(ge)目標。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

展示我們在(zai)Ryzen AI筆記本電腦上(shang)實現(xian)(xian)多(duo)個AI應用時,提供(gong)有保證的QoS, 無抖動性能(neng)。同(tong)時實現(xian)(xian)人臉檢測、深度(du)估計(ji)、場景檢測。這(zhe)與其他需(xu)要(yao)以分(fen)時方式共享AI計(ji)算(suan)資源(yuan)的AI架構不同(tong)。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

另外,我(wo)(wo)(wo)們(men)(men)今天(tian)也提到(dao),AI已經從云(yun)到(dao)端,甚至是混合式(shi)AI。我(wo)(wo)(wo)們(men)(men)的(de)解(jie)決方案(an),不(bu)僅可以在(zai)云(yun)上去(qu)(qu)做這(zhe)(zhe)些大模(mo)型,我(wo)(wo)(wo)們(men)(men)也可以在(zai)端側(ce)、在(zai)我(wo)(wo)(wo)們(men)(men)的(de)筆記本(ben)里面去(qu)(qu)做這(zhe)(zhe)些大模(mo)型。這(zhe)(zhe)個例(li)子就是我(wo)(wo)(wo)們(men)(men)用MI系列GPU,實現了一個700億參數的(de)大模(mo)型,實現圖文(wen)生成圖文(wen)。這(zhe)(zhe)個是讓它寫一個有(you)關舊金山的(de)詩文(wen)。在(zai)我(wo)(wo)(wo)們(men)(men)端側(ce),我(wo)(wo)(wo)們(men)(men)是跑的(de)是OPT模(mo)型,實現文(wen)字生成。

AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

我們基(ji)于Radeon架(jia)構,不(bu)僅(jin)可(ke)以實(shi)現3D渲染,同時可(ke)以做AI的訓練(lian)或者推(tui)理(li),快(kuai)速(su)平穩地(di)進行加速(su)。

AMD會繼續地(di)加大(da)(da)AI的(de)(de)投(tou)入,將強大(da)(da)的(de)(de)AI處(chu)理能力的(de)(de)產(chan)品引入云、邊緣和端,并且(qie)我們致力于(yu)與(yu)廣(guang)大(da)(da)AI開發者,社區一道提(ti)供(gong)開放的(de)(de)AI軟件生態(tai)系統,與(yu)廣(guang)大(da)(da)AI開發者、用戶,同超越(yue),共成(cheng)就。這就是(shi)我今天與(yu)各位分享的(de)(de)所有內容,感謝大(da)(da)家寶(bao)貴的(de)(de)時(shi)間。

以上是王宏強演講內容的完整整理。