
芯東西(公眾號:aichip001)
編輯 |? GACS 2024
2024全球AI芯(xin)片(pian)峰(feng)會(GACS 2024)于9月6日~7日在(zai)北京舉行,大會由(you)智(zhi)一科技旗下芯(xin)片(pian)行業媒(mei)體芯(xin)東西(xi)和硬科技知識分享社區智(zhi)猩猩發(fa)起舉辦。在(zai)大會第一天的主會場開(kai)幕式上,AMD人工(gong)智(zhi)能事業部高級總(zong)監(jian)王宏強以《推進大模型從(cong)云(yun)到端部署(shu),打造變革性(xing)未來(lai)》為題發(fa)表(biao)演講。
AMD在端(duan)到(dao)端(duan)的(de)(de)AI基(ji)礎設(she)(she)施領(ling)域打造了(le)全面的(de)(de)產品線,覆蓋從數(shu)據(ju)中心(xin)服務器(qi)、AI PC到(dao)智能(neng)嵌(qian)入(ru)式和邊緣(yuan)設(she)(she)備,并提供(gong)領(ling)先的(de)(de)AI開源軟件及開放的(de)(de)生態系統。AMD基(ji)于先進ZEN4架構設(she)(she)計(ji)的(de)(de)CPU處理器(qi)平臺、基(ji)于CDNA3架構面向AI推(tui)理&訓練的(de)(de)MI系列加速器(qi),已被微軟等巨頭采用。
據AMD人工(gong)智能事業(ye)部(bu)高(gao)級總監王宏(hong)強分享,AMD還在推動數據中心高(gao)性(xing)能網(wang)絡基礎設施(UALink,Ultra Ethernet),這對AI網(wang)絡結構需(xu)要支持快速切換和極低延(yan)遲(chi)、擴展AI數據中心性(xing)能至關重要。AMD即將發(fa)布下一代高(gao)性(xing)能AI PC芯片,其(qi)基于第二(er)代XDNA架構的Ryzen AI NPU,可提(ti)供50TOPS算力,將能效(xiao)比提(ti)高(gao)至通用架構的35倍。
在(zai)AI PC對隱私、安全(quan)和數據自主(zhu)性的推動下(xia),重要(yao)的AI工作負載開(kai)始部(bu)署在(zai)PC上。作為全(quan)球領先的AI基礎設施(shi)提供商之一,AMD愿(yuan)意攜(xie)手廣(guang)大客戶與開(kai)發者(zhe)共建變革(ge)性未來。
目前,為了推進AI從云到端部(bu)署,AMD重點(dian)主要(yao)集(ji)中在(zai)提供豐富多樣的(de)高性(xing)能(neng)和自適(shi)應硬(ying)件和軟(ruan)件解決方案組合、建設(she)開放式生態系統、將(jiang)復雜的(de)工作負載(zai)簡化為引人入(ru)勝(sheng)的(de)用戶體(ti)驗這三大關鍵領域(yu)。
▲AMD人工(gong)智能事業部高級總(zong)監(jian)王宏強
以下為王宏強的演講實錄:
自去年以來,人工智能(AI)領域實現了顯著的發展,尤其是在大模型和生成式AI方面。AMD在這些技術產品方面逐步推出了從硬件(jian)平臺到軟件(jian),從端(duan)到端(duan)的解決方案。
AMD擁(yong)有非常(chang)全(quan)(quan)的(de)產品線,從數(shu)據(ju)中心服務器,到邊緣側的(de)Edge&Embedded,還有AI PC,都有非常(chang)全(quan)(quan)面的(de)硬件AI平臺。
AMD公司真正做到針對不同數據中心業務需求進行優化,以滿足各種工作負載。這包括使用CPU處(chu)理(li)器進行輕量(liang)級(ji)AI推理(li),或者利用MI加速(su)器(qi)處理大規模任務,尤其是當前生成式AI大模型的推理和訓練。
同時,我們知道在數據中心,除了推理和訓練,特別是在訓練里面,我們需要有Scaling Out(橫向擴展)和Scaling Up(縱向擴展)。在同一個(ge)節點里面有(you)(you)多卡互聯,在不同節點之間則是需要有(you)(you)Scaling Out擴大整(zheng)個(ge)處理的能力。
針對這方面,我們集(ji)中(zhong)發展開放的高速(su)互聯,如UALink和Ultra Ethernet,我們在計算和跨節點互聯方面都提供了重要的技術支持。AI網絡有一個很重要的需求,就是需要一個極(ji)低(di)的(de)延時和(he)響應的(de)時間,AMD找的是開放的UALink和Ultra Ethemet,更好地與業界(jie)其他客戶一起構建我們整個的計算加(jia)速(su)平臺。
一、加速器輕松處理上萬億參數模型
AMD的EPYC系列新一代CPU擁有多達192個核心和384個線程,這是基于我們最新的ZEN5架構(gou)設計的,它相比上一代也有非常大的性能提升,不(bu)僅是從Instruction Bandwidth(指令(ling)帶寬(kuan)),還有數(shu)據的Bandwidch(帶寬(kuan)),比如(ru)L2到L1的,還有L1到浮點數(shu)據的帶寬(kuan)都有提(ti)升2倍(bei)。
同時,我們(men)的AVX-512技(ji)術是完整的,它(ta)在數據的buffer(緩沖區)也有帶(dai)寬,從而能(neng)夠更有效地支持AI推理(li)服(fu)務。
自去年12月以來,我(wo)們在(zai)數據(ju)中心也推出了一系列(lie)新(xin)的(de)MI加(jia)速器,這些(xie)產品已經被(bei)包括微(wei)軟在(zai)內(nei)的(de)大型互聯網(wang)公(gong)司采用。
我們加速的板(ban)卡已經被服務器制(zhi)造(zao)商,包括(kuo)OEM(原始設(she)備制(zhi)造(zao)商)和ODM(原始設(she)計(ji)制(zhi)造(zao)商)集成到他們的服務器中。
對于用戶(hu)而言(yan),只要(yao)購買了(le)這些服(fu)務(wu)器,就可(ke)以(yi)獲得內置我們(men)的CPU和MI加速器的系統,并用于執行AI推理和訓練任務(wu)。
目前,在大模型生成式AI領域,ADM也是(shi)一直在提升我們(men)的架構(gou)。我們(men)原來是(shi)Llama3的架構(gou),對此我們(men)也將繼續(xu)演進(jin)。
在存(cun)儲容量和存(cun)儲帶寬(kuan)方(fang)面,我們也(ye)取得了快(kuai)速的(de)發展。預計到今年(nian)年(nian)底,大家將會看(kan)到一(yi)些相關的(de)更新(xin)產品(pin)的(de)發布(bu)。
我們將更有效地支持當前在大模型的推理,例如Llama和(he)GPT等。讓所有的這些模型都能輕松地在我們的加速器上運行。更為重要的是,我(wo)們的加速器(qi)甚至能夠(gou)處理具有上萬億參數(shu)的模型。
二、GPU設計完全開源,人人都可對代碼進行修改
在GPU軟件設計上,我們有ROCm,它是一個開源的加速器軟件。我們不僅設計是開源的,而且整個架構也是模塊化的,對(dui)用戶完全開(kai)放(fang)、開(kai)源。
用戶和社區(qu)成員都(dou)可(ke)以訪問這(zhe)些開源代碼,你(ni)甚至可(ke)以對代碼進(jin)行(xing)修改。我(wo)們鼓勵更多地去把(ba)AI整(zheng)個社區(qu)的貢(gong)獻集成在我(wo)們整(zheng)個ROCm平臺(tai)里面。
我們針對(dui)當下最熱的(de)生成式AI也做了(le)很多創(chuang)新,比如像(xiang)(xiang)對(dui)RADEON這個開源推理(li)引擎(qing)的(de)支持。此外,我們還(huan)積極支持了(le)像(xiang)(xiang)SGlang這樣的(de)新型開源推理(li)引擎(qing)。
SGlang和RADEON之間存在一些差異,特別是(shi)在調(diao)度上。與CUDA這個相對閉(bi)源的環(huan)境不同,我(wo)們(men)支持(chi)不同的開源推理(li)引擎,使用戶、社區(qu),整個生態處在一個環(huan)境里(li)面。
為了支持生成式AI的大模型,我們對FlashAttention-2和FlashAttention-3進行了優化,包括(kuo)對FP8這些算子的支持。這些都是用在推理里面非常典型的數據類型,在訓練里面,我們(men)也能夠支持BF16的數據類型。
除了(le)提(ti)供算子支(zhi)持(chi),我(wo)們還(huan)支(zhi)持(chi)通(tong)信,包括RCCL優化和(he)虛擬化技術的支(zhi)持(chi)等。
三、AI發展不僅在于硬件,軟件和基礎設施投入同樣重要
我(wo)們堅持在(zai)AI的(de)(de)軟(ruan)件(jian)及基礎設施(shi)上的(de)(de)投入(ru)。除了加(jia)大自(zi)己內部的(de)(de)投入(ru),我(wo)們還會收購一些業界(jie)比較(jiao)有名的(de)(de)公司。
最近我(wo)們收購了SILO.ai,這是一(yi)家擁(yong)有(you)眾多(duo)杰出AI案例的(de)公司。
通過收購SILO.ai,我們(men)不僅能夠進(jin)一步提供AI優化技(ji)術,還(huan)獲得(de)了他(ta)們(men)在AI開源(yuan)領域積(ji)累的豐富專業知識。
我(wo)們也收購了ZT Systems。作為行業(ye)領先的(de)數據中心,ZT Systems專注于AI基礎(chu)設施。
我們不僅從軟件(jian)、硬件(jian)平臺,還(huan)從整個(ge)機(ji)框、機(ji)架這一(yi)整套來(lai)提供AI加速的能力。
開源加速的發(fa)展速度在(zai)不斷加快,每天都有(you)新的開源算子和(he)框(kuang)架被推出。
AMD本著開源開放的戰略(lve),積極(ji)在開源社區進行部署和推(tui)廣新模型(xing)。我們借助整個生態系統的力(li)量,迅速(su)推(tui)動AI技術的發展,這與相對(dui)封閉的CUDA環境完全不一樣(yang)。
我們(men)與HuggingFace的合(he)作(zuo)也是(shi)非常緊(jin)密的。HuggingFace上(shang)有(you)70多萬個模型,每天我們(men)都會進行一些(xie)測試,保證它的這(zhe)些(xie)模型都是(shi)可以直接運行在(zai)我們(men)加速(su)器的平臺上(shang),包括在(zai)數據中心里面(mian),還(huan)有(you)在(zai)個人(ren)筆記(ji)本Ryzen平臺上(shang)。
我們(men)還與(yu)OpenAI Triton合作(zuo),它提供了(le)更高層次的(de)AI語言抽象,使我們(men)能夠在更高層次的(de)語言抽象上更容易地(di)實現功能。此外,我們(men)很早就開始支持像(xiang)PyTorch這(zhe)樣的(de)推理(li)框架。
四、XDNA2架構下的NPU,算力與存儲提升
剛(gang)剛(gang)介(jie)紹了我們在數(shu)據中(zhong)心的投入,實際上我們在AI PC的投入也非常大。
我們一直在RyzenAI平臺(tai)引領AI PC。
現(xian)在越來越多的應(ying)用可(ke)以(yi)(yi)跑在個人筆記(ji)本電(dian)腦(nao)(nao)里面(mian),比如一些(xie)實時的協同都(dou)可(ke)以(yi)(yi)在個人電(dian)腦(nao)(nao)里面(mian)跑一些(xie)大(da)模(mo)型,通過這些(xie)大(da)模(mo)型作為基座,去開發各(ge)種應(ying)用,這就使得(de)各(ge)種應(ying)用真的可(ke)以(yi)(yi)落地(di)到端側。
我們(men)(men)AMD要發布的下一代高性能AI PC芯片,它(ta)也是基于我們(men)(men)Zen5 CPU的架構(gou),加(jia)上了第2代XDNA,Ryzen是升級到3.5的版本,能夠提供(gong)50TOPS的算(suan)力。
在AI PC領域,用戶越來越重視隱私保護(hu)、數據安全和數據自主性(xing)。隨(sui)著重要的(de)AI工作流程(cheng)逐(zhu)步在個人電(dian)腦端部署,對專用處理器(qi)的(de)需求也隨(sui)之增加。
在PC部署上,大家對PC機的耗電需(xu)(xu)求(qiu)非常大,因此非常需(xu)(xu)要NPU的處理器。NPU在性(xing)能(neng)功(gong)耗比(bi)具有非常大的優勢,相(xiang)比(bi)通用的處理器,它能(neng)夠擴大35倍以(yi)上的能(neng)效,所以(yi)我們在AI PC里(li)面有集成這個(ge)NPU。
NPU是基(ji)于我們XDNA2最新(xin)的(de)架構(gou),它的(de)底層是AI處理引擎,相(xiang)比之(zhi)前,從(cong)算力,包括存儲都有一點幾倍的(de)提升。
我們在數據類型上也進行了很多創新,例(li)如對Block FP16的支(zhi)持(chi)。與(yu)第一代(dai)XDNA相(xiang)比(bi),我(wo)們(men)實(shi)現了更高(gao)的能效比(bi),計算能力提升了5倍,功耗(hao)效率也(ye)提高(gao)了2倍。
關于關鍵數據類型的創新,就是塊狀浮點的支持。塊(kuai)狀浮點的(de)優(you)勢在于它結合(he)了8-bit數據類型的(de)高性(xing)能和16-bit精度(du)的(de)優(you)點,從而(er)在數據位寬、精度(du)以及(ji)存儲(chu)需(xu)求之間(jian)實現了理想的(de)平衡(heng)。它(ta)在性能上與8-bit相(xiang)近,同時在模型(xing)大(da)小上僅(jin)需9-bit表征。此外,它(ta)在精度上非常接(jie)近16-bit,能夠達到與16-bit數據類(lei)型(xing)幾乎相(xiang)同的99.9%的準確度。
另外一(yi)個(ge)(ge)在(zai)AI PC上(shang)的應用就是RAG推薦系統。它包括前處(chu)(chu)理(li)步驟(zou),其(qi)中一(yi)些處(chu)(chu)理(li)在(zai)CPU上(shang)執(zhi)行,而核心計算則在(zai)NPU,這(zhe)種設(she)計使得(de)整個(ge)(ge)系統能(neng)夠實時(shi)處(chu)(chu)理(li)RAG推薦系統的任務。
剛剛介紹的(de)這些功能都是通(tong)過AMD的(de)Ryzen軟件達到(dao)的(de),RyzenAI的(de)軟件架構包括從浮(fu)點模型開始,通(tong)過內置的(de)量化器(qi)進行(xing)優化,最后通(tong)過ONNX的(de)表示執(zhi)行(xing)到(dao)NPU里面。
我們也支持通用架構,并正在開發Unified AI software stack(軟(ruan)件(jian)棧)。這一軟件棧能(neng)夠(gou)智能(neng)地識別系統(tong)中的CPU、NPU和(he)iGPU這三種加速引(yin)擎(qing),并自動分配(pei)最(zui)適合的引(yin)擎(qing)來處理相應的工作(zuo)流程,從而實(shi)現最優性能。
我(wo)將很(hen)快分享一下AMD基于Edge&Embedded,在嵌入式和邊緣的(de)應(ying)用(yong)。
在AMD,這(zhe)個平臺(tai)是真正的一個異構計算平臺(tai),它(ta)不僅包(bao)括(kuo)可(ke)編(bian)程邏輯,也包(bao)括(kuo)XDNA和ARM CPU。它(ta)能夠(gou)處理AI中的關鍵模(mo)塊,包(bao)括(kuo)前處理,如LiDAR數據處理,這(zhe)些都可(ke)以由可(ke)編(bian)程模(mo)塊來執行。
AI的Inference可(ke)以在XDNA架構中進行,而一些后處理(li)、決策和Dedision Making則可(ke)以在后處理(li)器,如CPU里(li)面去(qu)進行。
我介紹一(yi)個Demo,它是基于(yu)AI的(de)立體(ti)攝像頭(tou)實(shi)現的(de),沒有(you)用(yong)雷達,也沒有(you)用(yong)地(di)圖,可以看到只(zhi)是用(yong)了(le)立體(ti)攝像頭(tou)做AI相應的(de)處(chu)理,就能實(shi)現自動駕駛的(de)功能。
最后我總結一下我們的優勢,我們能夠定義新的AI時代端到端的基礎設施,我們整個產品的線路是最全的,從數據(ju)中心、從邊緣,到端(duan)側,都有一(yi)整套的(de)硬件。
我(wo)們在AI軟件上一(yi)直(zhi)有(you)非(fei)常大(da)的(de)投入(ru),包(bao)括(kuo)對軟件的(de)支(zhi)持(chi),我(wo)們一(yi)直(zhi)走的(de)是開(kai)源開(kai)放(fang)的(de)生態,讓所有(you)的(de)AI開(kai)發者(zhe)、客(ke)戶、用戶,包(bao)括(kuo)整個社區,大(da)家都(dou)可(ke)以在我(wo)們開(kai)放(fang)的(de)軟件平臺上貢獻,去推進(jin)整個AI軟件的(de)快速發展,去支(zhi)持(chi)在不同平臺上的(de)各種新(xin)的(de)模型。
我們(men)正處(chu)在一(yi)個AI推動的社會變(bian)革中,AI的影(ying)響(xiang)已(yi)經深入到(dao)我們(men)的日(ri)常(chang)生(sheng)活(huo)之中。AMD會繼續推進大模型,從云邊端的部署,以真正幫助到(dao)用戶,基于AI技術(shu)去打(da)造一(yi)個更加(jia)方便、更加(jia)便捷的生(sheng)活(huo)。