
芯東西(ID:aichip001)
編輯 |? 信儀
GTIC 2020全球AI芯片創新峰(feng)會(hui)剛剛在北京圓滿(man)收官!在這場全天座(zuo)無虛席、全網直播(bo)觀(guan)看人數逾150萬(wan)次(ci)的高規(gui)格AI芯片產(chan)業峰(feng)會(hui)上,19位(wei)產(chan)學界重磅嘉賓(bin)從不同維度分享(xiang)了對中國AI芯片自主創新和應用(yong)落地的觀(guan)察與預判。
在峰會上午場(chang),燧原科技(ji)創始人兼COO張亞林通過視頻的方式,發表(biao)了題為《軟(ruan)硬系(xi)統(tong)協同(tong)——云端AI芯片產(chan)品化關鍵》的主(zhu)題演(yan)講(jiang)。
▲燧原科技(ji)創(chuang)始人(ren)兼(jian)COO張亞林通過視頻(pin)的(de)方式發表演講
目前,燧原科技的云端AI芯片生態(tai)已經(jing)覆(fu)蓋“邃思”通用人工(gong)智能訓練芯片、“云燧T10”人工(gong)智能加速卡、GCU-LARE智能互聯技術(shu)以及“馭算”計算及編程平(ping)臺。
在GTIC AI芯片(pian)創(chuang)新峰會(hui)上,張亞林與(yu)我們分(fen)享(xiang)了(le)燧原科技對云端AI芯片(pian)產(chan)品(pin)化(hua)的(de)(de)看法,在他看來,AI系統要(yao)落地數據(ju)中(zhong)心(xin)必須具備四個要(yao)素,分(fen)別為(wei)系統集群、板卡(ka)、高性能高算力的(de)(de)芯片(pian),以及全棧的(de)(de)軟(ruan)件。而衡量一個數據(ju)中(zhong)心(xin)的(de)(de)AI系統需(xu)要(yao)從完備性、生(sheng)產(chan)率、成本、功耗和性能五個維度來考量。
以下為張亞林演講實錄整理:
一、數據中心趨于整合,計算和圖形加速架構分離
首先,張亞林通過案例和數據向觀眾解讀了一個問題:2020年數據中心到底發生了什么?
在(zai)2019年(nian),中(zhong)國的數據中(zhong)心行業(ye)規(gui)模已經占(zhan)到(dao)(dao)全世界的30%,2019~2021年(nian)全球云計算市(shi)場規(gui)模一直(zhi)在(zai)爬升,到(dao)(dao)2021年(nian)將達到(dao)(dao)2890億(yi)美金的市(shi)場規(gui)模。
NVIDIA在第二(er)季度(du)公布的財(cai)報表明,這是有史以來第一次NVIDIA的數(shu)據中(zhong)心業務超過了顯卡業務,共達到17.5億美金的營收,與去年同(tong)期相比增長了167%。
張亞林說(shuo),數據(ju)中(zhong)心正在(zai)朝(chao)著整合的(de)方向(xiang)走,世界上的(de)三大巨頭(tou):Intel、NVIDIA、AMD都在(zai)通(tong)過并購(gou)加(jia)強自身在(zai)數據(ju)中(zhong)心的(de)布局。
▲Intel、NVIDIA、AMD通過并(bing)購加(jia)強數(shu)據中心(xin)布局
Intel基于自己的CPU、數據和互聯(lian)的業務收購(gou)了Altera后(hou),在(zai)去(qu)年又收購(gou)了Habana來做Intel自身的加速卡業務。
NVIDIA的加速卡(ka)計算業務很強(qiang),去年收(shou)購了Mellanox以(yi)豐富其數據卡(ka)和互聯的業務,目(mu)前(qian)NVIDIA還正在積極布(bu)局收(shou)購Arm以(yi)增強(qiang)NVIDIA自身的CPU業務。
AMD本身具(ju)有(you)CPU和加速卡業務,目前(qian)也開始收購賽(sai)靈(ling)思,以布局數據和互聯方面(mian)的業務。
張亞林講(jiang)到,如(ru)果所有的收購完成,今年在(zai)數據中心方(fang)(fang)面(mian)就(jiu)會出現Intel、NVIDIA、AMD三強爭霸(ba)的局面(mian),由此看來(lai),計算范式正在(zai)朝(chao)著數據中心系統化(hua)、整合化(hua)的方(fang)(fang)向進行變革。
張亞林接著分析了數據中心產品正在發生的變化:
先從(cong)NVIDIA講起,NVIDIA推出了整個系統化的(de)(de)集(ji)群——SuperPOD,SuperPOD的(de)(de)整個元(yuan)素是由DGX系統構成的(de)(de),而(er)在DGX中裝入的(de)(de)是NVIDIA A100的(de)(de)板卡和芯片,完全遵(zun)循了自頂向(xiang)下的(de)(de)設計原則(ze),并以Turnkey(一站式方案)的(de)(de)方式進(jin)行SuperPod整個系統的(de)(de)推廣。
再來(lai)看AMD,AMD正在加速(su)計算(suan)和(he)圖(tu)形結構(gou)的(de)(de)(de)分離(li)。從(cong)AMD發布MI100時的(de)(de)(de)一(yi)張示意圖(tu)來(lai)看,下圖(tu)中灰(hui)色的(de)(de)(de)部分表示其傳統的(de)(de)(de)GPU結構(gou)正在被(bei)拋棄,取而(er)代之的(de)(de)(de)是基于(yu)計算(suan)加速(su)和(he)優(you)化的(de)(de)(de)產品(pin)(pin)線和(he)基于(yu)游戲加速(su)和(he)優(you)化的(de)(de)(de)產品(pin)(pin)線,在AMD的(de)(de)(de)產品(pin)(pin)線中,它們分別被(bei)命名為RDNA GAMING-OPTIMIZED和(he)CDNA COMPUTE-OPTIMIZED。
▲AMD發布MI100時的示意圖
同(tong)時,計算和圖形的加速分離也導(dao)致了NVIDIA和AMD在(zai)兩(liang)條線上進行(xing)布局。
在計算(suan)卡(ka)(ka)部(bu)分,NVIDIA Tesla系(xi)列一直是NVIDIA計算(suan)卡(ka)(ka)的(de)主打,其中包括了有名的(de)Tesla V100、A100和(he)Tesla T4。同時AMD積(ji)極布局(ju)其Instinct MI系(xi)列,并在不(bu)久前推出(chu)了MI100。計算(suan)卡(ka)(ka)的(de)部(bu)分衍生(sheng)出(chu)來就是數(shu)據中心(xin)的(de)業務。
在圖形卡部分,NVIDIA有其(qi)NVIDIA RTX系列(lie),AMD擁(yong)有其(qi)AMD RX系列(lie),這些部分衍生出來就是游戲業務(wu)。
因此NVIDIA和AMD兩(liang)大巨頭通過對計(ji)算(suan)卡和圖形卡的分離,已(yi)經形成了完全不同的產(chan)品線和架構。
二、數據中心AI系統“全壘打”和“全維度”
數據中心AI系統“全壘打”是什么樣的?
張(zhang)亞林說,AI大系統要(yao)落地數據(ju)中心,必須具備四個(ge)要(yao)素,分別為系統、板卡、高性能高算力的(de)芯片,以及(ji)全棧(zhan)的(de)軟件系統。這四大要(yao)素構成了(le)整個(ge)AI系統的(de)“全壘打”。
而對于衡量一個數據中心AI系統真正能被市場化、產業化、規模化的標準,張亞林分了五個維度來解讀,這五個維度分別為AI系統的完備性、生產率、成本、功耗和性能。
▲數據中心(xin)AI系統(tong)的(de)“全(quan)維度”
從(cong)完備(bei)性(xing)角(jiao)度來講,廠商必須具備(bei)很好(hao)的軟件框架覆(fu)蓋率、模型的覆(fu)蓋率,還能滿足(zu)用戶的可定(ding)制化要求(qiu)。
在生(sheng)產(chan)率(lv)角度,廠商必須(xu)能從用戶的角度出發,適應(ying)用戶的開(kai)發效率(lv)、易用性(xing)、靈活(huo)性(xing)、可編(bian)程性(xing)和(he)可遷移性(xing)。
在(zai)成本(ben)方面,有整個(ge)芯片的(de)成本(ben)、板卡的(de)成本(ben)、服(fu)務器的(de)成本(ben),還有遷移成本(ben)。
在功耗(hao)方面(mian),整個(ge)芯片(pian)架構(gou)、存(cun)儲類型、通信方式、軟(ruan)件實現以(yi)及利用率還有(you)工藝(yi)都左右了(le)功耗(hao)大小,也(ye)直接影響了(le)后續的運維成本。
在性(xing)能方面,算(suan)力、延(yan)遲(chi)、精度、訓練時間、推(tui)理時間、線性(xing)度(多卡)都對性(xing)能維(wei)度有影響(xiang)。
因此(ci),通常(chang)一個AI系統的“全維(wei)度(du)”設計必須在(zai)五個維(wei)度(du)之間平衡,再去迭代,保證能夠找到這五個緯度(du)在(zai)用戶側最(zui)好的差異化以及最(zui)優解,才(cai)能讓整個產品更(geng)有亮點(dian)。
接著,張亞林特別就數據中心AI軟件棧的“全維度”做了解構,他說,一個合格的、能商業化的、能讓用戶開發,且具有很強遷移度的軟件棧,應該在應用層、框架層、SDK層和驅動層這四個層面進行布局(ju)。
▲數(shu)據中心AI軟(ruan)件棧的“全維度”
自頂(ding)向下(xia)來看,從應用(yong)層的(de)角(jiao)度(du)來講,它(ta)必須具備很(hen)(hen)強的(de)模(mo)型(xing)庫,在(zai)(zai)模(mo)型(xing)庫的(de)豐富(fu)程(cheng)度(du)方面(mian),燧原科技已經擁有了100多個模(mo)型(xing)。此(ci)外,在(zai)(zai)Benchmark方面(mian)必須有很(hen)(hen)強的(de)基準(zhun)測(ce)試能力(li),提供很(hen)(hen)強的(de)基準(zhun)測(ce)試標準(zhun),才能讓用(yong)戶在(zai)(zai)基準(zhun)模(mo)式上的(de)適(shi)用(yong)度(du)更強。
接下來(lai)是框(kuang)架層,目前業(ye)內通(tong)(tong)用的是TensorFlow、PyTorch兩個主流框(kuang)架,以及(ji)通(tong)(tong)過(guo)ONNX往下接入的部分(fen),還有在(zai)非(fei)框(kuang)架部分(fen)的推(tui)斷(duan)引擎(qing)、推(tui)理(li)引擎(qing)都是非(fei)常重要的框(kuang)架性元素。
在框(kuang)架層(ceng)之下(xia)是(shi)整個(ge)全棧(zhan)的SDK,也就是(shi)用(yong)戶(hu)開(kai)發包,包括整個(ge)圖形(xing)分解(jie)的引擎、圖優(you)化的引擎以及整個(ge)算(suan)子(zi)庫,還有(you)能使整個(ge)算(suan)子(zi)開(kai)發的編(bian)程模(mo)型和工具(ju)鏈。
在SDK下(xia)面是驅動層(ceng)(ceng),驅動層(ceng)(ceng)和整個硬件下(xia)的(de)AI芯片進行銜接(jie)。
而要想合理設計一個數據中心的AI芯片,必須從計算、數據、存儲、互聯四個角度看問題。
從芯片計算的(de)(de)本身出(chu)發,算力(li)大小及有(you)效(xiao)算力(li)是(shi)燧(sui)原科技一直在(zai)追尋的(de)(de)終極目標(biao)。如何通(tong)過(guo)數(shu)據的(de)(de)傳輸、存(cun)儲和吞吐量,為計算引擎合理地輸入和輸出(chu),保證它的(de)(de)有(you)效(xiao)算力(li),也是(shi)燧(sui)原科技考慮的(de)(de)因(yin)素。
在存(cun)儲(chu)方(fang)面,分布(bu)式的存(cun)儲(chu)大小(xiao)在平衡片內存(cun)儲(chu)、片外存(cun)儲(chu),以(yi)及實現存(cun)儲(chu)的高效移動都是(shi)非常重要的命題。
在互(hu)聯(lian)方面,整(zheng)(zheng)個(ge)數據中心(xin)朝(chao)著集群化、系(xi)(xi)統(tong)(tong)化的方向發展,整(zheng)(zheng)個(ge)軟(ruan)件棧(zhan)也在朝(chao)著分布式的方向發展,如何提(ti)升互(hu)聯(lian)的效率、線性度和(he)速度,以使整(zheng)(zheng)個(ge)大系(xi)(xi)統(tong)(tong)、大集群像一(yi)個(ge)虛擬化的計算池一(yi)樣執行,也是一(yi)個(ge)很重(zhong)要的命題。
除此之外,要達到芯片性價比和能效比的“最優點”,還需要具備四個“P”,分別為:完全可編程(Full Programmability)、全模式計算(All Pattern)、全精度計算(Entire Precision)、高并行度(High Parallelism)。
張亞林說(shuo),在計算、數據、存儲、互(hu)聯四個(ge)維度以及四個(ge)“P”兩方(fang)面都做好平衡(heng),才(cai)能滿足芯片的高性(xing)價比和能效比。
▲數據中心AI芯片的“全(quan)維度”
三、云端AI芯片的產品化挑戰
張亞林說,整個AI大芯片大系統的產品化涉及到系統化、工程化、產品化、生態化四個方面。
首先(xian),在系統(tong)(tong)化(hua)上,如(ru)何合理設(she)計系統(tong)(tong)架構,能讓AI大(da)系統(tong)(tong)具備用(yong)戶(hu)的普適(shi)度、具備各(ge)種模(mo)型和(he)應用(yong)模(mo)式,能給用(yong)戶(hu)帶(dai)來更好的性價比、能效比效果,這是一個非常重要的課(ke)題(ti)。
同時(shi),軟硬(ying)件的(de)(de)聯合設計使(shi)整(zheng)個有效算力(li)能(neng)被完全發揮(hui)出來,使(shi)底層的(de)(de)硬(ying)件能(neng)力(li)能(neng)被充分(fen)釋放,這是系統化另外的(de)(de)一個關(guan)鍵部分(fen)。
工(gong)程化(hua)(hua)往往是(shi)被忽略的(de),張亞林介紹(shao)說,AI芯(xin)片(pian)在流片(pian)回來后走完了芯(xin)片(pian)工(gong)程化(hua)(hua)的(de)30%,另(ling)外70%的(de)路(lu)要(yao)靠AI芯(xin)片(pian)的(de)工(gong)程化(hua)(hua)、量(liang)產(chan)化(hua)(hua),推動其朝著(zhu)創新落地和定義交(jiao)付(fu)兩個方向走。
很(hen)多AI芯片用了(le)很(hen)多的(de)創新架(jia)構(gou),而這些架(jia)構(gou)能(neng)(neng)不(bu)能(neng)(neng)真正實現客戶價值,能(neng)(neng)不(bu)能(neng)(neng)進行商業化的(de)落(luo)地(di),能(neng)(neng)不(bu)能(neng)(neng)減低(di)客戶的(de)遷移成本,以(yi)及(ji)交(jiao)付過(guo)程中對于客戶的(de)承諾(nuo)、交(jiao)互日期,自身(shen)的(de)執行力(li),自身(shen)定義(yi)能(neng)(neng)夠交(jiao)付的(de)標準和時(shi)間節點目(mu)標等,都是廠商需要去思考的(de)問(wen)題。
在產品化方面,用戶真正期待(dai)的(de)(de)(de)是真正普惠(hui)易用的(de)(de)(de)方式。所謂“普惠(hui)”就(jiu)是整個AI算力的(de)(de)(de)泛化,會帶來AI算力的(de)(de)(de)性(xing)價比。“易用”針對的(de)(de)(de)就(jiu)是客戶的(de)(de)(de)遷移成(cheng)本以及(ji)使用的(de)(de)(de)生產效率。
同時(shi),AI系統(tong)必(bi)須(xu)為(wei)后期的(de)運維做考慮,也就是說必(bi)須(xu)是穩(wen)定可靠(kao)的(de),這種(zhong)穩(wen)定可靠(kao)在數(shu)據(ju)中心(xin)里要保持五年甚至更(geng)長時(shi)間(jian),使得(de)數(shu)據(ju)中心(xin)能夠(gou)一直(zhi)在穩(wen)定可靠(kao)的(de)方式下進行運營。
最后,在生態化方面,好的生態必須要具(ju)備能讓用戶輕松開發的能力,需(xu)要把AI系(xi)統變成開發的利器。同時,它又能使用戶真(zhen)正預(yu)言未來的AI算(suan)法,能夠不斷精進和提高AI算(suan)法的性能和適用度(du),為世界帶來更(geng)好的AI創新點。
因此,基于AI芯片產品化(hua)(hua)挑(tiao)戰,系統(tong)化(hua)(hua)、工程化(hua)(hua)、產品化(hua)(hua)、生態化(hua)(hua)四個(ge)方面構成了整個(ge)云端(duan)AI芯片產品化(hua)(hua)的難(nan)點和亮點。
張亞林(lin)說,一(yi)個公司要能夠實現這(zhe)樣的系統(tong)化(hua)(hua)、工程化(hua)(hua)、產品(pin)化(hua)(hua)、生態化(hua)(hua)的能力(li),它就必須具備(bei)這(zhe)四個方(fang)面(mian)設計的意識和團隊,燧原(yuan)科技通(tong)常把這(zhe)四個方(fang)面(mian)稱為云端(duan)AI軟硬件系統(tong)協同最(zui)大的挑戰和亮點,也是未來人工智(zhi)能在云端(duan)芯片和系統(tong)發展(zhan)中的必經之(zhi)路(lu)。
張亞林在最后總結時表(biao)示,燧(sui)原科技(ji)一直(zhi)秉承著(zhu)“做大芯片(pian),拼(pin)硬科技(ji)”的宗旨。燧(sui)原科技(ji)做云端(duan)的AI大芯片(pian)和(he)復雜系統,是(shi)因為(wei)它難而不是(shi)因為(wei)它簡(jian)單。只有(you)難,才能為(wei)國(guo)家創造更好(hao)的價值,為(wei)AI帶來更好(hao)的明天。
以上是張亞林演講內容的完整整理。除張亞林外,在本屆GTIC 2020 AI芯片創新峰會期間,清華大學微納電子系尹首一教授,比特大陸、地平線、黑芝麻智能、壁仞科技、光子算數、知存科技、億智電子、豪微科技等芯片企業,全球FPGA領先玩家賽靈思,Imagination、安謀中國等知名IP供應商,全球EDA巨頭Cadence,以及北極光創投、中芯聚源等知名投資機構,分別分享了對AI芯片產業的觀察與思考。如感興趣更多嘉賓演講的核心干貨,歡迎關注芯東西后續推送內容。