芯東西(ID:aichip001)
文 | 心緣

?芯(xin)東西6月28日報道,2020年的突發事(shi)件撥亂(luan)了太多產業的陣腳,AI芯(xin)片(pian)產業也似乎熱度漸熄(xi)。一家英國AI芯(xin)片(pian)創企卻在(zai)這一時期,穩穩地切(qie)入國內(nei)科技(ji)巨頭阿(a)里和百度的生態圈。

就在今年5月,成立剛滿四年的英國初創公司Graphcore分別公布和阿里巴巴、百度合作的新動向。阿里宣布Graphcore支持ODLA的接口標準,百度宣布Graphcore成為飛槳硬件生態圈的創始成員之一。

同月,在英國Intelligence Health峰會上,微軟機器學習科學家分享用Graphcore的IPU芯片訓練微軟COVID-19影像分析算法CXR,能夠在30分鐘之內完成在NVIDIA GPU上需要5個小時的訓練工作量。

英國AI芯片獨角獸勇闖中國!搭上阿里百度,揭秘硬核技術▲300W功耗情況下,IPU(左(zuo))以2000 img/s的平(ping)均速(su)(su)率進行訓練(lian),NVIDIA V100平(ping)均速(su)(su)率約為(wei)166 img/s,速(su)(su)度相(xiang)差10倍以上

也是在這個月,英(ying)偉(wei)達(NVIDIA)為AI和數據科學打造的(de)最強(qiang)GPU A100橫(heng)空出世,給(gei)布(bu)局云端AI芯片市場的(de)其他公司帶(dai)來新的(de)壓力。

不(bu)過Graphcore顯得相對淡定。Graphcore高級(ji)副總裁兼中國區總經(jing)理盧濤(tao)相信,即便是Graphcore第(di)一(yi)代(dai)(dai)IPU產品也不(bu)會(hui)輸于A100,今年(nian)他們還將發(fa)布下一(yi)代(dai)(dai)7nm處理器。

Graphcore的自(zi)信并非(fei)空穴來風,憑借創(chuang)新芯(xin)片架構IPU,這家成(cheng)立剛滿(man)四年的英國初創(chuang)公(gong)司,不僅有(you)DeepMind聯合(he)創(chuang)始(shi)人Demis Hassabis、劍橋大(da)學教授(shou)兼Uber首席科學家Zoubin Ghahramani、加州大(da)學伯(bo)克利教授(shou)Pieter Abbeel、OpenAI多(duo)位聯合(he)創(chuang)始(shi)人等(deng)多(duo)位AI大(da)牛為其(qi)背書,還吸引到微軟、博世(shi)、戴爾、三星、寶馬等(deng)巨頭注(zhu)資。

這樣一(yi)個在(zai)(zai)AI芯(xin)片界猛刷(shua)存在(zai)(zai)感的明星(xing)創(chuang)企,背(bei)后(hou)有著怎樣的底氣?

近日,Graphcore高級(ji)副總(zong)裁兼中國(guo)(guo)區總(zong)經理(li)盧濤(tao)、 Graphcore銷售總(zong)監朱江第一次在中國(guo)(guo)詳盡地介紹(shao)了Graphcore的(de)核(he)心芯片架構及產品、配套軟(ruan)件(jian)工具鏈,并(bing)分享了其芯片在五類垂(chui)直場景的(de)應用實例及性能表(biao)現。

一、英國小鎮里誕生的AI芯片獨角獸

2012年1月,雪后的(de)英國小鎮巴(ba)斯,Nigel Toon與Simon Knowles正在討論一(yi)個改變AI芯(xin)片(pian)架構的(de)創(chuang)新(xin)設想。

英國AI芯片獨角獸勇闖中國!搭上阿里百度,揭秘硬核技術▲Graphcore CEO Nigel Toon和CTO Simon Knowles

經過四年模擬(ni)了數百(bai)種芯片布局(ju)的計算機測試方(fang)法,兩人(ren)于2016年6月(yue)在英國布里斯(si)托(tuo)成立AI芯片公司Graphcore,此(ci)后繼續處于神秘的研(yan)發(fa)狀態(tai)。

知名資本伸出的橄欖枝,使得這家創企始終處于聚光燈下,寶馬、博世、戴爾、微軟、三星等巨頭紛紛參與投資,至今Graphcore累計融資超過4.5億美元,整體估值約為19.5億美元。

英國AI芯片獨角獸勇闖中國!搭上阿里百度,揭秘硬核技術

不僅如此,數位AI大(da)牛(niu)對其IPU芯片(pian)架(jia)構(gou)贊譽(yu)有加(jia)。

英國半導體之父、Arm聯合創始人Hermann爵士曾評價說:“在計算機歷史上只發生過三次革命,一次是70年代的CPU,第二次是90年代的 GPU,而Graphcore就是第三次革命。?

AI教父Geoff Hinton教授(shou)也說(shuo)過:“我們(men)需要不同類型的計(ji)算機(ji)來處理一些新的機(ji)器學(xue)習(xi)的系統。”他指出(chu)IPU就是這(zhe)樣一個系統。

到2019年11月,Graphcore潛心打造的(de)IPU產品官宣量產,隨后與微軟(ruan)、百度、Qwant、Citadel、帝國理工學院(yuan)、牛(niu)津大學等多個合作伙伴、云計(ji)算廠(chang)商、研究實驗室以及高(gao)校等展開了相關合作。

如(ru)今(jin),Graphcore所(suo)做的(de)產(chan)品包括了硬件、軟件和(he)IPU的(de)系統(tong)解決方案。

IPU是Graphcore專為(wei)機器智能(neng)設計(ji)的創(chuang)新處理器架構,宣稱在現有及(ji)下一代(dai)模型上(shang),性能(neng)遠超NVIDIA V100 GPU。

例如它能將自然語言處理(NLP)處理速度可提升20%-50%,為圖像分類帶來6倍的吞吐量而且是更低的時延,在一些金融模型方面訓練速度能夠提高26倍以上。?

目前IPU已實現量產,通過訪問(wen)微軟Azure等云計(ji)算平(ping)臺,或者(zhe)購買戴爾服(fu)務(wu)器等產(chan)品,均可獲取IPU資源。在國(guo)內(nei),Graphcore也正在與(yu)金(jin)山(shan)云合作,擬上線一(yi)個(ge)針對中國(guo)開發者(zhe)和創(chuang)新者(zhe)的云業務(wu)。

英國AI芯片獨角獸勇闖中國!搭上阿里百度,揭秘硬核技術

除(chu)了芯(xin)片(pian)產品走向落地(di),在過去(qu)6-12個月,Graphcore在全球版圖快速鋪開,迄今有全球員工450人,分布在北京、上海、深(shen)圳、臺(tai)北、布里斯(si)托、倫敦(dun)、劍橋、挪威、奧(ao)斯(si)陸、西雅圖、帕(pa)拉奧(ao)圖、紐約(yue)、奧(ao)斯(si)汀(ting)、東(dong)京、首爾等地(di)。

二、以計算圖為表征的創新AI芯片架構

Graphcore的自研芯片架(jia)構誕生的背景,源于過(guo)去幾年AI算法模(mo)型規模(mo)呈指數級增長,需要(yao)更(geng)適宜的全新(xin)處理器架(jia)構。

相較傳統科學計(ji)算(suan)或高(gao)性能計(ji)算(suan)(HPC),AI或者(zhe)說機(ji)器智能有(you)一些特性,包(bao)括大規(gui)模并行就散、稀疏(shu)數據結構、低精度計(ji)算(suan),以及(ji)在訓練推理過程(cheng)中(zhong)的數據參數復用、靜態圖結構。

Graphcore IPU即是針(zhen)對計算圖的處理設計而成(cheng),相比傳統(tong)智能處理器(qi),IPU有三個核心區(qu)別(bie):采(cai)用MIMD架構(gou)、所有模(mo)(mo)型在片內處理、可解決大規模(mo)(mo)并行計算處理器(qi)核之間的通信(xin)效率。

具體而言,IPU采用大規模并行MIMD的處理核,拋棄了外部DDR,在片內做到300MB的大規模分布式片上SRAM以打破(po)內存帶(dai)寬對(dui)整體性能構成的瓶頸。

相較CPU的DDR2子系統或是GPU的GDDR、HBM來說,IPU這一設計可將性能提升10-320倍。與訪問外存相比較,時延基本為1%,可忽略不計。

英國AI芯片獨角獸勇闖中國!搭上阿里百度,揭秘硬核技術

當前已量產的IPU處理器為GC2,擁有256億個晶體管,120瓦功耗下,混合精度算力可達125TFLOPS

GC2采用臺積電(dian)16nm工藝(yi),片內包含1216個獨立的IPU處(chu)理器(qi)核心(xin)(Tile),整個GC2包含7296個線程(cheng)(cheng),支持7296個程(cheng)(cheng)序并行運行。其(qi)內存帶寬為45TB/s、片上交換是8TB/s,片間IPU-Links為2.5Tbps。

為了解決并行硬件的高效編程問題,IPU通過硬件支持BSP協議,并通過BSP協議把整個計算邏輯分成了計算、同步、交換

這(zhe)對軟(ruan)件(jian)工程(cheng)師和開發(fa)者(zhe)來說(shuo)非常(chang)易(yi)于編(bian)程(cheng),因為不必(bi)處理locks這(zhe)個概念(nian),也不必(bi)管(guan)任務(wu)具體在哪(na)個核(he)上運行。

目前(qian)IPU是世界上目前(qian)第一(yi)款(kuan)BSP處(chu)理器,BSP技術在谷歌、Facebook、百度之(zhi)類的大規(gui)模(mo)數據中心均有使用(yong)。

英國AI芯片獨角獸勇闖中國!搭上阿里百度,揭秘硬核技術

盧濤介紹說,IPU重點面(mian)向云端訓(xun)練(lian)以及對精度和延時要求高的推理(li)(li)場景(jing),還有一些訓(xun)練(lian)和推理(li)(li)混合的場景(jing)。

在精(jing)度方面(mian),IPU當前不(bu)支持整數int8,主要支持FP16、FP32以及混(hun)合精(jing)度。

當前應用(yong)較大的主流(liu)計算機視覺類模(mo)型(xing)以(yi)int8為主,而自然語言處理推理以(yi)FP16、FP32為主流(liu)數據格式(shi),IPU使用(yong)FP16精度在(zai)ResNeXt、EfficientNet等新興(xing)視覺模(mo)型(xing)中性能功耗比同樣具(ju)有優勢。

未來,Graphcore的推(tui)進策略還是訓練和(he)推(tui)理并行,但(dan)會更(geng)聚焦(jiao)于一些對(dui)精度和(he)時延要求(qiu)更(geng)低、對(dui)吞吐量(liang)要求(qiu)更(geng)高的場景。另外(wai),他們(men)也看(kan)到在(zai)推(tui)薦算法等應用出現(xian)一些希望(wang)同時實(shi)現(xian)訓練和(he)推(tui)理的需求(qiu)。

三、軟件支持容器化部署,上線開發者社區

硬件(jian)(jian)芯(xin)片架構是基礎,而軟件(jian)(jian)則是提(ti)升用戶體驗(yan)的(de)關鍵利器。

對于AI芯片來說,芯片研發出來只是第一部分,要能落地到產業中,還需展現出色的可移植性、可開發性、可部署性,能提供完善的工具鏈和豐富的軟件庫,可實現與主流機器學習框架無縫銜接,而整個鏈條全部打(da)通需(xu)要非(fei)常大(da)的投入(ru)。

今年5月26日,全球知名科技分析機構Moor Insights & Strategy曾發表了一篇研究論文 《Graphcore的軟件棧:Build To Scale》,其中寫道:“Graphcore是我們目前已知的唯一一家將產品擴展到囊括如此龐大的部署軟件和基礎架構套件的初創公司。

盧濤認為,對于(yu)AI芯片(pian)來說,真正商業化(hua)(hua)的衡量標準在于(yu)三點(dian):是(shi)否(fou)有平(ping)臺(tai)化(hua)(hua)軟件的支持、是(shi)否(fou)有大規(gui)模商用部(bu)署(shu)軟件的支持、是(shi)否(fou)能實(shi)現產品化(hua)(hua)的部(bu)署(shu)。

英國AI芯片獨角獸勇闖中國!搭上阿里百度,揭秘硬核技術

對(dui)此,Graphcore的(de)Poplar SDK提供了完整(zheng)的(de)軟件(jian)堆棧來(lai)執行其(qi)計算圖工具鏈,有四個主要特(te)性:

1)開放且可擴展的Poplar庫:目前(qian)已提(ti)供750個(ge)高性(xing)能計算元素(su)的50多(duo)種優化(hua)功(gong)能,修改和編寫自定義庫。

2)直接部署:支持容器化部署,可快速啟動并且運行。標準生態方面,可支持Docker、Kubernetes,還有像微軟的Hyper-v等虛擬化的技術和安全技術。?

3)機器學習框架支持:支持TensorFlow 1、TensorFlow 2、ONNX和PyTorch等標準機器學習框架,很快也將支持百度飛槳。?

4)標準生態支持:通過微軟Azure部署(shu)、Kubernetes編排、Docker容器以及Hyper-V虛擬(ni)化和安全性,已生產(chan)就緒(xu)。

目前Poplar SDK支持最主要的三個Linux操作系統發行版本:ubuntu、RedHat Enterprise Linux、CentOS。?

ubuntu是迄今在AWS上最流行的一個操作系(xi)統,RedHat Enterprise Linux對(dui)一些企業(ye)級用戶做私有云非常重要,而CentOS在中國互聯網公司中應用廣泛。

今年5月,Graphcore推出分析工(gong)具PopVision Graph Analyser,并上(shang)線(xian)Poplar開發者文檔和(he)社區(qu)。

使(shi)用IPU編程時,可借助PopVision可視化圖形展示工具(ju)來分析軟(ruan)件運行的(de)情況、效率調試調優等。

Poplar開發者(zhe)文(wen)檔(dang)和社區中(zhong)提供(gong)了大量的(de)Poplar user guide和文(wen)檔(dang)。開發者(zhe)可通(tong)過www.graphcore.ai/developer訪問。

英國AI芯片獨角獸勇闖中國!搭上阿里百度,揭秘硬核技術

此外,Graphcore在Stack Overflow上也有針對IPU開發者的知識門戶網站,并在知乎上開辟了新的創新者社區,未來通過知乎將更多深度文章呈現給開發者和用戶。?

據盧濤介(jie)紹,有些國內用戶反饋,認為Poplar的(de)應用性優(you)于CUDA,執行同樣(yang)的(de)任務,在Poplar上(shang)開發速度更快。

四、案例源代碼可下載,秀五大垂直應用

當前基于IPU的應用(yong)已覆蓋(gai)了機器學習的各個應用(yong)領域,包括自然語言處理(NLP)算法、圖像(xiang)/視(shi)頻處理、時(shi)序分析、推(tui)薦/排名以及概率模(mo)型。

英國AI芯片獨角獸勇闖中國!搭上阿里百度,揭秘硬核技術

這些應(ying)用案例和(he)模型(xing)已在TensorFlow、ONNX和(he)Graphcore PopARTTM上可(ke)用,所有源代(dai)碼均可(ke)在Github上下(xia)載。

相較NVIDIA V100,IPU在自(zi)然(ran)語言處(chu)理、概率算(suan)法(fa)、計算(suan)機視覺(jue)算(suan)法(fa)等應用均展(zhan)現出性能優勢。

英國AI芯片獨角獸勇闖中國!搭上阿里百度,揭秘硬核技術

▲對比GPU,IPU在(zai)運行時展現的(de)性(xing)能優勢

例如訓練BERT,在(zai)NVLink-enabled的(de)平臺上大約要50多小時才能(neng)做到(dao)一(yi)定精度(du),而在(zai)基于IPU的(de)戴爾DSS-8440服務(wu)器上只需36.3小時,速度(du)提高25%。

做BERT推理時,同一時延(yan),IPU吞吐量比V100高一倍;在(zai)訓練MCMC時,IPU可(ke)將性能提(ti)升至V100的26倍。

運行ResNeXt推理時,IPU可實現6倍的吞吐量和1/22的延時。一些搜索引擎公司、醫療影像公司用戶已通過IPU來使用ResNeXt的服務。?

Graphcore銷售(shou)總監朱江分享(xiang)了IPU在金融、醫療(liao)、電(dian)信、機(ji)器人、云(yun)與互聯網等五類垂直領(ling)域的應用實例。

1、金融:LSTM推理性能提升260

IPU在算法(fa)交易(yi)、投資管理、風險管理及詐騙(pian)識別(bie)領(ling)(ling)域(yu)(yu)等(deng)主要金(jin)融(rong)領(ling)(ling)域(yu)(yu)均表現出顯著優勢。

例如在推理方面,延遲性能(neng)(neng)不變時,IPU可將長短期(qi)記憶(LSTM)模(mo)型吞吐(tu)量提(ti)升260倍,對于不可向量化模(mo)型亦能(neng)(neng)取(qu)得非常好的(de)效果。

英國AI芯片獨角獸勇闖中國!搭上阿里百度,揭秘硬核技術

在訓練(lian)方面,IPU可將MCMC概率模型的采(cai)樣速度(du)提(ti)高26倍,可進行阿爾法預測和期(qi)權定價,并能將強化學習(xi)的訓練(lian)速度(du)提(ti)升13倍。

采用多層感(gan)知器(MLP)預測銷售(shou)結果時,相較(jiao)Batch Size為(wei)512K的GPU,IPU吞吐量可提升5.9倍以上。

2、醫療和生命科學:影像分析能效提升4

醫療和生命科學(xue)包括(kuo)新藥研(yan)發、醫學(xue)圖像(xiang)、醫學(xue)研(yan)究、精準(zhun)醫療等領域,涉及大(da)量復雜的(de)實驗,加(jia)速計算過程對一(yi)些(xie)醫學(xue)成果的(de)更(geng)快產出(chu)至為重要。

微(wei)軟用ResNeXt模型做顱內出血醫(yi)學影像分析時,使(shi)用IPU較V100 GPU速度(du)提高2倍,而功耗僅為V100的一(yi)半(ban)。

英國AI芯片獨角獸勇闖中國!搭上阿里百度,揭秘硬核技術

3、電信:加速5G創新應用

在電(dian)信(xin)領域,智慧網(wang)絡、5G創新(xin)、預測(ce)性維護和客戶體驗方面均可應用IPU帶(dai)來加速體驗。

例如,機器智(zhi)能可幫(bang)助(zhu)分析(xi)無線數據的一些變化,運行LSTM模型進行網絡流量(liang)矩陣預測時,采(cai)用(yong)IPU性能比GPU提升超過260倍。

英國AI芯片獨角獸勇闖中國!搭上阿里百度,揭秘硬核技術

網絡切片和(he)資源管理是(shi)5G中的(de)一個特色,需(xu)(xu)要(yao)大量(liang)學(xue)習(xi)沒(mei)被標(biao)記過(guo)的(de)數據,需(xu)(xu)要(yao)應用強化學(xue)習(xi)模型,而在IPU上運(yun)行強化學(xue)習(xi),訓(xun)練吞吐量(liang)相較GPU最多可提(ti)高13倍。

4、機器人:解決經典光束法平差加速問題

在機器(qi)人領域,倫敦帝國(guo)理(li)工學院Andrew Davison教授帶領的(de)機器(qi)人視(shi)覺小(xiao)組在今年3月發表的(de)論文中采用IPU來開發新算法(fa),用以優化(hua)空間人工智能(neng)的(de)效(xiao)率(lv)。

相較使(shi)用Ceres中央(yang)處理器庫的(de)1450毫(hao)(hao)秒,IPU處理器僅在40毫(hao)(hao)秒內就(jiu)解決了真正的(de)光束(shu)法(fa)平差(cha)(Bundle Adjustment)這一(yi)經典的(de)計算機視覺問題。

5、云與互聯網:通過微軟Azure開放

云與(yu)互聯網(wang)是(shi)Graphcore早期(qi)及現在一(yi)直主要(yao)(yao)推廣的一(yi)個(ge)重(zhong)要(yao)(yao)領域。

當前微軟在Azure公(gong)有云上(shang)已面向全球客戶開放IPU公(gong)有云服務。此外,微軟在一些自(zi)然語言處理、計算機視覺應用(yong)中已使用(yong)IPU實(shi)現加速。

另外歐洲(zhou)搜索引擎公司也使用IPU進行ResNeXt模(mo)型推理,做了一個搜圖識(shi)別應用,將性(xing)能提升3.5倍以(yi)上。

結語:即將接受中國市場的檢驗

今年(nian)疫情拖累全(quan)球許(xu)多行(xing)業的(de)發(fa)(fa)展(zhan),但在盧(lu)濤看來,AI領域非但不會走向低潮(chao),反而(er)會有很(hen)大(da)發(fa)(fa)展(zhan),尤其是(shi)自(zi)然語(yu)言處理類算法的(de)發(fa)(fa)展(zhan)會催生大(da)量新(xin)應用。

疫(yi)情(qing)在全球(qiu)范圍內推動了(le)數字(zi)化的(de)加(jia)速,亦會推動數據中心等算力基礎設(she)施(shi)的(de)建設(she)進程。

盧(lu)濤認為,2020年是對AI芯片非常關鍵的一年,如果(guo)企業(ye)拿不出AI芯片產(chan)品,或者(zhe)對軟(ruan)件不夠重視,對后續持(chi)續化(hua)投入或將是很大(da)的挑戰(zhan)。

從Graphcore與(yu)阿(a)里、百度的合作(zuo)來看,該公司今(jin)年在中國市場的推(tui)進明顯提速(su)。

盡管Graphcore在中國市場的整體啟動較北美地區晚了一年左右,但盧濤期望,中國市場能在Graphcore全球市場占比達40%-50%

此外,Graphcore也希望針(zhen)對中(zhong)國市場的需(xu)求,做產(chan)品的定制化演進。

據盧濤介(jie)紹,Graphcore有(you)兩支技術(shu)團隊,一個是以(yi)定(ding)制開發為(wei)主的(de)(de)工程技術(shu)團隊,另一個是以(yi)對用戶的(de)(de)技術(shu)服(fu)務為(wei)主的(de)(de)現場(chang)應用團隊。

其中(zhong)(zhong)工程(cheng)技(ji)術團隊承擔兩(liang)個方面的(de)工作:一(yi)(yi)是根(gen)據中(zhong)(zhong)國(guo)本地(di)AI應用(yong)的(de)特(te)點及需求,將一(yi)(yi)些AI算法模型(xing)在IPU上(shang)實現落地(di);二是根(gen)據中(zhong)(zhong)國(guo)本地(di)用(yong)戶對于AI的(de)穩定(ding)性學習框架(jia)平臺軟(ruan)件(jian)方面的(de)需求,做(zuo)功能性的(de)一(yi)(yi)些開發(fa)加(jia)強的(de)工作。

從上述種(zhong)種(zhong)應用案(an)例來(lai)看(kan),Graphcore已初步(bu)證(zheng)明其(qi)創新IPU架構在多類AI應用上的出色訓練(lian)和推理表現。而Graphcore還會繼(ji)續(xu)“練(lian)內(nei)功、打(da)基礎(chu)”,攻克(ke)技(ji)術難題,加固技(ji)術實力。

不過芯片和(he)相關軟(ruan)件(jian)工具(ju)的落地(di)只是第一步,真正(zheng)商業化(hua)戰果如何,還要(yao)看市(shi)場給出(chu)的回音。