芯東西(公眾號:aichip001)
文 | 心緣

面對巨頭環伺的云(yun)端AI芯(xin)片戰場,一家中國AI芯(xin)片創企剛剛吹響(xiang)沖鋒的號角(jiao)。

就在(zai)昨(zuo)日,燧(sui)(sui)原科技(ji)官宣了其首款云(yun)(yun)端訓(xun)(xun)練(lian)芯(xin)片邃(sui)思DTU、云(yun)(yun)端訓(xun)(xun)練(lian)加(jia)速卡云(yun)(yun)燧(sui)(sui)T10及計算(suan)及編程平臺馭(yu)算(suan),云(yun)(yun)燧(sui)(sui)T10單(dan)卡單(dan)精度算(suan)力(li)達(da)到20TFLOPS,放在(zai)全(quan)球云(yun)(yun)端訓(xun)(xun)練(lian)芯(xin)片中比較也絲毫(hao)不落下風。

解密燧原云端訓練芯片背后的底牌

技術(shu)難(nan)、成本高(gao)、風險大、回報周期漫(man)長(chang)等因素宛如一座座高(gao)山,將許多對造芯(xin)心向往之(zhi)的創業者(zhe)拒在云(yun)端訓(xun)練芯(xin)片的門(men)外。燧原科技創始人卻毫不猶豫地選擇先攻克云(yun)端訓(xun)練方向,而且從啟動研(yan)發到開始量產首款(kuan)云(yun)端訓(xun)練芯(xin)片只用了短短20個月。

這家(jia)不足兩歲的AI芯片創企,憑什(shen)么直攻這一AI芯片界難度最高(gao)的領(ling)域?它的創業團隊有(you)怎么樣的技術基(ji)因,能否(fou)支撐起(qi)云(yun)端訓(xun)練產(chan)品的研(yan)發需求(qiu)?面對強手(shou)如林的國際戰(zhan)場,它有(you)哪些差異(yi)化打法?

通過與(yu)燧(sui)原(yuan)科技創(chuang)始(shi)人(ren)兼(jian)CEO趙立東、燧(sui)原(yuan)科技創(chuang)始(shi)人(ren)兼(jian)COO張(zhang)亞林深入溝(gou)通,芯東西(xi)一步步還原(yuan)燧(sui)原(yuan)科技首款云端芯片(pian)背后的(de)技術(shu)底牌,兩位創(chuang)始(shi)人(ren)也向(xiang)我們系統展示了燧(sui)原(yuan)的(de)業務(wu)部署和落地策略。

一、AMD老兵創業,曾領導研發XBOX ONE和小霸王游戲機主芯片

燧原科技的(de)兩位創始人趙立東和張亞林(lin)在AMD工作時,就(jiu)曾是配合默契的(de)老(lao)搭檔。

2008年1月,張亞(ya)林剛加入AMD,趙立東(dong)是(shi)他的(de)直屬老板。兩(liang)個(ge)人合(he)作了大(da)約五年,趙立東(dong)負責整個(ge)團隊的(de)構建、項目爭取(qu),張亞(ya)林做執行和芯片的(de)產出(chu)。

解密燧原云端訓練芯片背后的底牌

▲燧(sui)原科技COO張(zhang)亞林

風靡全球的家用游戲機微軟(ruan)XBOX ONE系(xi)列,采(cai)用的主芯片即是(shi)由(you)張亞林在(zai)AMD上海研(yan)發中心領(ling)導研(yan)發。

據張亞林(lin)介紹,游(you)戲機芯(xin)(xin)片(pian)設(she)計與云端芯(xin)(xin)片(pian)設(she)計有共(gong)通之初(chu),都是(shi)大芯(xin)(xin)片(pian),而(er)大芯(xin)(xin)片(pian)設(she)計有一套(tao)嚴格的方(fang)法學,芯(xin)(xin)片(pian)越大,整個設(she)計難(nan)度也會呈指數級(ji)上升。

以微軟(ruan)XBOX ONE主(zhu)芯(xin)片為例,它既(ji)要跑(pao)操作系(xi)統,又要能跑(pao)游戲,是一塊由CPU+GPU結(jie)合的(de)APU,設(she)計(ji)難(nan)度非常高。

挑(tiao)戰不止在設(she)計(ji)本身,還有(you)芯片工程化(hua)問題。

像(xiang)XBOX ONE這樣一(yi)年(nian)需(xu)量產幾千萬臺的(de)游戲主(zhu)機,要求大(da)芯片(pian)能盡快量產。這也是(shi)國產大(da)芯片(pian)企業行路艱難的(de)核(he)心原(yuan)因(yin)之一(yi)。

經過多個(ge)世(shi)界(jie)級芯(xin)片項目的磨礪,趙立東(dong)和張亞林都積累(lei)了深厚的芯(xin)片設計和工程化經驗(yan)。

解密燧原云端訓練芯片背后的底牌

▲燧(sui)原科技CEO趙立東

2014年(nian)末,兩人的同事關系(xi)暫時(shi)畫上句點。趙立東跳槽到紫光通信科技集團任副總裁,張亞林仍然留在AMD。

“我(wo)和(he)立東在AMD有一個約定,”張亞林回憶道,“希望為中國(guo)做一些中國(guo)人的本土化項目。”

2016年,機(ji)(ji)會來(lai)了(le)。老牌(pai)國(guo)產游戲(xi)(xi)機(ji)(ji)品牌(pai)小(xiao)霸(ba)王在(zai)中(zhong)山重新崛(jue)起(qi),交給(gei)AMD大筆費用(yong)來(lai)做(zuo)中(zhong)國(guo)自(zi)主品牌(pai)的游戲(xi)(xi)機(ji)(ji)項目,這個項目幾(ji)經輾轉到了(le)張亞林手中(zhong),目標是造出一顆超(chao)大型芯片(pian),使小(xiao)霸(ba)王游戲(xi)(xi)機(ji)(ji)的性能超(chao)過當時最先(xian)進(jin)的XBOX ONE的50%。

“我(wo)覺得(de),那是我(wo)留在AMD的最后一(yi)(yi)個夢想。”這一(yi)(yi)項目在2017年9月整體收尾(wei),張(zhang)亞林(lin)選(xuan)擇(ze)離開,與時任紫(zi)光集團副總裁的趙立東(dong)再次會合,投身于另一(yi)(yi)個頗具挑戰性的領域——云端AI芯片。

二、政策支持,騰訊投資,人才技術均已就緒

當他們選(xuan)擇(ze)創立燧(sui)原(yuan)科技并定(ding)下云端AI芯(xin)片(pian)方向時,云端數據中心中的國產(chan)化AI芯(xin)片(pian)尚如一片(pian)荒原(yuan)。

AI的(de)發(fa)(fa)展是由模型算法研究推(tui)及云端終端的(de)部署(shu),如果上游的(de)云端訓練模型受到國外的(de)掣肘,那(nei)么整個AI發(fa)(fa)展都會被限制。

秉持著讓(rang)中國擁有更(geng)多自主前瞻性模型的初(chu)心,近(jin)20年的芯片研發經(jing)驗積淀,以及長期(qi)就(jiu)職(zhi)于外企而(er)日漸(jian)濃厚的家國情(qing)懷,促使兩位燧(sui)原創始人(ren)決定在云(yun)端(duan)芯片高舉高打。

在張亞林看來,芯(xin)片工(gong)程化、市場應用(yong)與算法(fa)的(de)整合、軟硬件加(jia)生(sheng)態的(de)全棧式設(she)計能力(li),成為阻礙中(zhong)國云端芯(xin)片快(kuai)速成長的(de)三座(zuo)大山。

畢竟,單獨做(zuo)出一(yi)顆能拿(na)出來看(kan)的芯(xin)片,和整(zheng)個市場都能用(yong)的軟硬件解決方案,中(zhong)間還隔有相當的距離。

不過這一距離在兩位燧原(yuan)創始人眼中,并(bing)非(fei)是難以跨越(yue)的鴻溝(gou)。憑借此前在業(ye)界積累的口碑,他(ta)們快速在新(xin)賽道(dao)上集(ji)結了各種對創業(ye)有利的因(yin)素(su)。

人才(cai)和(he)技術方面,中國(guo)集成(cheng)電(dian)路(lu)產業經過近(jin)20年的發(fa)(fa)展(zhan),芯片(pian)設(she)計人才(cai)和(he)技術儲備均(jun)已成(cheng)熟,足以研發(fa)(fa)大芯片(pian)。如今燧原207名成(cheng)員中,研發(fa)(fa)團(tuan)隊占90%,來自全球(qiu)30多(duo)家(jia)公司,平均(jun)工作年限(xian)10年以上,有豐厚的技術沉淀。

政(zheng)策(ce)和資金方面,燧原也獲得了(le)上海市(shi)自由貿易試驗區臨港(gang)新片區及多家投(tou)資機構的大力支持。燧原分別(bie)在2018年(nian)7月和2019年(nian)5月完(wan)成(cheng)超3億人民幣的融(rong)資,前者(zhe)由騰訊戰略領(ling)投(tou),后(hou)者(zhe)由紅點領(ling)投(tou)。

解密燧原云端訓練芯片背后的底牌

有趣的(de)是(shi),作為國內(nei)AI界的(de)投(tou)資(zi)大戶,騰(teng)訊向提供(gong)資(zi)金(jin)支持(chi)的(de)AI企業(ye)多(duo)聚焦(jiao)于算法、軟件與應用層(ceng)面,鮮少關乎(hu)芯(xin)片(pian)研發。

市場機會(hui)、應用空間、人(ren)才紅利、數據資(zi)源、人(ren)才儲備、技術儲備、政(zheng)策引(yin)領、資(zi)本支(zhi)持等使能引(yin)擎均已就緒,共同驅動(dong)燧原云端芯片在AI和(he)集成(cheng)電路交叉賽道上(shang)駛(shi)向前(qian)方。

三、如何實現最強單精度算力?燧原的三大核心技術優勢

底層硬件的(de)加速效率、性(xing)價比(bi)(bi)、能效比(bi)(bi)、可擴展性(xing)、易用(yong)性(xing),以(yi)及是否(fou)可以(yi)有(you)定(ding)制化(hua)、差異化(hua),直(zhi)接關(guan)乎整(zheng)體業務(wu)的(de)好壞。因此拿出有(you)足夠(gou)硬核的(de)芯(xin)片產品是任何(he)一家AI芯(xin)片創企的(de)首要(yao)任務(wu)。

昨天(tian),燧(sui)原推出核心產品云燧(sui)T10,內嵌云端AI高性能通用訓練芯片(pian)邃思、搭載了計(ji)算及(ji)編程平臺(tai)“馭算”,覆蓋硬件(jian)(jian)與軟件(jian)(jian)。

解密燧原云端訓練芯片背后的底牌

▲燧原(yuan)首款云端訓練(lian)芯片邃思

從公布的(de)算(suan)力(li)和測試指標來看,燧原已初步(bu)證(zheng)明了自身(shen)的(de)技術實力(li)。

邃思芯片采(cai)用(yong)格羅方(fang)德(de)12nm FinFET工藝和2.5D高級封裝技術,基于可(ke)(ke)重構芯片設計理(li)念,具有高度(du)并行化(hua)的特點,可(ke)(ke)實(shi)現(xian)通(tong)用(yong)可(ke)(ke)編程(cheng),并且能適(shi)配(pei)現(xian)有及未(wei)來可(ke)(ke)能的數(shu)學運算,適(shi)用(yong)于圖像、數(shu)據流、語音等各(ge)種訓(xun)練(lian)場(chang)景(jing)。

云燧T10單精度(FP32)算力達到20TFLOPS,半精度及混合精度(BF16/FP16)算力達80TFLOPS在ResNet-50模型上(shang)每秒處(chu)理(li)幀數為(wei)518fps,單位能(neng)(neng)耗下(xia)性能(neng)(neng)比達2.3fps/W。

這些成績(ji)即便(bian)放(fang)到全(quan)球云端AI芯片領域來看也可圈可點(dian)。另外燧原還計劃在明(ming)年(nian)推(tui)進(jin)多卡互聯的Benchmark測試。

解密燧原云端訓練芯片背后的底牌

張亞林(lin)認為,燧原科技在技術方(fang)面有三大核心優勢。

其一,燧原(yuan)推出的是覆蓋軟硬件和(he)系統的全棧(zhan)式解決(jue)方案(an)。

其二,燧原在整(zheng)個(ge)芯片研發過程中,融入大量專門針對AI加速的設計(ji),并拋棄傳統設計(ji)與AI不相關的東(dong)西,致使整(zheng)個(ge)AI軟硬(ying)件(jian)系統性(xing)價(jia)比得到極大提(ti)升(sheng)。

盡管(guan)趙立東和(he)張亞林都擁有(you)(you)(you)豐富的(de)(de)CPU/GPU/APU相(xiang)關(guan)研發背景,但他們(men)打(da)造的(de)(de)邃思(si)芯片,在架構上沒(mei)有(you)(you)(you)借(jie)鑒任何GPU設(she)計(ji)經驗,而是從無到有(you)(you)(you)的(de)(de)設(she)計(ji)了(le)一套單獨指(zhi)令(ling)集(ji)和(he)處理器,拋棄了(le)以前所有(you)(you)(you)的(de)(de)歷史包袱。

邃思芯片的計(ji)算核心(xin)包含32個通(tong)用可擴(kuo)展神經元處理(li)器(SIP),每8個SIP組(zu)合成1個可擴(kuo)展智能(neng)計(ji)算群(SIC)。SIC間(jian)通(tong)過HBM實(shi)現高速互聯,通(tong)過片上調度(du)算法(fa),數據在搬遷中完成計(ji)算,從(cong)而(er)最大化SIP利用率。

其三,燧原走的(de)是(shi)全團隊開(kai)發模式,在后續與客戶的(de)對接過(guo)程中,在本(ben)土(tu)化方面可提供最快速的(de)響應和技術支持。

解密燧原云端訓練芯片背后的底牌

此外在互(hu)聯方面,燧原自(zi)研200GB雙向ESL(Enflame Smart Link,燧原片(pian)間互(hu)聯)技術,可(ke)實現芯片(pian)與(yu)芯片(pian)間、板卡(ka)與(yu)板卡(ka)間的高(gao)速(su)互(hu)聯,在成本(ben)和算力拓展(zhan)上均有較大優勢,在1024節點集(ji)群規模下,其訓練(lian)線性度加速(su)比達86%。

軟件(jian)是提(ti)升芯片易用性的重(zhong)要(yao)工(gong)具(ju),燧原(yuan)對軟件(jian)及工(gong)具(ju)鏈同樣做了充(chong)分布局,打造了計算(suan)及編(bian)程平臺馭算(suan)。

解密燧原云端訓練芯片背后的底牌

一方面,考慮到現有AI生態(tai),馭算完全支持TensorFlow,下一階段將支持PyTorch、MXNet、ONNX等(deng)主(zhu)流深度學習框架。上(shang)層客(ke)戶用這些框架做開發時,可以(yi)很快(kuai)適(shi)配到燧原的(de)軟硬件(jian)上(shang)。

另一方面(mian),面(mian)向(xiang)深度開發(fa)者,馭算也提供完整的(de)(de)開源(yuan)工具鏈、SDK和軟件(jian)函數庫(ku),使得對(dui)底(di)層硬(ying)件(jian)資源(yuan)有(you)更多需求(qiu)的(de)(de)開發(fa)者能與燧原合作定制(zhi)甚至(zhi)改動部分函數庫(ku),從而實現硬(ying)件(jian)更為有(you)效的(de)(de)加(jia)速。

四、聚焦三大業務方向,定制化合作滿足差異化需求

從(cong)2019年起,全球AI芯片(pian)的(de)核心話(hua)題已經(jing)從(cong)“拼性(xing)能”轉移(yi)向“拼落(luo)地(di)(di)”,不僅(jin)要求有好的(de)算力和(he)效能,還要在落(luo)地(di)(di)具(ju)體業務場景時,能夠(gou)盡(jin)可能的(de)挖掘這(zhe)些(xie)性(xing)能。

當前燧原的業務主要聚(ju)焦在三(san)大方向:一是包(bao)括(kuo)公有云(yun)(yun)、私有云(yun)(yun)、混合(he)云(yun)(yun)的云(yun)(yun)服務商,二是金融、保險、醫療、互(hu)聯網等(deng)領域有很(hen)強(qiang)模(mo)型訓練需求的行業客戶(hu);三(san)是AI超算中心和(he)智慧城市。

經由對規模、性能、成本的(de)(de)綜合(he)考量(liang),燧原(yuan)為大(da)中(zhong)(zhong)小型數(shu)據(ju)中(zhong)(zhong)心(xin)提(ti)供單節點(dian)模式(標準PCIe卡)、單機柜模式(整個機柜)、集(ji)群(qun)模式(ESL高速片間互連)3種互聯方案,以滿足(zu)不同客戶對深(shen)度學(xue)習的(de)(de)訓(xun)練需求。

解密燧原云端訓練芯片背后的底牌

▲包括8個云(yun)燧T11(OAM模組)的AI訓練(lian)Box,通(tong)過OCP標準專用(yong)接(jie)口與CPU服務器(qi)相連

在(zai)首批客(ke)戶的選(xuan)擇(ze)上,燧原(yuan)也(ye)非(fei)常審慎。

張亞林表(biao)示,燧原(yuan)當(dang)前尋求的,是(shi)如何更有效(xiao)地與有強相關(guan)性的合作伙伴產生互補效(xiao)應。

燧原希望在(zai)中國找到志同道合(he)的(de)第一批(pi)客戶(hu),來優先(xian)將更(geng)(geng)高(gao)性(xing)價比的(de)AI訓練(lian)解決方(fang)案落地到這些客戶(hu)的(de)業務場(chang)景,通過深(shen)入定(ding)制化(hua)合(he)作,滿(man)足客戶(hu)的(de)差異化(hua)需(xu)求,從而產生更(geng)(geng)多前(qian)瞻性(xing)的(de)AI算法,打破壟斷局面,加速AI算法的(de)產生與落地。

在(zai)同客(ke)戶(hu)接(jie)觸時,燧(sui)原不急于立刻開展業(ye)(ye)務,而是(shi)先(xian)從客(ke)戶(hu)現有的業(ye)(ye)務模型(xing)當中進(jin)行泛(fan)化(hua)、抽(chou)取(qu),以(yi)降低(di)軟件遷(qian)移(yi)成(cheng)本。

除了(le)云端(duan)訓練產品外,燧(sui)原也有云端(duan)推理產品線。張亞林透露,打通從訓練模型產生到推理模型部署(shu)的整個環節,是燧(sui)原在未來三年要構建(jian)的全生態終極目標。

不過(guo)燧(sui)原暫時還沒有(you)入局終(zhong)端(duan)芯(xin)片(pian)(pian)的(de)規劃。張亞林(lin)認為,云端(duan)的(de)難度(du)(du)主要在技術和生態壁壘(lei),而終(zhong)端(duan)的(de)難度(du)(du)則在于在細分市(shi)(shi)場找(zhao)到定位(wei),市(shi)(shi)場碎(sui)(sui)片(pian)(pian)化、算法碎(sui)(sui)片(pian)(pian)化問(wen)題導(dao)致一款(kuan)終(zhong)端(duan)芯(xin)片(pian)(pian)很難打通用市(shi)(shi)場,至少要幾十萬片(pian)(pian)的(de)出貨量(liang)才(cai)能補足(zu)前期開發投入的(de)成本。

趙立東(dong)也提(ti)到,作為(wei)一(yi)家初(chu)創公(gong)司,燧原(yuan)首先(xian)將有限(xian)的資源聚焦在一(yi)個點上,把這個“冰”破開(kai),再橫向鋪(pu)開(kai),這個市場就變得更加水到渠(qu)成。

解密燧原云端訓練芯片背后的底牌

▲燧(sui)原(yuan)科技首(shou)款云端AI訓(xun)練加速卡云燧(sui)T10

截(jie)至現(xian)在,燧原科(ke)技(ji)已建設頂級工程(cheng)化(hua)團隊,完成產(chan)品研發和(he)量產(chan),實現(xian)產(chan)品熱啟動,開啟首個AI訓練平臺的商(shang)業化(hua)落(luo)地。

下一步,燧(sui)原(yuan)將繼(ji)續(xu)打(da)(da)造擁有(you)高(gao)(gao)能效比(bi)、高(gao)(gao)利用率、高(gao)(gao)性價比(bi)的芯片,吸收軟(ruan)件遷(qian)移成本(ben),并(bing)逐步完(wan)善市場銷(xiao)售、服務支持體系建設(she),不斷豐富(fu)產品(pin)解決方案,打(da)(da)造對用戶更友好易用的軟(ruan)件工具,并(bing)持續(xu)引進高(gao)(gao)端人才,尋求建立廣泛的開源軟(ruan)件生態系統聯(lian)盟。

另外,張亞林也(ye)希望能從研發(fa)、產品定義、花銷、客戶支持(chi),創造一個多維度穩(wen)定平(ping)衡的健康財務結(jie)構,將未(wei)來主動權掌握在自己的手中。

結語:明年AI芯片繼續拼落地

2019年被稱為AI芯片落(luo)地(di)(di)元(yuan)年,張亞林相信,落(luo)地(di)(di)同樣(yang)也會是2020年的關鍵詞。

他(ta)表示,燧原希望能為做出(chu)達到世界水平(ping)的國產化(hua)芯片和軟硬(ying)件系(xi)統(tong),并且有信心明年(nian)上半年(nian)打破AI商業落(luo)地的魔咒(zhou)。

燧原在(zai)云端(duan)AI芯(xin)片領域的(de)一些(xie)思考(kao),對(dui)于其(qi)他芯(xin)片設計創企同樣有借鑒(jian)意(yi)義。正如(ru)魏少軍教授所言(yan),芯(xin)片不(bu)(bu)是搭草(cao)臺班子就能(neng)做(zuo)好的(de),不(bu)(bu)僅(jin)要有硬核(he)技術實(shi)力(li)、工程化能(neng)力(li)和團隊完整性,還(huan)要思考(kao)怎樣才是對(dui)的(de)方法、時(shi)機、方向、產品和客戶(hu)。

打破國(guo)外在(zai)云端芯片市場的壟斷絕非易事,但至(zhi)少燧原已經(jing)邁(mai)出了充滿勇氣的第一步。我們也期待(dai)更多中國(guo)芯能(neng)夠邁(mai)過技術和落地的一道道難(nan)關(guan),經(jing)受住時間和市場的考驗。