
智東西(公眾號:zhidxcom)
作者 |? 國(guo)仁?心緣
編輯 |? 漠影
智東西12月21日報道,剛(gang)剛(gang),燧原(yuan)科技(ji)推出首款(kuan)云(yun)端推理計算卡“云(yun)燧i10”及(ji)推理引擎(qing)“鑒(jian)算TopsInference”。
云燧(sui)i10是單(dan)槽位標準(zhun)卡,支(zhi)持PCIe 4.0,FP32算(suan)力可達(da)17.6TFLOPS,BF16/FP16算(suan)力可達(da)70.4TFLOPS,最(zui)大功耗僅為150W,在主(zhu)流AI模型中(zhong)的性能表(biao)現均超過GPU競品。
落地鋪陳也基(ji)本(ben)就緒(xu),云燧(sui)i10目(mu)前已經獨立適配(pei)8款(kuan)AI服(fu)務(wu)器(qi),將于明年第一季度上市。
這(zhe)著實(shi)令人感到驚異,作為一家成立于(yu)2018年3月的AI芯(xin)片(pian)初創公司(si),燧原(yuan)科技(ji)研發(fa)和落地的速度,實(shi)在(zai)是(shi)太(tai)快了。
成(cheng)立18個月(yue)(yue)推(tui)出其首款云(yun)端訓練(lian)產品 “云(yun)燧(sui)(sui)T10”及軟件全(quan)棧“馭(yu)算”,今年9月(yue)(yue)宣布“云(yun)燧(sui)(sui)T10”落地商用(yong),如(ru)今首款云(yun)端推(tui)理(li)產品正式量(liang)產發(fa)布。
任何(he)一個環節出問題,都不可能做到如此(ci)迅(xun)速,況且燧(sui)原(yuan)科(ke)技最(zui)先選(xuan)擇(ze)的云端AI訓(xun)練芯片(pian),還(huan)是AI芯片(pian)領域公認的最(zui)難的“山頭”。
截至當前,燧原科技(ji)成為國內唯(wei)(wei)一一家同時擁(yong)有云端訓(xun)練+云端推理完整解決方(fang)案的初創公(gong)司(si)(si),也是騰訊連續三年(nian)投資的唯(wei)(wei)一一家AI芯(xin)片公(gong)司(si)(si)。
燧原(yuan)究竟是如何做到的?通過與燧原(yuan)科技(ji)創始人(ren)兼COO張亞(ya)林深(shen)入交流,我們試圖還(huan)原(yuan)這家AI芯片創企超高效率背后(hou)的“內功”。
▲智東西總編(bian)張國(guo)仁(左)與(yu)燧(sui)原科技COO張亞林(右)
一、對標巨頭,速度制勝
燧原選(xuan)擇(ze)了一(yi)條充(chong)滿(man)未來,但也荊(jing)棘(ji)密布的路。
云端訓練及(ji)推理芯(xin)片的道路前方,始終屹立著英偉達,這(zhe)樣一座巍峨而難以逾越的高(gao)山(shan)。
“國外友商樹立了珠穆朗瑪峰,我們(men)必(bi)須跑得(de)比它更(geng)快,我們(men)必(bi)須以更(geng)快的迭代(dai)速度、更(geng)快的客戶(hu)反(fan)饋來加速產(chan)品迭代(dai),才能在(zai)市(shi)場中(zhong)建立自(zi)己的競爭優勢。”張亞林說。
燧原團(tuan)隊(dui)選擇切入的云端AI芯片(pian)市(shi)場(chang)很廣闊,但如果不能(neng)快速抓住機(ji)會占穩(wen)腳跟,未來市(shi)場(chang)再(zai)大,也只(zhi)會是別人的囊中之物(wu)。因(yin)此研發和落地(di)周期,都必(bi)須(xu)盡力縮短。
“在大公(gong)司有個「1+1」模型(xing),芯片項目(mu)從(cong)立項到流片是一年,從(cong)流片到量(liang)產是一年。我們云(yun)燧(sui)T10在2019年5月底流片,2020年6月量(liang)產,精確地(di)執行了這(zhe)一模式(shi)。”
在張亞林眼中,保證超(chao)高執行力,是趨向于成(cheng)熟公司的必經之路。奔著(zhu)“基業(ye)常青”的目(mu)標,燧原從創業(ye)之初,就在規劃落實三個關鍵(jian)點(dian)。
首先是文化統一。文(wen)化是一個公司的根基所在,能從思(si)想層面實現團隊的高(gao)度協同(tong)。燧原在1.0階段(duan)就開始打造(zao)燧原文(wen)化,如今(jin)已升級至2.0階段(duan)。
燧原的文化核心是“胸懷正道、開拓執行”。其中“胸懷”是指要客戶為先,共贏為本;“正道”是指忠于職責,勇于擔當;“開拓”是指始于創造,歸于價值;“執行”是指以終為始,以質為髓。
其次是行為模式統一。一(yi)個公(gong)司要(yao)做到規(gui)模化(hua),必須有規(gui)范的(de)(de)制度流(liu)程(cheng)(cheng)。從(cong)成立之初,燧原就打(da)造了環(huan)環(huan)相扣的(de)(de)管(guan)(guan)理(li)機制,比如建(jian)立專(zhuan)門對項目(mu)進(jin)行(xing)(xing)監管(guan)(guan)的(de)(de)項目(mu)管(guan)(guan)理(li)團隊(dui)(PMO)、使用統一(yi)的(de)(de)項目(mu)管(guan)(guan)理(li)原則和管(guan)(guan)理(li)語言,再比如對執行(xing)(xing)過程(cheng)(cheng)中如何做關(guan)鍵決策(ce)、追蹤熱(re)點(dian)等制度進(jin)行(xing)(xing)規(gui)范化(hua)管(guan)(guan)理(li)。張亞林認為,這是大公(gong)司能行(xing)(xing)之有效持續推動(dong)產品研發(fa)落(luo)地的(de)(de)根本(ben)。
第三是形成正循環。當企業推出產品(pin),開始(shi)落(luo)地并逐漸規(gui)模化,就(jiu)會得到更多資本青睞(lai)和業內認可,從而形(xing)成反哺企業的動力,這(zhe)樣就(jiu)形(xing)成正循(xun)環(huan)(huan)。而如果企業不是正循(xun)環(huan)(huan),它的效率必(bi)然(ran)會受阻,出現(xian)走彎路的情況(kuang)。“我們(men)在整(zheng)個過(guo)程中精準(zhun)把握了(le)正循(xun)環(huan)(huan)和產品(pin)迭代,所以才能做到這(zhe)么快。”
于是(shi),在燧(sui)原(yuan)1.0階段(duan),剛成立18個月的燧(sui)原(yuan)就(jiu)推出了高(gao)性能云端(duan)訓(xun)練產品,實現從(cong)0到1的破冰。
進入2020年,燧原(yuan)非但(dan)沒有(you)被疫情“黑天(tian)鵝”打亂陣(zhen)腳,反而按(an)計劃順利進入“從(cong)1到N”的燧原(yuan)2.0階(jie)段,循序漸(jian)進地完(wan)成(cheng)新融資、云(yun)端訓練集(ji)群方案商用(yong)落地、云(yun)端推(tui)理加速卡量產(chan)發布(bu)等重要(yao)節(jie)點。截至今日,燧原(yuan)已累計融資13.4億元。
除了階段進化、團隊規模增長外,燧原的落地也更為多元。張亞林透露道,燧原目前針對互聯網、垂直行業譬如教育、金融等方向正在進行頭部客戶的規模化落地,“新基建”也正在快速鋪陳。
二、主流模型基準測試,表現超過GPU旗艦競品
技術(shu)理工(gong)出身(shen),也可以充滿文藝情懷。
每個(ge)年(nian)末(mo)“壓(ya)軸”出場的燧原旗艦產品發(fa)布會,其主題意義都很有文(wen)藝范兒。
去年燧(sui)原云(yun)端訓練計算卡(ka)云(yun)燧(sui)T10發布時,張(zhang)亞林將(jiang)主題定為“芯火燎原”,希望云(yun)燧(sui)T10能一直開拓廣袤(mao)的土地。
如今云(yun)端(duan)推理(li)計算卡云(yun)燧(sui)i10發布,主題變成了“芯漢燦爛(lan)”,出自(zi)曹操《觀滄海(hai)》中的名句“星漢燦爛(lan),若出其(qi)(qi)里”。其(qi)(qi)中,“燦爛(lan)”寓意更多后續(xu)產品(pin),以(yi)此寄(ji)予對(dui)云(yun)燧(sui)i10在星空(kong)上(shang)持(chi)續(xu)閃耀的期待。
通過對云端推理市場進行廣泛調研和用戶畫像,燧原針對性地進行了極致能效提升、多用戶虛擬化、工藝良率優化、散熱方案增強等全方位產品打造,并完全獨立重新設計了推理軟件全棧和板卡系統,使云燧i10擁(yong)有出色的用戶價(jia)值特性。
從燧原公布的基準測試表現來看,云燧i10可以說是不負所托。在主流的圖像識別、視頻增強、視頻處理、內容審核、推薦等主流模型中,實測性能表現均超過GPU旗艦競品。
這得益于云燧i10的四個主要特征:
1、高算力、高精度:在150W單槽算力密度下,FP32算力可達17.6TFLOPS,BF16/FP16算力可達70.4TFLOPS,單精度算力可達GPU競品的兩倍以上;采用自主指令集,支持從FP32到INT8等多種精度;采用512GB/s高存儲帶寬和16GB本地存儲。
2、高能效、高可靠性:智能功耗管理(APC)采用動態調(diao)頻調(diao)壓(DVFS)技術將功耗(hao)控制到接近但不超過最大值150W,從而最大限度(du)發揮算力(li)(li);根(gen)據(ju)負載(zai)加速應用性能(neng),支(zhi)持RAS、ECC;通過硬件(jian)架構設計(ji)、硬件(jian)模(mo)塊及軟件(jian)全棧(zhan)的配(pei)合,實現(xian)溫度(du)、電流、功耗(hao)等監測保護,可提供高(gao)能(neng)效比FP32算力(li)(li)和省電模(mo)式。
3、設備虛擬化(MID):最大可支持4個設備實例,具備計算與(yu)(yu)存儲資源的獨享性,多用(yong)戶間安全隔離;單顆芯片上可同(tong)時部(bu)署不同(tong)的業務(wu)與(yu)(yu)負(fu)載,實現多任務(wu)并(bing)行(xing),有效提高利用(yong)率;支持KVM、Xen等系統虛擬(ni)化平(ping)臺;性能開銷不到物(wu)理(li)機的3%。
4、易編程、生態開放:開(kai)放C++和Python編(bian)程接口,支持(chi)CNN及NLP典型模型,支持(chi)TensorFlow、PyTorch、ONNX等(deng)主流機(ji)器(qi)學習(xi)框架(jia),并通過SDK提供深度定制。
目前云燧i10已支持來自浪潮、Supermicro、新華三的8款AI服務器。云端高算力密度推理服務器半精度算力可達1.1PFLOPS,邊緣云推理服務器半精度算力可達280TFLOPS。
當然,僅僅有高性能的硬(ying)件產品還(huan)不夠,要充分挖(wa)掘硬(ying)件算力(li),必然離不開完善的軟件工具。
三、從無到有,打造推理軟件全棧
在研發(fa)云燧i10的同時,燧原從無到有地建(jian)立了一套對(dui)開發(fa)者友(you)好的推理軟件全棧,提(ti)供不同層次的開發(fa)模式(shi),以及針對(dui)客戶(hu)定(ding)制(zhi)化(hua)算法模型的聯合開發(fa)與優(you)化(hua)。
這一軟件全棧在應用層、框架層、SDK層和驅動層這四個(ge)層面進(jin)行布局。
自頂向下來看,應(ying)用層的Model Zoo中內置(zhi)70多種主流(liu)模型(xing),覆蓋計算(suan)機視覺(jue)、自然語言處理(li)和語音識別以及(ji)其他主流(liu)AI算(suan)法。
在AI框架(jia)層,針(zhen)對推理領域(yu)有很多(duo)自定義框架(jia)的特點(dian),燧原打造(zao)了高性能神(shen)經(jing)網絡模型推理引擎“鑒(jian)算TopsInference”,能將標準化(hua)框架(jia)及客戶自定義框架(jia)中(zhong)的模型轉化(hua)成(cheng)馭算統一執(zhi)行模型。
下一層是SDK層,當所(suo)有模(mo)型被標準(zhun)化后,燧原(yuan)提供(gong)的圖(tu)優化引擎“絡算(suan)TopsNeuro”將模(mo)型解(jie)析成(cheng)各種圖(tu)結構。同時燧原(yuan)還(huan)提供(gong)了包(bao)含各種分析調試及可視(shi)化工(gong)(gong)具(ju)的全(quan)套(tao)工(gong)(gong)具(ju)鏈“探(tan)算(suan)TopsKit”。
再往下是算子庫,“擎算TopsOperator”支持500多個算子和80多個原(yuan)子,能通過提供原(yuan)生匯編實現與優化,挖(wa)掘(jue)更高的(de)算力利(li)用(yong)率。
而用戶能不能自(zi)己定(ding)制算子、操作內部的推(tui)理棧,則需依(yi)靠TopsPrimo,它給用戶提供了標準化模型、框架之(zhi)外的另一種選擇,即自(zi)行通(tong)過編程(cheng)來(lai)優(you)化操作。
最后在(zai)SDK層之下,是與硬件銜接的驅動層。
由(you)此,燧(sui)原打造(zao)出(chu)訓練(lian)推理的整體解決方(fang)案。云燧(sui)i10與云燧(sui)T10以及“馭(yu)算TopsRider”軟件平臺搭配(pei),可實(shi)現算法(fa)模型在(zai)數據中心訓推一體化的快速(su)生產部(bu)署。
四、火力配置均勻,向著目標進發
張亞林告訴智東西,燧原的云端訓練和推理產品(pin)路線圖已經規劃到三年以(yi)后,其團隊(dui)正精準地按(an)照這一路線圖執行。
這種(zhong)“精(jing)準”的(de)執行力(li),源(yuan)自(zi)燧原“使(shi)命必達”的(de)精(jing)神底蘊(yun)。
以研發(fa)云燧(sui)i10為例,朝向在2020年(nian)12月(yue)31日(ri)完成量(liang)產的(de)目標,燧(sui)原(yuan)從今年(nian)3月(yue)啟動在方案、架構和軟件開發(fa)上的(de)技術優化,早期受疫情限制(zhi)主要集中于內(nei)部的(de)遠程開發(fa),從5月(yue)起全面轉向系統(tong)集成開發(fa)和和測(ce)試。
得益于燧原從一(yi)開(kai)始就建立了遠(yuan)程工作機制,早(zao)(zao)早(zao)(zao)搭建完善的(de)內部集群環(huan)境,能支(zhi)撐數百人的(de)多團(tuan)隊從多個地域并(bing)行開(kai)發。即便遭逢疫情(qing),燧原的(de)云端(duan)(duan)訓練(lian)產品(pin)落(luo)地和云端(duan)(duan)推理(li)產品(pin)研發進度均未受到影(ying)響。
▲燧(sui)原云端推理計算卡“云燧(sui)i10”
為了提升能效(xiao)比,燧原團(tuan)隊決(jue)定在云(yun)端(duan)推理計算卡(ka)上采用動(dong)態調頻調壓(DVFS)技術,始終在設定的(de)(de)條件內(nei)跑最高(gao)的(de)(de)電壓和頻率(lv),這一技術對精確度的(de)(de)要求非常(chang)高(gao)。
頂著讓板(ban)卡(ka)(ka)實現30天全負(fu)荷工(gong)(gong)作不死機(ji)、不過熱的(de)巨大(da)(da)壓(ya)力(li),從10月開始,量產團隊在燧原實驗室(shi)中連續(xu)一個(ge)月全負(fu)荷緊急攻關調試,每個(ge)人都背負(fu)著巨大(da)(da)的(de)責任感,將工(gong)(gong)作任務嚴(yan)格控(kong)制到每一天,1個(ge)月后板(ban)卡(ka)(ka)順利通過抗壓(ya)測試。
除了系(xi)統量產(chan)(chan)團(tuan)隊(dui)外,在產(chan)(chan)品研發方(fang)面(mian),燧原(yuan)(yuan)還有其他三個(ge)主要團(tuan)隊(dui),分(fen)別是(shi)芯片團(tuan)隊(dui)、軟(ruan)件團(tuan)隊(dui)以及客戶解決方(fang)案(an)團(tuan)隊(dui)。在燧原(yuan)(yuan)文化的驅動下(xia),這四個(ge)團(tuan)隊(dui)緊(jin)密(mi)協同,實現了燧原(yuan)(yuan)從項目伊(yi)始到整(zheng)個(ge)大系(xi)統量產(chan)(chan)的高效(xiao)執(zhi)行力(li)。
其(qi)中,研發人(ren)員是燧(sui)原團(tuan)隊的主力(li)軍,占總(zong)員工人(ren)數(shu)的近90%。除了重視研發外(wai),面向客戶服務(wu)的員工數(shu)量也在(zai)持續增長。
如今,燧原已建(jian)立了全建(jian)制(zhi)的(de)商(shang)務(wu)(wu)和研發部門,包括(kuo)產(chan)品市(shi)場、商(shang)務(wu)(wu)銷售(shou)、客戶方案及供應鏈等部門,更好地為(wei)客戶提供服務(wu)(wu)。
張亞林(lin)認為,在企(qi)業(ye)初創階段,需要(yao)一(yi)些非常(chang)資(zi)深的人來(lai)把控(kong)產品和落地等(deng)方向,但隨(sui)著團隊逐步擴張,芯片公司就像一(yi)個火力配置(zhi)均勻的集團軍,有各種(zhong)兵(bing)種(zhong),包括做(zuo)驗(yan)證的、做(zuo)設計的、做(zuo)架構設計的等(deng)等(deng)。
“我不認為一(yi)(yi)個公司全是(shi)「特(te)種(zhong)兵」”,張亞林特(te)別(bie)提到,這不是(shi)有效(xiao)的(de)(de)組織結(jie)構,當一(yi)(yi)個公司達(da)到某一(yi)(yi)階段,就需要(yao)實現“火(huo)力均衡配置(zhi)、各種(zhong)兵種(zhong)互相協同(tong)高效(xiao)運作的(de)(de)組織”。
五、云端AI推理芯片將呈現爆炸式增長
盡量(liang)CPU仍占據(ju)最(zui)多的云端推理市場,但張(zhang)亞林認為,這是因為推理市場還(huan)未完全(quan)蓬勃發展起來,并不妨礙未來云端AI推理芯片的成長。
此前因(yin)模型基礎量不夠大,很多推(tui)理還在做(zuo)輕量化,加上端云之(zhi)間的延遲很大,導致網絡傳(chuan)輸速度嚴重掣肘了云端推(tui)理的應用。
而從近(jin)年(nian)數據來看,在中國云端推理市場,AI處(chu)理器所占份(fen)額從2017年(nian)的0%逐步攀升至2019年(nian)的1.5%。
尤其在(zai)今年(nian),推理(li)市場增速明顯(xian)。
首先是(shi)場景的發(fa)展,中國互聯網(wang)場景非(fei)常多樣化(hua),在(zai)信(xin)息安全、語音、NLP、短視(shi)頻等方面有越來越多的推理需求(qiu),應用場景日趨豐富。
其次(ci)是(shi)網(wang)絡的發(fa)(fa)展,5G的興起打破了端云(yun)之間的延遲限制,讓云(yun)端多(duo)用戶并(bing)發(fa)(fa)性變得(de)非(fei)常廣泛,將(jiang)網(wang)絡延遲降到最低,這(zhe)樣一來,云(yun)端算力就變成了關鍵瓶頸。
因此,張亞林預計,隨(sui)著(zhu)應(ying)用場景泛化以及5G的普及,AI處理(li)器一定會(hui)在云(yun)端推理(li)市(shi)場呈現爆炸式增長。
六、商業成功是檢驗技術創新的唯一標準
什么才算真(zhen)正的技(ji)術(shu)創(chuang)新?
前(qian)段時間,中(zhong)國工(gong)程院院士吳(wu)漢(han)明(ming)在(zai)題(ti)為《“中(zhong)國芯”呼喚產(chan)業(ye)導向的技術支持》的演講中(zhong)指出,商業(ye)成功是檢驗技術創新的唯一(yi)標準。
張亞林對此非常認同,當我們還在談論芯片架構創(chuang)新,英偉達及其(qi)他云(yun)端(duan)頭(tou)部(bu)(bu)公(gong)司已將著(zhu)眼點放置(zhi)于(yu)全系統的(de)創(chuang)新,而(er)芯片只是其(qi)中(zhong)很小(xiao)的(de)一部(bu)(bu)分。
“燧(sui)原的(de)目的(de)一直是算力(li)普惠,這句話并不(bu)是空(kong)談。”張亞林說,燧(sui)原在軟(ruan)件、硬件、系統、客戶定制(zhi)化方案全面鋪開,通(tong)過打造(zao)高性價比(bi)的(de)算力(li),真正為客戶創造(zao)價值。
在他(ta)看(kan)來,開拓型創新(xin)(xin)是有前提(ti)條(tiao)件(jian)的(de)(de),只(zhi)有通過逐(zhu)步了解市場,提(ti)高客戶黏性、構建生態到一定(ding)程度時,創新(xin)(xin)才是有說(shuo)服力的(de)(de)。
要達到這個(ge)前提的根本,是通過(guo)不斷產品迭代(dai),在(zai)算力性價比(bi)、客(ke)戶(hu)支持極致性上做文章,這樣(yang)才(cai)能積累起一定(ding)的客(ke)戶(hu)黏性。
“所以(yi)拋開市場價值(zhi)、客(ke)戶黏性(xing)、生態壁壘去談創新,就是無本(ben)之木、無源之水。”張亞林說。
結語:不講故事,只講客戶價值
截至現(xian)在(zai),燧原(yuan)科技的云端(duan)AI芯片生態(tai)已經(jing)覆蓋“邃思”通用人工智能芯片、云端(duan)訓練加(jia)速(su)(su)卡(ka)“云燧T10”、云端(duan)推理(li)加(jia)速(su)(su)卡(ka)“云燧i10”以及(ji)“馭算”軟件全棧平(ping)臺。
在(zai)張亞(ya)林(lin)看來,中(zhong)國公司做(zuo)數據中(zhong)心(xin)是(shi)大趨(qu)勢,而(er)中(zhong)國數據中(zhong)心(xin)的(de)體量完全能容納更多的(de)頭(tou)部玩家,市(shi)場也需要“百花齊放”,同時(shi)燧原將堅持通過高(gao)執行力(li)和工程化為客戶(hu)提供價值。
“我們是一家(jia)以技(ji)術驅動,為(wei)(wei)客戶創造價值的公司。”他提(ti)到燧原(yuan)已經(jing)走在商(shang)(shang)業化落地的路上,“明年公司愿景是實現更大規(gui)模的商(shang)(shang)業落地,建立(li)我們的產品(pin)生態和護城河(he),為(wei)(wei)客戶提(ti)供更多更完(wan)整(zheng)的產品(pin)解決方案。”
在(zai)后續的產品迭代(dai)中,燧(sui)原(yuan)計劃持續滿足客戶更多的需求(qiu)。隨著生(sheng)態打(da)磨和業務泛化,燧(sui)原(yuan)給自(zi)己定的目標是將(jiang)客戶從其他產品遷移到燧(sui)原(yuan)產品的時間壓縮在(zai)一周之內。
除了總部位于(yu)上海外,燧原科技(ji)已在北京和(he)深圳設有研(yan)發中心。張亞林說,未來他們還(huan)希望(wang)能夠(gou)布(bu)局(ju)一(yi)些(xie)內(nei)地和(he)沿海省市。
“人才在哪(na)兒,研發中心就放(fang)在哪(na)兒。”張亞林(lin)希望通過(guo)遠程管理和高(gao)效組(zu)織,未來燧(sui)原能夠吸納更多的人才。