芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

從打造一(yi)(yi)顆芯(xin)片(pian)到推出系(xi)統級解決方案,似乎已經成(cheng)為一(yi)(yi)家云端(duan)AI(人(ren)工智能)芯(xin)片(pian)公司的必然走向。

在9月1日-3日舉辦的2022世界人工智能大會上,云端AI算力企業燧原科技推出了針對大規模、集約化AI算力應用場景的高性能AI加速集群產品云燧智算機(CloudBlazer POD,以及全棧式AI開發服務平臺和通用大規模算力管理平臺燧池智算平臺(CloudBlazer Station)。

這是燧(sui)原科技在其面向訓練(lian)和推理的云端AI芯片相繼落地后,為(wei)提供AI場景計算能力(li)建設而打造的最新力(li)作(zuo)。

此前(qian),燧(sui)原科技的(de)兩代“邃思”芯(xin)片已(yi)應用(yong)于大規(gui)模AI集(ji)群工程中(zhong)(zhong),落(luo)地(di)超千(qian)卡規(gui)模液冷AI集(ji)群。而兩個軟硬件新(xin)品的(de)發(fa)布,有助于降低燧(sui)原AI算力(li)產(chan)品在數據(ju)中(zhong)(zhong)心的(de)部署和(he)應用(yong)門(men)檻(jian),并進一步挖(wa)掘其(qi)芯(xin)片在實(shi)際(ji)業(ye)務場景中(zhong)(zhong)能發(fa)揮出的(de)有效算力(li)。

從迭代(dai)核心芯片到主打(da)系(xi)統和軟(ruan)件(jian),這背后凝(ning)聚了燧原科(ke)技(ji)的哪些經驗與思考?近日,芯東西(xi)與燧原科(ke)技(ji)創(chuang)始人(ren)兼(jian)COO張亞林(lin)進行深(shen)入交流,分(fen)享關于兩款(kuan)新(xin)品(pin)的更多(duo)技(ji)術細節(jie),以及對AI芯片產業未來走向的前瞻性見解。

云端AI芯片進入拼落地階段!如何吃透數據中心建設痛點,對話燧原科技張亞林▲燧原科(ke)技創始人、COO張亞林(lin)

一、降低AI算力中心部署成本,助建大規模、集約化、綠色低碳數據中心

張亞林告(gao)訴芯東(dong)西(xi),目前燧(sui)原科技有(you)4條(tiao)主要客(ke)戶賽道,分別是泛(fan)互聯(lian)網、垂直或傳統行業、政府業務、產(chan)學(xue)研。燧(sui)原在(zai)這(zhe)些(xie)業務線上均已(yi)落(luo)地樣板(ban)客(ke)戶,并泛(fan)化了(le)所有(you)這(zhe)4條(tiao)賽道的客(ke)戶需(xu)求(qiu),將它們集成在(zai)云燧(sui)智算(suan)機中,形成一套(tao)“軟件+硬件+系統化”的總體算(suan)力底座產(chan)業化方案。

云燧智算機采用(yong)一(yi)體(ti)化設計(ji)(ji),是專為AI場景下(xia)計(ji)(ji)算、存儲、網絡、軟硬(ying)協同設計(ji)(ji)的(de)(de)標準(zhun)化產品,通(tong)過一(yi)站(zhan)式預集成(cheng)AI加速硬(ying)件、一(yi)體(ti)化開發與管(guan)理平(ping)臺及配套AI應用(yong)軟件與服(fu)務(wu),提供包括采購、安裝、運維(wei)一(yi)體(ti)的(de)(de)交鑰匙方案,來幫助用(yong)戶(hu)實現AI算力中心從交付部(bu)署到后期(qi)上線(xian)及運維(wei)管(guan)理全生命周(zhou)期(qi)中的(de)(de)優(you)異總(zong)擁有成(cheng)本(TCO)。

云端AI芯片進入拼落地階段!如何吃透數據中心建設痛點,對話燧原科技張亞林

▲云燧智算機整體設計(ji)

從(cong)外(wai)形(xing)(xing)來看(kan),云燧智(zhi)算(suan)機與美國AI計算(suan)企業英偉達打造的DGX POD看(kan)起來差不(bu)多。張亞林解釋說,兩者(zhe)產品形(xing)(xing)態(tai)類(lei)似,但又有些不(bu)同,云燧智(zhi)算(suan)機可(ke)(ke)以(yi)進行定(ding)制(zhi),散熱方式可(ke)(ke)以(yi)定(ding)制(zhi)成是液冷或風冷,存儲、算(suan)力、CPU、網絡都可(ke)(ke)以(yi)定(ding)制(zhi),以(yi)組(zu)件(jian)化、菜(cai)單化形(xing)(xing)式提供給客戶。

據(ju)他透露,云(yun)燧(sui)智算機已開(kai)始落(luo)地,現有落(luo)地場景包括構成超千卡液冷AI液冷集(ji)群,已在國家級(ji)實(shi)驗(yan)室上(shang)線,在To G業務(wu)也實(shi)現了大(da)規模(mo)應用。

從(cong)燧原(yuan)此(ci)前(qian)積累的經驗來看,數據中心很關注能效比和(he)性(xing)價比,這也是云燧智算機的優(you)勢所(suo)在。

云燧智算機代表了(le)燧原科技經過多個(ge)大規模工程實踐(jian)所形成的計算、網絡、存(cun)儲(chu)的整體設計:以全局優化為目標,基(ji)于計算、存(cun)儲(chu)、管理網絡分離,全互(hu)聯無阻塞的網絡架(jia)構,結(jie)合高效的多級存(cun)儲(chu)方式,在其自研AI芯片“邃(sui)思”與CPU的異(yi)構算力支撐下(xia)提(ti)供(gong)出色的AI性能。

據其披(pi)露的(de)(de)數(shu)據,在典型配置下,云(yun)燧智(zhi)算(suan)(suan)機每單元可達到8PFLOPS的(de)(de)TF32浮點算(suan)(suan)力(li),并且支(zhi)持按需橫向擴容,計算(suan)(suan)節(jie)點內基于GCU-LARE2.0多芯互(hu)(hu)(hu)聯(lian)技術(shu)可提供近1TB/s的(de)(de)互(hu)(hu)(hu)聯(lian)帶寬,跨節(jie)點互(hu)(hu)(hu)聯(lian)能(neng)力(li)高達600Gb/s,可支(zhi)持數(shu)千(qian)卡規模集群高速互(hu)(hu)(hu)聯(lian),突(tu)破(po)E級算(suan)(suan)力(li),并能(neng)支(zhi)撐超千(qian)億參數(shu)巨量模型的(de)(de)高效、并行訓練。

云端AI芯片進入拼落地階段!如何吃透數據中心建設痛點,對話燧原科技張亞林

通過采用一(yi)體化冷板式(shi)液冷技術、先進(jin)流量控制系統等(deng),云燧智算機(ji)能夠將數據(ju)中心整體能效(PUE)降(jiang)至(zhi)1.1及以(yi)下。

張亞林說,燧原(yuan)的(de)(de)產品均為自主開發(fa),對芯片、板卡(ka)的(de)(de)成(cheng)本有非常(chang)強的(de)(de)認知,其供應鏈優化也起到(dao)了(le)關鍵作(zuo)用,再加上(shang)對軟件的(de)(de)增值、跟OEM戰略合作(zuo)中一(yi)體(ti)化設計在成(cheng)本上(shang)的(de)(de)優化,能(neng)夠將(jiang)能(neng)效(xiao)、算效(xiao)和性價比做到(dao)了(le)極致。

如果將實現降低(di)功耗(hao)的目標(biao)拆解來看,首(shou)先是做到整個(ge)芯(xin)片和板卡的能(neng)耗(hao)控(kong)制,在算(suan)力利(li)用(yong)率高時,功耗(hao)能(neng)到峰(feng)值,并且不出現穩定性問題;在算(suan)力利(li)用(yong)率低(di)時,功耗(hao)要降下(xia)來,不能(neng)空耗(hao)電。

接著是(shi)控制整個系統的(de)(de)功耗。這取(qu)決于軟硬件聯合優化是(shi)不是(shi)足夠好,同時(shi)循環系統也很關(guan)鍵,相比傳(chuan)統的(de)(de)風冷方(fang)式,液冷方(fang)式的(de)(de)散熱效能高,能將(jiang)周邊溫度更(geng)好地控制在一個較(jiao)穩定的(de)(de)狀態。

二、軟件,AI芯片公司未來的核心競爭力

“算力底座的概念,已經從芯片變成了系(xi)統,或者(zhe)是「系(xi)統+軟件」。”張亞林(lin)談道(dao)。

單說板卡、芯片性價比(bi)多高沒有意義,最(zui)終客戶買的是(shi)系統(tong),因此是(shi)從系統(tong)角度看性價比(bi)。無(wu)論是(shi)計算中心還(huan)是(shi)各類垂直(zhi)場景,都越來越呈集約化趨勢,需要有能(neng)讓AI算力更加開箱即用(yong)的交鑰(yao)匙方案,這就要有將(jiang)加速(su)卡、CPU、存(cun)儲、網絡通通考(kao)慮在(zai)內的整個(ge)AI系統(tong)的整合,同(tong)時軟件平臺需將(jiang)整個(ge)用(yong)戶界面全盤規(gui)劃。

“軟件的(de)(de)復雜(za)度、系統(tong)互聯(lian)的(de)(de)存儲、算力匹配的(de)(de)復雜(za)度,都會大力增加整個AI系統(tong)工程化落(luo)地的(de)(de)服務,必須有(you)足夠強大的(de)(de)團隊和足夠多的(de)(de)know-how,才能夠把這(zhe)些東(dong)西集成在(zai)一起。”

張亞林(lin)稱(cheng),這是一個很(hen)大的(de)(de)工程(cheng)體系,要(yao)求整個團(tuan)(tuan)隊(dui)具(ju)備全棧(zhan)能力,芯片團(tuan)(tuan)隊(dui)要(yao)掌握從(cong)芯片定義(yi)、架(jia)構、設計到(dao)流片、量產的(de)(de)全過程(cheng),軟(ruan)件團(tuan)(tuan)隊(dui)要(yao)從(cong)全棧(zhan)角(jiao)度(du)將底層驅(qu)動到(dao)上層框架(jia)全部(bu)拉通(tong),系統(tong)團(tuan)(tuan)隊(dui)則需具(ju)備AI計算卡、CPU、網絡(luo)、存(cun)儲(chu)等系統(tong)集成(cheng)的(de)(de)大規模(mo)部(bu)署。

有了這樣全鏈條的(de)團隊,系(xi)統與軟件(jian)的(de)配合才可能達到無縫地銜接(jie)與優化(hua),才能真正從一體化(hua)、系(xi)統化(hua)的(de)方式實(shi)現(xian)客戶的(de)價(jia)值。

張亞林特別強調說,AI芯片公司未來的核心競爭力,除了芯片本身之外,軟件是一大關鍵。

軟件(jian)研發的(de)難度甚至高(gao)于芯片本(ben)身(shen),從無(wu)到(dao)有,要考慮對不(bu)同場(chang)景的(de)適(shi)配(pei)、對未來算(suan)法模型的(de)支持等(deng)等(deng),而(er)必須(xu)觸達(da)足夠多(duo)的(de)客戶,應用到(dao)足夠多(duo)的(de)場(chang)景,吸收(shou)大量的(de)客戶反饋再不(bu)斷打磨軟件(jian),才有實現(xian)完(wan)備(bei)性(xing)的(de)可(ke)能。

經過大(da)量業務落地(di)后(hou),燧原團隊將(jiang)其(qi)觸達(da)的客戶軟件開(kai)發的模式、用戶的體(ti)驗和一些業務的痛點(dian)提煉整合到燧池智算平臺(tai),使(shi)其(qi)兼具(ju)算法倉庫、訓推(tui)一體(ti)化、調度、運維等(deng)能力。

與云燧一體機搭配,燧池智算平臺能夠對上層用戶(hu)屏(ping)蔽(bi)底層算力異(yi)構性,實現云燧AI算力集群的(de)大(da)規模(mo)算力資源管(guan)理調度,為用戶(hu)提供AI模(mo)型生產及(ji)應用發布的(de)全流程服務。

云端AI芯片進入拼落地階段!如何吃透數據中心建設痛點,對話燧原科技張亞林▲燧池智算平臺

其算(suan)(suan)法(fa)服務(wu)層包含智(zhi)能算(suan)(suan)法(fa)管理(li)平(ping)臺(tai)和訓(xun)推(tui)一體化平(ping)臺(tai)。燧(sui)池智(zhi)算(suan)(suan)平(ping)臺(tai)的(de)算(suan)(suan)法(fa)倉內(nei)置有幾百個(ge)算(suan)(suan)法(fa),既有已被大(da)規模使(shi)用的(de)業內(nei)標(biao)準算(suan)(suan)法(fa),也有很多經由燧(sui)原二次開(kai)發或修改、使(shi)其更好貼近實際業務(wu)應用的(de)算(suan)(suan)法(fa)。在基(ji)礎設(she)施層,異(yi)構(gou)算(suan)(suan)力(li)調(diao)度平(ping)臺(tai)負責將所有任務(wu)切(qie)分(fen)調(diao)度,智(zhi)能運維平(ping)臺(tai)讓用戶能夠隨時遠程監控數據、存儲、算(suan)(suan)力(li)、網絡使(shi)用率及故(gu)障異(yi)常情況(kuang)。

張亞林透露道(dao),燧原的軟件會(hui)繼續向(xiang)四個方面發(fa)力:易用性(xing)、完(wan)備(bei)性(xing)、遷(qian)移性(xing)、兼(jian)容性(xing)。

三、劇透云燧智算機迭代規劃,對AI芯片發展抱有長期信心

談及云燧(sui)智算(suan)機與燧(sui)池(chi)智算(suan)平臺的(de)后(hou)續迭代規(gui)劃與期(qi)望,張亞林說,燧(sui)原一直秉持(chi)算(suan)力普(pu)惠的(de)原則,希望通過(guo)系統產(chan)品(pin)、軟(ruan)件產(chan)品(pin)、集約(yue)化的(de)方式,能(neng)夠真正給用戶帶來(lai)性價比、能(neng)效(xiao)比。

他相信短期內,這兩款軟(ruan)硬件新品(pin)開箱即用、模塊化的(de)設(she)計方(fang)式(shi),會(hui)進一步簡化數據中(zhong)心的(de)建(jian)設(she)難度、縮短數據中(zhong)心的(de)建(jian)設(she)周期;長期來(lai)看,隨(sui)著燧原芯片及軟(ruan)件棧(zhan)的(de)迭代,其POD產品(pin)也會(hui)隨(sui)之(zhi)更(geng)新,以系統方(fang)式(shi)提供更(geng)高價值。

據(ju)張亞林觀察,隨(sui)著中國(guo)數字經濟、算力經濟升(sheng)級(ji),現在(zai)到了(le)科技興(xing)國(guo)的(de)關鍵(jian)階段,即科技發展如何真(zhen)正推(tui)動生產,要做到這(zhe)一點,就要“用(yong)”起來,從客戶側感受到價(jia)值。燧(sui)原已經站(zhan)到了(le)“讓用(yong)戶用(yong)起來”的(de)第一線。

“我覺得所有(you)的(de)AI芯片公司都必須征服從點亮到(dao)(dao)(dao)量產、量產到(dao)(dao)(dao)軟件規模(mo)化、軟件規模(mo)化到(dao)(dao)(dao)系(xi)統和(he)生態。”張亞林說,“這個過程(cheng)是(shi)沒有(you)捷徑的(de),它是(shi)一(yi)個自然規律,就跟觸達客戶一(yi)樣(yang),這就是(shi)看這些(xie)AI芯片公司能不能真(zhen)正面向客戶,真(zhen)正從系(xi)統和(he)軟件的(de)角度把落地和(he)打磨(mo)的(de)速(su)度轉起來。”

目前國(guo)際AI計算巨(ju)頭在(zai)生態方(fang)面壁壘森嚴(yan),國(guo)內AI芯片企業們(men)尚難以(yi)與其“硬碰硬”。張亞林(lin)告訴芯東(dong)西,國(guo)產AI芯片如(ru)想提高市(shi)場競爭力,需在(zai)落(luo)地性(xing)(xing)價(jia)(jia)比上展現優勢,“通(tong)常我(wo)們(men)在(zai)泛互聯網(wang)客戶落(luo)地的時候,要(yao)(yao)求的是兩倍(bei)凈值和性(xing)(xing)價(jia)(jia)比,在(zai)同樣的性(xing)(xing)能(neng)下,要(yao)(yao)達(da)到它(ta)的兩倍(bei)性(xing)(xing)價(jia)(jia)比。”

當(dang)被(bei)問及對(dui)AI芯片賽道的(de)長(chang)期信心(xin),張(zhang)亞(ya)林回(hui)答說:“做國家認(ren)為難但(dan)是對(dui)的(de)事,我認(ren)為這條(tiao)主向是不會(hui)變(bian)的(de)。”在(zai)他看來(lai),短期內遇(yu)到困難在(zai)所(suo)難免(mian),大家對(dui)這個事業的(de)信心(xin)也會(hui)上下起(qi)伏,過(guo)程需要長(chang)戰斗,但(dan)發(fa)展的(de)終極目標、必要性都很清(qing)楚,假(jia)以時(shi)日,一定會(hui)有國內企業跑出(chu)來(lai)。

他(ta)認(ren)為,國產(chan)AI芯片在內(nei)容審(shen)核、安全檢查等特定場(chang)景中已能跟(gen)國外競品同場(chang)競技,在兩個方(fang)面還(huan)需補強(qiang):一是(shi)場(chang)景適(shi)配性(xing)與(yu)完(wan)備(bei)性(xing),需要有更多(duo)用戶的(de)使用和更多(duo)場(chang)景的(de)接入,來(lai)加速產(chan)品的(de)打(da)磨;二(er)是(shi)生態化,即(ji)實現整個AI系統與(yu)用戶需求更好地結合、與(yu)更多(duo)用戶的(de)適(shi)配性(xing)越來(lai)越高(gao)。

對于支持日(ri)趨流行的(de)Transformer類(lei)模型,燧(sui)原正在看下游市(shi)場(chang)的(de)風向,觀察客(ke)戶現階段是否愿意承(cheng)受稀疏化的(de)改變,“但(dan)是它(ta)一定(ding)會在燧(sui)原未來的(de)藍圖里面。”張亞林說。

結語:大算力AI芯片企業走向系統化布局

從芯(xin)片(pian)研發到走向(xiang)規模化(hua)落地,以(yi)燧原科技為代表的(de)多家國內大算力AI芯(xin)片(pian)公司,正朝著系統化(hua)方向(xiang)展開全(quan)方位的(de)布局(ju),以(yi)應對愈發激烈的(de)市場化(hua)競(jing)爭。

“我(wo)們(men)第(di)一代(dai)在(zai)講芯片、講板卡,第(di)二(er)代(dai)在(zai)大力(li)優化我(wo)們(men)的(de)軟(ruan)件(jian)、泛化應用、可遷移(yi)、兼容,再(zai)往下走,我(wo)們(men)現在(zai)開始講系統+軟(ruan)件(jian)+組件(jian)+模(mo)組這樣的(de)整體賦能,這其實(shi)是客戶(hu)的(de)趨勢。”張亞林說(shuo),燧原(yuan)定位為(wei)AI算力(li)基礎設施提供方,因(yin)客戶(hu)之需而變。

他(ta)相(xiang)信,未來AI必然走向(xiang)系統化、集約化、泛(fan)化,AI芯片也會有更好的通用性價位和彈(dan)性價位,既具(ju)備面(mian)向(xiang)未來無數不確定(ding)(ding)算法的通用性,又(you)能夠(gou)針對(dui)特定(ding)(ding)場景,在(zai)一定(ding)(ding)泛(fan)化的基礎上極致(zhi)打(da)磨其(qi)能效和性價比。