智東西(公眾號:zhidxcom)
文 | 心緣

這家AI芯片創(chuang)企已經(jing)潛伏近(jin)三(san)年了。

2016年底,谷歌TPU核心團隊(dui)的十(shi)個(ge)人中,有八人悄(qiao)悄(qiao)組隊(dui)離職,合伙創辦了(le)新公司(si)——Groq。

谷歌TPU,AlphaGo擊敗(bai)世界(jie)圍棋(qi)冠(guan)軍背后算力的核心(xin)功臣(chen),一戰成名,帶動(dong)起(qi)全(quan)球專用IA芯片(pian)市場的火熱(re)。它的核心(xin)設(she)計人員(yuan)外出創業,毫無疑(yi)問被(bei)外界(jie)視(shi)作無法忽視(shi)的存在。

明知被產(chan)業熱(re)切地(di)關注著(zhu),這家創企卻(que)相當(dang)任性,在官宣(xuan)要在2018年發(fa)布第一代(dai)AI芯片后,它(ta)就再次進入神隱(yin)狀態,任你外界怎么猜測,我自巋然不動。

這(zhe)一(yi)神隱就(jiu)神隱到了(le)今年9月。Groq被(bei)曝將(jiang)參展美國計(ji)算(suan)機歷史博物館舉辦的AI硬(ying)件峰(feng)會,多(duo)少(shao)人正(zheng)期待Groq成為這(zhe)場峰(feng)會的最大熱點時,Groq又(you)相(xiang)當任性(xing)地(di)撂挑子不干了(le),空(kong)留(liu)其logo顯眼而尷(gan)尬地(di)留(liu)在了(le)橫幅上。

撬走谷歌TPU核心團隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創企在醞釀什么大招?

▲在AI硬件峰會上的Groq徽標(biao)和空(kong)椅子(圖(tu)源:Tirias Research)

10月(yue)21日,Groq突然更新(xin)了博客《世界(jie),認識Groq》。這一(yi)篇博客,似(si)乎(hu)在無(wu)聲(sheng)地宣告,Groq即將(jiang)要(yao)高調地回歸大眾視(shi)野。

撬走谷歌TPU核心團隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創企在醞釀什么大招?

一、預告400TOPS算力的芯片

2017年(nian)還算(suan)是Groq有點(dian)活躍的(de)一年(nian)。

3月(yue),Social Capital風(feng)險投資(zi)家、前(qian)Facebook高管Chamath Palihapitiya告訴美媒,他花了1.5年招攬谷歌TPU背(bei)后(hou)的工(gong)程(cheng)師。

4月,Groq被報道拿(na)到由(you)Chamath Palihapitiya領投(tou)的1030萬美(mei)元啟動資(zi)金,這是Groq第一次(ci)出現在公眾視野。

7月,賽靈思前全球銷售執行副總(zong)裁Krishna Rangasaye加盟Groq,擔任首席運營官(COO),不過現在(zai)Groq的(de)COO已變(bian)成Adrian Mendes。

11月,Groq在(zai)官網宣布(bu)要在(zai)2018年(nian)發布(bu)第(di)一代AI芯(xin)(xin)片(pian)產品,號(hao)稱這款(kuan)芯(xin)(xin)片(pian)的(de)運算速度將可以達到(dao)400 TOPS,每瓦特能進(jin)行(xing)8萬億次的(de)運算。

而當時谷(gu)(gu)歌(ge)(ge)最新一代(dai)的TPU算力(li)才(cai)達到(dao)180TOPS,這(zhe)意(yi)味著(zhu)Groq性能(neng)將超谷(gu)(gu)歌(ge)(ge)TPU兩(liang)倍還多。

而此時距(ju)離Groq成立(li)才短短一年,如果擱在其它創(chuang)企身上,可能還會被質疑是說(shuo)大話,偏(pian)偏(pian)Groq由Google X的前(qian)工程師道(dao)格(ge)拉(la)斯·懷特曼(Douglas Wightman)和喬納森·羅斯(Jonathan Ross?)等共同創(chuang)立(li)。早期(qi)谷歌TPU團(tuan)隊的十位核心成員(yuan)中(zhong),有八位都來到了這(zhe)家公(gong)司。

撬走谷歌TPU核心團隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創企在醞釀什么大招?

▲Groq創始人兼首席(xi)執行官Jonathan Ross

包(bao)括CEO 喬(qiao)納(na)森·羅斯(Jonathan Ross)在內的Groq創始團(tuan)隊(dui),是早期TPU十(shi)人核心設(she)計(ji)團(tuan)隊(dui)中的八人。

谷(gu)歌曾在短(duan)短(duan)約14個月(yue)的(de)時間里發布(bu)首個TPU,Groq能在超短(duan)時間內展示其芯片(pian)似乎也不是(shi)什么難以理解的(de)事(shi)情。

二、沉寂一年,突然回歸

然而,在無(wu)數人的翹首以(yi)盼中(zhong),Groq卻并沒有(you)如期亮出它(ta)們打磨的核心(xin)利(li)器。

時(shi)間(jian)一(yi)(yi)晃而逝,轉眼(yan)到了今年9月,美國證劵交易(yi)委員會公布(bu)了一(yi)(yi)項文件,顯示(shi)(shi)Groq正(zheng)目標籌集約6000萬(wan)美元的資(zi)金。這(zhe)一(yi)(yi)文件顯示(shi)(shi)它已(yi)經融(rong)資(zi)超(chao)過5200萬(wan)美元,至(zhi)少有(you)16位投(tou)資(zi)方為這(zhe)新(xin)的一(yi)(yi)輪融(rong)資(zi)做(zuo)出貢獻(xian)。

撬走谷歌TPU核心團隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創企在醞釀什么大招?

同樣在9月,當大(da)家都(dou)以為Groq要帶著它(ta)的芯片產品(pin)一起露面了,它(ta)又出人意料的“放(fang)了AI硬(ying)件峰會的鴿子”。

當美媒(mei)終于聯系上Jonathan Ross,他的回復卻顯得(de)些微輕(qing)描淡寫。

“我們有(you)一句話:展示,不(bu)要告訴。”Jonathan Ross說,他們本打算在(zai)AI硬件峰會(hui)上做演示,但他們不(bu)得不(bu)將資源轉移(yi)給客戶,無法(fa)進(jin)行演示,因(yin)此他們決定(ding)退出(chu)。

或許(xu)正(zheng)如Jonathan Ross所言(yan),Groq的(de)(de)(de)AI芯片(pian)產品(pin)已經(jing)獲得客戶的(de)(de)(de)認(ren)可,Groq終于開始(shi)主動揭開神秘(mi)的(de)(de)(de)面紗(sha),以博客的(de)(de)(de)方(fang)式陸續(xu)透露出關于其芯片(pian)產品(pin)差異化(hua)的(de)(de)(de)拼圖。

撬走谷歌TPU核心團隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創企在醞釀什么大招?

在Groq官網的首頁,Groq芯(xin)片的性能顯示(shi)為400 TOPS,但除了知道這(zhe)(zhe)是INT8計算的最(zui)高(gao)性能,可以處理(li)整數與(yu)浮點運算外,我們尚未得知要達(da)到這(zhe)(zhe)一性能還(huan)有(you)哪些其他條件。

有趣的是,盡(jin)管Groq創(chuang)始團隊脫胎于谷歌(ge)TPU團隊,但他們既(ji)沒有在谷歌(ge)TPU,也(ye)沒有在GPU、GPU、FPGA等架構(gou)上做迭代,而是嘗試一種新(xin)的體系架構(gou)。

撬走谷歌TPU核心團隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創企在醞釀什么大招?

▲截(jie)至目前,Groq擁有70名(ming)全職員(yuan)工,已籌(chou)集了6700萬美元的資金

三、AI推理需要更簡化、更可擴展的架構

當前,處理器架(jia)構的(de)復(fu)雜性不(bu)僅阻(zu)礙(ai)開發(fa)人員生產力(li),也阻(zu)礙(ai)著AI應用(yong)程序和其他計算繁重工作負(fu)載的(de)采用(yong)。

在Jonathan Ross看來,由于對傳(chuan)統服務(wu)器群集(ji)的(de)投資已達到計算成本壁壘,處(chu)理(li)(li)(li)推理(li)(li)(li)任務(wu)的(de)目標時獲得(de)大量(liang)的(de)并(bing)行吞吐量(liang),而現有的(de)設備(bei)已經(jing)被擠得(de)水泄不通,即便增加物理(li)(li)(li)處(chu)理(li)(li)(li)器的(de)數量(liang),也無法實現更快、更有效的(de)神經(jing)網絡處(chu)理(li)(li)(li)。

同(tong)時,CPU、GPU等標準計算體(ti)系結構擠(ji)滿了(le)硬件功能(neng)和(he)元素(su),這些硬件和(he)元素(su)對推理性能(neng)沒(mei)有任何幫助。為(wei)了(le)每秒(miao)執行越來(lai)(lai)越多(duo)的操作,芯片(pian)變得越來(lai)(lai)越大、越來(lai)(lai)越復雜,具有多(duo)個(ge)內核(he)、多(duo)個(ge)線(xian)程(cheng)、片(pian)上(shang)網(wang)絡和(he)復雜的控制電路。

為了提高(gao)軟(ruan)件性能(neng)和輸出,機器學習模(mo)型的(de)開發人員要面(mian)對(dui)(dui)復雜的(de)編程模(mo)型、安(an)全問題,以及由于處理抽象層(ceng)而導致(zhi)的(de)對(dui)(dui)編譯(yi)器控制的(de)可見性的(de)喪失。

另外,據(ju)Ross回憶,谷歌Jeff Dean在TPU推出前曾做過數學(xue)運算,分享說他(ta)們(men)雖(sui)然(ran)可以訓練(lian)生(sheng)產級(ji)別的模型,但(dan)由于價格太昂貴(gui),他(ta)們(men)無力使用現有架(jia)構(gou)來部署(shu)它們(men)。

“如果他們要(yao)為所有人部署語音識別,那(nei)么谷歌必須(xu)將數據中心的(de)數量增加2-3倍(bei),再(zai)增加20到40個。這(zhe)些成(cheng)本(ben)以十億計(ji)。如果您(nin)僅出于語音識別的(de)目的(de),以另一種方式對運算成(cheng)本(ben)進(jin)行數學(xue)計(ji)算,則他們必須(xu)將其計(ji)算能(neng)力提高一倍(bei)。”

要(yao)在這(zhe)些(xie)約束條件(jian)下獲得更高的機器學習性能,需(xu)要(yao)依(yi)靠對硬件(jian)體系結(jie)構有(you)深入(ru)了解,并進行(xing)費力的手(shou)動優(you)化。

撬走谷歌TPU核心團隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創企在醞釀什么大招?

面對這一(yi)現狀,Groq專門針對機器(qi)學(xue)習應用(yong)程序(xu)和(he)(he)其他計(ji)算密集型(xing)工(gong)作負載的(de)性能要求,設計(ji)了(le)一(yi)種更(geng)簡化、更(geng)可(ke)擴展的(de)新型(xing)處理體系(xi)結構,以提供更(geng)高的(de)吞吐(tu)量和(he)(he)更(geng)易用(yong)性。

這(zhe)種(zhong)新架構降低了傳統開發的復雜性,使得(de)開發者可以(yi)專注(zhu)于算(suan)法,而無(wu)需(xu)考慮讓其解(jie)決方案適應硬件,從而節省了開發人員(yuan)資(zi)源,也使大規模部署AI解(jie)決方案變得(de)更加容易。

四、Groq高性能架構的三大特點

根據Groq的博客,Groq芯(xin)片(pian)是通(tong)用(yong)深(shen)度學習推(tui)理(li)芯(xin)片(pian),是高性能、低(di)延遲、計(ji)算密集型工作負載的理(li)想(xiang)平臺。

具體而言,其高性(xing)能架構的愿(yuan)景基于技術創(chuang)新的三個關(guan)鍵領域(yu):

1、軟件定義的硬件

受軟件優(you)先思想的(de)啟(qi)發(fa),Groq將執行控制(zhi)和數據流控制(zhi)從硬件轉移到了編譯器。

撬走谷歌TPU核心團隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創企在醞釀什么大招?

所有執(zhi)行(xing)計劃(hua)都在軟件中(zhong)進行(xing),從而釋放了寶貴的(de)硅空間,并(bing)提供了額外的(de)內存帶(dai)寬和晶體管來提高性能。

軟(ruan)件從本質上協(xie)調所(suo)有所(suo)需的(de)數據流(liu)和(he)時序(xu),以確保(bao)計算不會發生停頓,Groq的(de)芯(xin)片允許(xu)在編譯時預先知道所(suo)有延遲,從而(er)使延遲和(he)性能可預測。

2、芯片創新

Groq的(de)簡化架構從芯(xin)(xin)片(pian)上去除(chu)了對(dui)AI沒有任何處理優勢的(de)多余電路(lu),從而實現(xian)了更(geng)高效的(de)芯(xin)(xin)片(pian)設計,每平(ping)方毫米的(de)性能更(geng)高。

這消除(chu)了(le)對緩存、核(he)心到核(he)心通(tong)信、推測性(xing)和無序執行的需求。

Groq的(de)(de)芯片將大(da)量(liang)的(de)(de)算術(shu)邏(luo)輯單元(yuan)(ALU)與大(da)量(liang)的(de)(de)片上存儲器結(jie)合在一起,并具有超過60TB/s的(de)(de)充(chong)足帶寬來輸送給大(da)量(liang)ALU。

根據EETimes看到的(de)(de)幻燈片(pian)顯示,其芯片(pian)中三列ALU與兩個大內存條交(jiao)錯,ALU約占芯片(pian)面積的(de)(de)40%,內存接(jie)近芯片(pian)面積的(de)(de)50%。

通過增加跨芯片總(zong)帶寬(kuan)和用于(yu)計算(suan)的晶體管總(zong)數(shu)的更高(gao)百(bai)分比,可以實現更高(gao)的計算(suan)密度。

3、最大程度提升開發速度

Groq系(xi)(xi)統體(ti)系(xi)(xi)結構的簡單(dan)性消(xiao)除了手工(gong)優化,配(pei)置文件和(he)主導傳(chuan)統以硬(ying)件為中(zhong)心的設計方法(fa)的專業設備知識的需求。

相反,Groq專注于編譯(yi)(yi)器(qi),從(cong)而使軟件需求能夠驅(qu)動硬件規范。其編譯(yi)(yi)器(qi)已經設法將編譯(yi)(yi)時間壓縮至秒(miao)。

撬走谷歌TPU核心團隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創企在醞釀什么大招?

在編譯時(shi),開發人員(yuan)可(ke)以精確(que)獲(huo)知內存使用情(qing)況、模(mo)型效率和(he)延遲。

這聽起來可能不是特(te)別重(zhong)要,但(dan)隨(sui)著芯(xin)片規模擴大,在(zai)數(shu)據中心進行(xing)擴展會(hui)(hui)變得(de)更困(kun)難,假設擴展到(dao)數(shu)千(qian)個芯(xin)片,如果有一個因為延遲慢(man)了(le),那么有60%的機(ji)會(hui)(hui)每(mei)一個查詢都(dou)將(jiang)是慢(man)的。

Groq芯(xin)片(pian)的這種確(que)(que)定(ding)性設(she)計(ji),意味著用(yong)戶可(ke)以(yi)在將多芯(xin)片(pian)擴展(zhan)連接時,精確(que)(que)把控運行一次計(ji)算需(xu)要(yao)多長時間,使得(de)用(yong)戶可(ke)以(yi)更加專(zhuan)注于(yu)算法(fa)并更快地(di)部署解決方案,從而簡化了生(sheng)產流程。

四、像,但不是FPGA

雖然軟件定(ding)義的(de)硬件與確定(ding)性(xing)操(cao)作相結合(he)的(de)概念(nian)可能使人想(xiang)到FPGA,但Jonathan Ross強調,Groq的(de)芯片絕對(dui)不是FPGA。

Ross表(biao)(biao)示,FPGA可在(zai)(zai)每個周期(qi)重新配置,這(zhe)與(yu)他(ta)們的芯片(pian)工作原理相似,但(dan)Groq的芯片(pian)不是FPGA,它沒有查找表(biao)(biao),用戶可逐周期(qi)完全更(geng)改芯片(pian)的功能,能確切知道(dao)芯片(pian)的每個部分在(zai)(zai)任何時刻都在(zai)(zai)做什么,這(zhe)種控制級別(bie)非常精(jing)細。

此前另一家(jia)長期(qi)隱身(shen)的(de)AI芯(xin)片創企SambaNova也(ye)有提出軟件(jian)定義(yi)硬件(jian)的(de)概念(nian),他們正在開發可重構(gou)的(de)數(shu)據流體系結構(gou)并致力于(yu)用于(yu)編(bian)程(cheng)加(jia)速器的(de)語言。

在Tirias研(yan)究首席分(fen)(fen)析師Kevin Krewell看來,Groq的(de)方(fang)法與常規FPGA和SambaNova的(de)方(fang)法就是很像,而且他對迄今為止Groq所(suo)分(fen)(fen)享的(de)內容表(biao)達一些擔憂。

Kevin Krewell擔心(xin)的(de)(de)是(shi)其每平方毫米(mi)的(de)(de)效(xiao)率計算(suan),設計是(shi)靜態編譯的(de)(de),這意味著一次(ci)只能處理(li)一種類型的(de)(de)機器學習算(suan)法,而某些(xie)任(ren)務需要多(duo)種不(bu)同的(de)(de)機器學習模型,比(bi)如(ru)圖(tu)像處理(li)和語音(yin)處理(li)。

五、目標AI推理,適合自動駕駛與金融

Groq工程部(bu)副總裁Michelle Tomasko表(biao)示(shi),有硅片后,他們第一天就上(shang)電了,第一周就在芯片上(shang)運行了程序,六(liu)周后又向客(ke)戶提供了樣(yang)品。

Tomasko詳(xiang)細介紹了(le)TSP的(de)(de)(de)(de)確定性將(jiang)如何改善客(ke)戶的(de)(de)(de)(de)系統驗證時間,并補充(chong)說,能夠在芯片(pian)推(tui)出之前就很好地交付編譯器的(de)(de)(de)(de)功能,意味著(zhu)客(ke)戶可以(yi)成功地將(jiang)他們的(de)(de)(de)(de)模型面向(xiang)TSP的(de)(de)(de)(de)體系結構。

撬走谷歌TPU核心團隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創企在醞釀什么大招?

▲Groq工程部副總裁(cai)Michelle Tomasko

在加入Groq之前(qian),Tomasko曾(ceng)在谷歌工(gong)作(zuo)了3年,此前(qian)還曾(ceng)在NVIDIA工(gong)作(zuo)。

她說(shuo),NVIDIA可以做暴力疊加,而Groq這種架構(gou)能能迅(xun)速(su)靈活(huo)地執行任務(wu),這是他們領先于NVIDIA的關(guan)鍵(jian)。

撬走谷歌TPU核心團隊的4/5,任性缺席美國AI硬件峰會,這家AI芯片創企在醞釀什么大招?

▲Groq首席運營官Adrian Mendes

Groq的(de)目標是(shi)數據中(zhong)心和自動駕駛汽車中(zhong)的(de)推(tui)理應用。

其(qi)首席(xi)運(yun)營(ying)官Adrian Mendes表示,“微秒(miao)級”的(de)延遲與(yu)整體確定性相結合(he),使得Groq的(de)芯(xin)片適合(he)于自動駕駛、金融等安全(quan)關鍵(jian)型應用。

“從8月(yue)開始(shi),我們已經向少數客戶(hu)提(ti)供了硬件。”?Mendes說,“我們的硬件現在位于(yu)客戶(hu)數據中(zhong)心中(zhong)……他們正在這些(xie)板上運(yun)行程序,并(bing)從中(zhong)獲得很好(hao)的結果。”

結語:AI推理市場行路難

Groq在創(chuang)辦之初的(de)確帶給了人們很多的(de)期待(dai),但不可否(fou)認的(de)是,它(ta)的(de)神秘主(zhu)義盡管(guan)使得部分人對它(ta)更加感興趣,卻也伴(ban)隨著(zhu)AI芯片熱(re)度的(de)退卻,消(xiao)磨了大眾的(de)熱(re)情(qing)和耐心。

從當(dang)前透露的(de)信息來看,有著(zhu)高起點的(de)Groq確實有很多關于AI推理市場(chang)的(de)思考,我們也可(ke)以(yi)看到其創新架構(gou)的(de)核心組成就是編(bian)譯器,但(dan)是這一架構(gou)究竟能(neng)不能(neng)獲(huo)得足(zu)夠高的(de)市場(chang)反響,還需要等時(shi)間來證明。

就目前AI芯片(pian)市(shi)場(chang)格局,Groq要(yao)(yao)想突(tu)圍AI推理市(shi)場(chang)還面臨很多(duo)阻(zu)礙(ai)。且不(bu)論NVIDIA、英(ying)特爾依然是阻(zu)擋在眾多(duo)創企(qi)面前的兩座大山,要(yao)(yao)想和巨頭(tou)硬碰(peng)硬,不(bu)僅要(yao)(yao)有源源不(bu)斷的資金支(zhi)持(chi),還要(yao)(yao)構建能支(zhi)持(chi)各種(zhong)主(zhu)流通用機器學習框架的軟件工具,這對(dui)大多(duo)數AI芯片(pian)創企(qi)來說(shuo),都是亟(ji)待解(jie)決的難題。

原文來自(zi):ElectronicDesign,EE Times,Groq