芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西8月6日報道(dao),昨晚,“英偉達勁(jing)敵(di)”之一Groq甩出(chu)了(le)兩個重磅(bang)新聞(wen):

1、獲(huo)得6.4億美元D輪(lun)融資,由貝萊德領投(tou),思科、三星旗(qi)下風投(tou)機(ji)構等跟投(tou),估值達(da)28億美元(折合(he)約200億人民幣)。

2、請(qing)來2018年圖(tu)靈獎得(de)主、“深度學(xue)(xue)習三巨(ju)頭之(zhi)一”、紐約大學(xue)(xue)教授、Meta副總(zong)裁兼首(shou)席AI科學(xue)(xue)家楊立昆(kun)(Yann LeCun),擔任技(ji)術顧(gu)問。

楊立(li)昆雖然經常接地(di)氣地(di)跟(gen)馬斯克隔空互噴(pen),但論起AI學術界的(de)地(di)位、產(chan)學雙棲的(de)實力,沒有(you)幾人(ren)能比這(zhe)位AI重要(yao)奠(dian)基人(ren)物(wu)享有(you)更高的(de)聲譽,而且是前沿世界模型的(de)“頭號代言人(ren)”。

天(tian)天(tian)喊話AI產業大佬的Groq,這回真“傍”上了一位重量級大牛。

這家由(you)谷歌TPU核心成(cheng)員搭(da)伙創(chuang)辦的創(chuang)企堪(kan)稱AI芯片界的整活兒大(da)師,剛成(cheng)立時(shi)主打神秘感,把技術和產品瞞得密不透風,吊足(zu)了業界的胃口。

后來市(shi)場不及預期,生存遇到危機,Groq痛定思痛,在抓住(zhu)生成式AI這根救(jiu)命稻草后畫(hua)風(feng)(feng)突變,打出(chu)“世界(jie)最快推理”的招牌,接(jie)連喊話“宇宙網(wang)紅”馬斯克(ke)(ke)、OpenAI CEO薩(sa)姆·阿(a)爾特(te)曼、Meta創始人兼CEO馬克(ke)(ke)·扎克(ke)(ke)伯格(ge),屢屢挑釁英偉達,跟剛成立時的低調作風(feng)(feng)判(pan)若兩司。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億

除了搏眼球功夫深,它(ta)的吸粉(fen)能力也(ye)可圈(quan)可點(dian),不(bu)少知名大佬都給(gei)它(ta)打(da)過廣告。

楊立昆說(shuo)“Groq芯片(pian)真的很(hen)有(you)市(shi)場”。扎(zha)克伯格宣布Groq將為Meta Llama 3.1大(da)語(yu)言模型提供推理芯片(pian)。原阿里副總裁、創辦AI Infra創企Lepton AI的賈(jia)揚清自稱是(shi)“Groq超(chao)級(ji)粉絲”。

這次新融資(zi)后,硅谷AI芯片三大獨角獸(shou)——Groq(估值(zhi)28億(yi)美元(yuan)(yuan))、Cerebras(估值(zhi)40億(yi)美元(yuan)(yuan))、SambaNova(估值(zhi)51億(yi)美元(yuan)(yuan))——終(zhong)于在200億(yi)人民(min)幣估值(zhi)俱樂部會師。

一、融資金額比預期翻倍,今年銷售額可能達1億美元

全球最大AI計算巨頭(tou)英偉達的市值已經一度飆升(sheng)到(dao)3萬億(yi)美元(yuan),2023年營收(shou)達609億(yi)美元(yuan)。

相比之下,Groq的體量還很小,根據《福布斯》看到的財務文件,這家創企2023年的銷售額僅為340萬美元,凈虧損達到8830萬美元

不過消息人士稱,Groq預計今年銷售額可能樂觀地達到1億美元

但走(zou)到今天這一步,對于這家AI芯片創企來說(shuo)已經(jing)是時來運轉(zhuan)、柳暗花明(ming)了(le)。

別看(kan)Groq是現在(zai)叫(jiao)板英(ying)偉達最起勁兒的AI芯片創(chuang)企之一,在(zai)ChatGPT引爆(bao)全(quan)球生(sheng)成式AI熱潮前(qian),Groq曾(ceng)經(jing)歷了一段很難熬(ao)的日子。

據聯合創始人喬納森·羅斯 (Jonathan Ross)回憶,Groq有(you)好幾次(ci)差點“死掉”,在(zai)2019年低谷期時再有(you)一個(ge)月就沒錢了(le)。

以(yi)至(zhi)于(yu)羅斯后來都(dou)懊悔(hui)Groq創辦得有(you)點早(zao)。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億▲Groq創始人喬納森(sen)·羅斯(si)

2016年底,包括羅(luo)斯(si)在內(nei),谷歌(ge)TPU十位核心成員中的八人悄(qiao)悄(qiao)離職(zhi),合(he)伙創立Groq。

谷歌(ge)TPU,AlphaGo擊敗世界圍(wei)棋冠軍背后算(suan)力的核(he)(he)心(xin)功臣,一(yi)戰成(cheng)名,帶動起全球專用AI芯片市(shi)場的火熱。它的核(he)(he)心(xin)設計人員出走創業,受關注程(cheng)度可想而知(zhi)。但(dan)Groq創立初期(qi)一(yi)路神隱,悄悄熬過了(le)一(yi)段(duan)缺錢窘(jiong)境,直到2019年年底才偶爾發發博客文(wen)章,滿足一(yi)下(xia)業界的好奇(qi)心(xin)。

2017年(nian),Groq被報道獲得(de)1030萬(wan)(wan)美(mei)元啟動資(zi)金,這(zhe)是它(ta)第(di)一次出現在公眾視野。之后找到新投(tou)資(zi)者似(si)乎就變得(de)困(kun)難,Groq又經歷3輪融資(zi),但累(lei)計金額僅(jin)6000多萬(wan)(wan)美(mei)元。

直(zhi)到2021年4月(yue),Groq終于拿到一筆(bi)相對大的3億(yi)(yi)美(mei)元(yuan)融資(zi),總融資(zi)額超(chao)過3.6億(yi)(yi)美(mei)元(yuan),估值超(chao)過10億(yi)(yi)美(mei)元(yuan),躋身芯(xin)片獨(du)角獸俱樂部(bu)。

時隔3年,Groq如今一口氣獲得(de)6.4億美(mei)元新(xin)融(rong)(rong)資,總融(rong)(rong)資額越(yue)過10億大(da)關(guan),估值暴漲到28億美(mei)元,比(bi)上次融(rong)(rong)資后估值的兩倍還多。

羅斯(si)新(xin)發的推文一股凡爾賽味兒:我們起初打算融資(zi)3億(yi)美元來著,為了(le)能在2025年第(di)一季度(du)末(mo)部署(shu)10.8萬(wan)塊IPU投入生產,誰(shui)承(cheng)想籌到2倍的資(zi)金(jin),所以也在擴大云(yun)計(ji)算和核心工(gong)程團(tuan)隊(dui)。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億

二、跑Llama 3 70B,快過GPT-4o mini

在發布旗艦(jian)大語言模(mo)型Llama 3.1 405B時,扎克(ke)伯(bo)格發表一篇(pian)題為(wei)《開源(yuan)AI是前進(jin)的(de)道路》的(de)文章,其中提到“像Groq這樣的(de)創(chuang)新(xin)者已(yi)為(wei)所有新(xin)模(mo)型構建(jian)了低(di)延遲(chi)、低(di)成本的(de)推理服務”。

羅(luo)斯(si)稱(cheng),相比用英(ying)偉達GPU,LPU集群將(jiang)為大語言推(tui)理提(ti)供更(geng)高吞(tun)吐(tu)量(liang)、更(geng)低延遲、更(geng)低成本。

Groq自研的LPU(語言(yan)處理(li)單元)旨在克(ke)服大語言(yan)模(mo)型的計(ji)算(suan)密(mi)度和內存帶寬瓶(ping)頸(jing),計(ji)算(suan)能力超過GPU和CPU,能夠減少計(ji)算(suan)每個單詞所(suo)需時間,更(geng)快生成文本序列。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億

在ChatGPT掀起(qi)生成式AI熱潮(chao)后,經歷過(guo)瀕(bin)臨生存危機的Groq開啟(qi)暴走(zou)模式,瘋(feng)狂宣傳自家AI推理引(yin)擎(qing)LPU,號稱做到“世界最快推理”,并在社交平(ping)臺(tai)上頻繁發文和轉發合作伙伴們、網友們對其LPU的實測結果和好評。

今年(nian)2月,根據Groq及一些(xie)網友分享的技術(shu)演示視頻,在LPU上運行大語(yu)言(yan)模型Mixtral 8x7B-32k生成回(hui)答只用(yong)時(shi)11秒(miao),而(er)OpenAI ChatGPT 4需要花費長達1分鐘。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億

AI寫(xie)作創企HyperWriteAI CEO Matt Shumer稱LPU“快(kuai)如閃電”、“不到1秒寫(xie)出數百個單(dan)詞”、“大語(yu)言模型的運行時(shi)間只有幾分之一(yi)秒”。

根據Artificial Analysis今年7月公布的數據,Groq以大約340tokens/s的輸出速(su)度提供Llama 3 70B,比(bi)GPT-4o mini的兩倍還快。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億

通用全球資(zi)本參與了Groq的多輪融(rong)資(zi),其聯合(he)創始人埃米什·沙阿(a)(Aemish Shah)稱Groq產(chan)品的推理速度“明顯優于市場(chang)上任何其他產(chan)品”。

在即(ji)時AI推(tui)理速度的吸引(yin)下,大批開發者涌(yong)向(xiang)Groq。

今年3月,Groq推出了一(yi)個由LPU驅動的開(kai)發(fa)者(zhe)平臺GroqCloud。開(kai)發(fa)者(zhe)可以通過這一(yi)平臺租用LPU芯片(pian),而無需直接購買(mai)。

該平臺(tai)提(ti)供Meta Llama 3.1、OpenAI Whisper Large V3、谷(gu)歌(ge)Gemma、Mistral Mixtral等開源模型,支持在云實例中使用其芯片的API。

為了吸引(yin)開發者,Groq提供(gong)免費訪問:第一個月就有(you)7萬人注冊。現在已有(you)超(chao)過36萬名開發人員在GroqCloud上創(chuang)建AI應用,數量還在增加。

Groq最近(jin)剛(gang)剛(gang)聘(pin)請(qing)了英特(te)(te)爾前代工(gong)業務前負責人、惠普前首席信息官斯(si)圖爾特(te)(te)·潘恩(en)(Stuart Pann)擔(dan)任首席運營官。潘恩(en)對Groq的(de)增(zeng)長(chang)持樂(le)觀態度:在GroqCloud的(de)客(ke)戶訂購(gou)中,超(chao)過1/4的(de)客(ke)戶要(yao)求支付更(geng)多(duo)的(de)計算能力(li)。

Groq打(da)算用新融資擴大其TaaS(Token即服務(wu))產品的版圖(tu),并為(wei)GroqCloud添加新的模型(xing)和功(gong)能(neng)。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億

三、架構設計不走尋常路:沒HBM、沒CoWoS,比GPU效率高

Groq宣稱LPU在運行大語言模型(xing)及其他生(sheng)成式AI模型(xing)等解決方案時(shi),能效至(zhi)少(shao)是GPU的10倍(bei)。

GroqChip1芯片采用14nm制程,搭載230MB片上共享(xiang)SRAM,內(nei)存(cun)帶寬達80TB/s,FP16算力為(wei)188TFLOPS,int8算力為(wei)750TOPS。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億

與很多大模(mo)型芯片不(bu)同的(de)(de)是(shi),Groq的(de)(de)芯片沒有HBM、沒有CoWoS,因此不(bu)受HBM供應短缺的(de)(de)限制。它采用了單核心時(shi)序(xu)指(zhi)令集計算機架構,無需像(xiang)使用HBM的(de)(de)GPU那樣頻(pin)繁從內存中加載數據,能有效利用每個時(shi)鐘周期(qi),降低成本,運行大語(yu)言(yan)模(mo)型的(de)(de)速度更快。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億▲傳統GPU內存(cun)結構

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億▲Groq芯片內存(cun)結構

實(shi)時AI推理(li)是一個專(zhuan)門(men)的(de)系統(tong)問題。硬(ying)件(jian)(jian)和軟件(jian)(jian)都在速(su)度和延遲方面(mian)發(fa)揮(hui)作用。再(zai)多的(de)軟件(jian)(jian)也無法克服芯片設計和架構造成(cheng)的(de)硬(ying)件(jian)(jian)瓶頸。

Groq用(yong)軟件定(ding)義(yi)硬件方法(fa)將執行控制(zhi)和數據流控制(zhi)的(de)決(jue)策(ce)步驟從硬件轉移到(dao)了(le)編譯器。通過(guo)精確(que)(que)調度每個內(nei)存(cun)負載、操作(zuo)和數據包傳(chuan)輸,確(que)(que)保最高(gao)的(de)性能(neng)和最快(kuai)的(de)系統響應,釋放了(le)額外的(de)芯(xin)片空間(jian)和處理能(neng)力。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億▲Groq的(de)(de)簡化(hua)軟件定義硬(ying)件方法釋放(fang)了額(e)外的(de)(de)芯(xin)片空間和處理能(neng)力

編譯器會將模型劃分為較小的塊(kuai),這些塊(kuai)在(zai)空間(jian)上映(ying)射到(dao)(dao)多個(ge)LPU芯片上。就像(xiang)一條計算裝配線,每個(ge)LPU集(ji)群(qun)都設置為運行特(te)定的計算階(jie)段,并將執行該任務所需的所有數據存儲在(zai)其本(ben)地(di)片上 SRAM內(nei)存中,數據傳(chuan)輸(shu)從LPU到(dao)(dao)LPU,不(bu)需要外部HBM芯片和外部路由(you)器。

這(zhe)種(zhong)高(gao)效(xiao)(xiao)的流(liu)水(shui)線架構之所以可行,是因為LPU推(tui)理引擎(qing)具有完全(quan)確定性,系統(tong)準確地知道每個(ge)芯(xin)片(pian)上每個(ge)階段發生的情(qing)況,使流(liu)水(shui)線能夠(gou)以最高(gao)效(xiao)(xiao)率運行。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億▲LPU(右)的可編程流水線架構與GPU(左(zuo))方法更快更高(gao)效(xiao)

根據Groq的(de)(de)描(miao)述,GPU的(de)(de)工(gong)作方式(shi)是(shi)在小型芯片集(ji)群中運行(xing),每(mei)個集(ji)群執行(xing)生(sheng)成token所需(xu)的(de)(de)每(mei)個順序計算階(jie)段。在每(mei)個階(jie)段,GPU從(cong)另一個芯片上的(de)(de)HBM中檢索執行(xing)該階(jie)段所需(xu)的(de)(de)所有數據,完成任務后,數據返(fan)回到片外HBM,所有傳輸數據都需(xu)要(yao)來自外部芯片的(de)(de)指示,既低效又昂貴(gui)。

Groq編譯器(qi)將(jiang)操作直接映(ying)射到LPU,無(wu)需任(ren)何手(shou)動調(diao)優或實驗,因此LPU的設計非常簡單。基于張量(liang)流(liu)式(shi)架(jia)構,LPU不(bu)需要CUDA或內(nei)核。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億▲單個LPU架構

“我們的目標是在(zai)硬件上(shang)投入的每一(yi)美元(yuan)都(dou)能(neng)獲得全額回報,我們不(bu)想(xiang)賠錢。”羅斯(si)說。

Groq從兩年前開始銷售芯(xin)片(pian),陸續獲(huo)得客戶,已(yi)經與Meta、三星等(deng)多家(jia)公司以及沙特阿拉伯等(deng)主權(quan)國家(jia)合作生產(chan)和推出其芯(xin)片(pian)。

阿貢(gong)國家實(shi)驗室曾使用Groq的芯片研究核聚(ju)變。今年早些時候,Groq與沙特阿美數(shu)字公(gong)司(si)達成合作,計(ji)劃(hua)在中(zhong)東和(he)北(bei)非地區建立最(zui)大的AI推(tui)理(li)即(ji)服務計(ji)算基礎設(she)施之(zhi)一;并與歐洲可持續能(neng)源公(gong)司(si)Earth Wind & Power合作,將在挪威數(shu)據中(zhong)心部(bu)署數(shu)萬塊IPU。

目前Groq正在推進(jin)下一(yi)代芯片的研(yan)發生產,去年8月(yue)宣布將與晶圓代工廠格芯簽(qian)訂生產4nm IPU的合(he)同。

根據此前報道,Groq下一代芯片的能效預(yu)計(ji)相較(jiao)前一代提(ti)高15~20倍,尺(chi)寸將(jiang)變得(de)更大(da)。執行相同任務所需(xu)的芯片數量也(ye)將(jiang)大(da)幅減(jian)少。

在(zai)對Meta Llama 2 70B模型(xing)做推理基(ji)準(zhun)測(ce)試時,Groq將在(zai)9個機(ji)架中576塊芯片互(hu)連。而(er)到2025年完成這(zhe)一任務,可能只需在(zai)2個機(ji)架使用(yong)大約100塊芯片。

結語:AI芯片越來越熱鬧了

隨著(zhu)生成式AI熱潮持續,AI芯片市場前景可期,Groq面臨的競爭也(ye)日趨激烈。

根(gen)據Groq在今(jin)年(nian)4月發表的(de)博客(ke)文章,到(dao)(dao)2027年(nian),AI芯片TAM市場預計將達(da)到(dao)(dao)1194億(yi)美元,當前約40%的(de)AI芯片用(yong)于(yu)推(tui)理,應用(yong)程(cheng)序達(da)到(dao)(dao)成(cheng)熟后通常會將90-95%的(de)資源(yuan)分配(pei)給推(tui)理,這表明隨著(zhu)時間(jian)的(de)推(tui)移,推(tui)理市場會變得更大。

目前英偉達把控(kong)著70%~95%的(de)AI芯片市場。谷歌、微軟、亞馬遜、Meta等科技巨頭均(jun)在自研AI芯片。OpenAI今年籌備啟(qi)動一項AI芯片制造計(ji)劃。Arm也被傳將(jiang)成立一個(ge)AI芯片部門。

多(duo)家AI芯(xin)片(pian)(pian)企業(ye)均有(you)新動作。去(qu)年年底(di),美(mei)(mei)國AI芯(xin)片(pian)(pian)創企D-Matrix獲(huo)得1.1億(yi)美(mei)(mei)元(yuan)B輪融(rong)(rong)資;今(jin)年6月(yue)(yue),美(mei)(mei)國AI芯(xin)片(pian)(pian)創企Etched宣布(bu)完(wan)成1.2億(yi)美(mei)(mei)元(yuan)A輪融(rong)(rong)資,美(mei)(mei)國晶圓級(ji)芯(xin)片(pian)(pian)獨(du)角(jiao)獸Cerebras秘(mi)密申請IPO;7月(yue)(yue),日本軟銀集團以6億(yi)美(mei)(mei)元(yuan)收購英國AI芯(xin)片(pian)(pian)獨(du)角(jiao)獸Graphcore。

據外(wai)媒報道,一(yi)(yi)位風險投資家拒絕參與(yu)Groq的(de)(de)新融資,理由(you)是Groq的(de)(de)方法(fa)雖然新穎,但從(cong)長(chang)遠來看,其知識產權(quan)并不可靠。也有一(yi)(yi)些(xie)人質疑(yi)Groq大規(gui)模生產芯片的(de)(de)成(cheng)本效益(yi)。

要打消市場的(de)種(zhong)種(zhong)疑(yi)慮(lv),Groq仍需(xu)竭力證明自家產品在(zai)推理市場的(de)商(shang)用實力。

畢竟這么多年來(lai),“英偉達勁敵”越(yue)來(lai)越(yue)多,但市值3萬億美元的(de)英偉達始終只(zhi)有(you)一個。

來源:Groq,TechCrunch,Forbes