芯東西(公眾號:aichip001)
作者 | 李水青
編輯 | 心緣

當下,人工智(zhi)能(neng)產(chan)業(ye)發(fa)展正在(zai)進入“大模(mo)型”階段,1700億(yi)參(can)數的(de)超大規模(mo)深度學(xue)習模(mo)型GPT-3,指引整(zheng)個人工智(zhi)能(neng)產(chan)業(ye)尋(xun)找一條新的(de)可行之路(lu),縮(suo)短我們(men)與通(tong)用智(zhi)能(neng)的(de)距離。但與此同時,海(hai)量的(de)數據和超大算力需(xu)求,讓(rang)大模(mo)型的(de)產(chan)業(ye)化(hua)落地(di)面臨巨大的(de)算力挑戰。

在摩爾定律逼近物理(li)極限的情況下,中國AI芯片創(chuang)業大軍(jun)并非無計可施(shi),而是(shi)涌現出一大批革(ge)新者,用底層技術創(chuang)新挑戰既有的行業壟(long)斷(duan)龍頭。

創立于2018年的云(yun)端(duan)AI芯片公司墨芯人工智能就是(shi)其(qi)中(zhong)一個(ge)代表。

誕生于(yu)(yu)硅谷,總部位于(yu)(yu)深(shen)圳(zhen),這家(jia)公司推(tui)出(chu)多(duo)款基于(yu)(yu)自研稀疏計(ji)算芯片的(de)AI計(ji)算卡,運行ResNet-50算力超90000fps。相較于(yu)(yu)當前(qian)國際大廠主流推(tui)理卡單(dan)(dan)卡只(zhi)能支持(chi)百億參(can)數(shu)級別的(de)模(mo)(mo)型(xing),據稱,其可以支持(chi)千億參(can)數(shu)級別的(de)模(mo)(mo)型(xing),這意味著讓擁有1700億參(can)數(shu)的(de)GPT-3大模(mo)(mo)型(xing)跑在單(dan)(dan)張計(ji)算卡上(shang)。

深扒團(tuan)隊(dui)背景,創始人兼CEO王(wang)維曾(ceng)在美國高通和英特爾擔任架構(gou)師,是(shi)英特爾5-10代CPU處理器的核心成(cheng)員,參與開發量產超50億片芯片,同時他也有(you)過硅谷芯片公司創業經(jing)歷;首席(xi)科學家嚴恩(en)勖是(shi)卡內基(ji)梅隆(long)大學擁(yong)有(you)40多篇AI頂會成(cheng)果的機器學習博士。

起點(dian)高,沖得快,是很多業內人(ren)(ren)對墨芯(xin)人(ren)(ren)工智能的(de)印(yin)象。

那么這家公司到底有什么核心(xin)競爭力?背后又(you)有什么樣的創業(ye)故事?縱觀(guan)當(dang)下(xia)的AI芯(xin)片產業(ye)化落地潮和價值(zhi)檢驗窗(chuang)口,墨芯(xin)能否持(chi)續將技術(shu)成果轉化為產業(ye)價值(zhi)?

近日(ri),墨芯創始人兼CEO王維(wei)與智東(dong)西進行了線(xian)上對話(hua),回顧了四年創業關鍵節點,并對這些問題進行深入探討。

今年8月26日(ri)下午,王維將出(chu)席(xi)在(zai)深圳舉辦(ban)的GTIC 2022全球(qiu)AI芯(xin)片峰會·云(yun)端(duan)AI芯(xin)片專題論(lun)壇,并發表(biao)主(zhu)題為《面向AI未來(lai)的稀疏化計(ji)算(suan)》的演講。

單卡跑通AI大模型!硅谷20年芯片老兵創業,對話墨芯CEO王維

一、單卡支持大模型,運行ResNet-50算力超90000fps

2022年(nian)(nian)的元(yuan)旦(dan)夜,王(wang)維(wei)和(he)幾個(ge)核心測試人員(yuan)在實驗室,剛剛拿到(dao)首顆芯片Antoum的回片。4年(nian)(nian)努力和(he)艱辛到(dao)了驗證時刻,王(wang)維(wei)和(he)同事們立刻將所有(you)軟(ruan)件跑上去,上電(dian)的那(nei)一剎(cha)那(nei),整個(ge)芯片驅動程序就剎(cha)那(nei)間跑通了。

他(ta)們當(dang)晚(wan)連(lian)夜(ye)把ResNet-50跑通,發現性能都順利達到(dao)(dao)了當(dang)初設計(ji)的目(mu)標。“這款全球首(shou)款高達32倍稀疏率的AI計(ji)算芯(xin)片,在算力(li)、功耗、能效比——云端芯(xin)片的三(san)大核心技術點上,Antoum都做(zuo)到(dao)(dao)了突破(po)性創新。”王維對(dui)智東(dong)西說。

這是王維創業四年里(li)最興奮(fen)和(he)有成就感的時刻。

所(suo)謂稀疏化計(ji)(ji)算,是一種(zhong)以(yi)人腦得到靈感的模型(xing)壓縮方(fang)法。簡單來(lai)說,就是通過底層創新、軟硬協同設計(ji)(ji),讓(rang)神經網(wang)絡模型(xing)消減冗余(yu),以(yi)提高計(ji)(ji)算效率。

僅(jin)僅(jin)在(zai)流(liu)片(pian)(pian)成功4個(ge)月(yue)后(hou),今年(nian)4月(yue),墨芯就推出首款基于(yu)Antoum芯片(pian)(pian)的S4計(ji)算卡。在(zai)第三方(fang)浪潮服(fu)務器上,S4運行多(duo)個(ge)主(zhu)流(liu)AI模(mo)型,實測性能是國際大廠主(zhu)流(liu)AI推理(li)卡T4的6倍。

單卡跑通AI大模型!硅谷20年芯片老兵創業,對話墨芯CEO王維

▲基于Antoum芯片的S4計(ji)算卡

近(jin)年來新興(xing)的NLP模(mo)(mo)型——T5,曾被稱為“全新NLP SOTA預(yu)訓練(lian)模(mo)(mo)型”,以其高參(can)(can)數量,讓(rang)許多(duo)計(ji)算卡“望(wang)而卻步”。S4在(zai)單機單卡環境下(xia)就(jiu)能運(yun)行T5-8B模(mo)(mo)型,算力穩定在(zai)190sps左右(you)。S4運(yun)行T5時內(nei)存占比(bi)只有約(yue)7.8%,讓(rang)人對它能夠(gou)支持的模(mo)(mo)型參(can)(can)數具有很(hen)大想(xiang)象空間。

單卡跑通AI大模型!硅谷20年芯片老兵創業,對話墨芯CEO王維

相較于當前國際大(da)廠主流推(tui)理卡單(dan)卡只能(neng)支持百(bai)億參(can)數級別(bie)(bie)的(de)(de)模型(xing),S4計(ji)算卡可以支持千億參(can)數級別(bie)(bie)的(de)(de)模型(xing)。而隨著S4性能(neng)得到驗證,更大(da)尺寸(cun)的(de)(de)S30也迅速(su)推(tui)出,適用于能(neng)效比(bi)、功耗更高的(de)(de)場景。

單卡跑通AI大模型!硅谷20年芯片老兵創業,對話墨芯CEO王維

▲基于Antoum芯片的(de)S30計(ji)算卡

王維向我(wo)們舉了一(yi)個例子,GPT-3模型是擁有1700多億參(can)數的大模型代表,如果放在(zai)GPU上(shang)去做推理(li)的話,需(xu)要(yao)(yao)內存量(liang)是要(yao)(yao)幾百G,也就是需(xu)要(yao)(yao)很多張80G的GPU,且會有明顯時(shi)延;但通過稀(xi)疏化路徑,用一(yi)張墨芯S30計算(suan)卡,就可以(yi)跑通GPT-3,并且計算(suan)速度還變快了很多。

墨芯正通過(guo)打造(zao)這(zhe)一套芯片和(he)軟硬件產品,去(qu)推(tui)動(dong)深度學習更高算力、更大規(gui)模、更低計算成(cheng)本的方向(xiang)去(qu)發展。

就在近日,第三方實測數據顯示,墨芯S4計算卡運行ResNet-50,算力達33197fps,S30計算卡運行ResNet-50算力超90000fps。

墨芯已成為非盈利性機器學習開放組織MLCommons會員,后者由谷歌、英偉達、英特爾、Facebook、浪潮等全球AI領軍企業創建,是業內權威基準測試MLPerf的監管者,9月將公布其首批稀疏化計算卡S4和S30的性能測試結果,有望代表國產AI芯片達成一個新里程碑。

二、主攻稀疏化計算,在云端AI芯片賽道獨辟蹊徑

縱觀全(quan)球(qiu)云端AI芯片創業大軍,如同(tong)過(guo)獨木橋般(ban)競爭(zheng)激烈(lie)。

一個(ge)創業(ye)公(gong)司想要(yao)從行業(ye)壟斷龍頭(tou)口中搶占(zhan)市(shi)場蛋糕,想在各顯神通的AI芯片創企中殺出(chu)一條血(xue)路,就(jiu)一定要(yao)有來自(zi)底層技術(shu)的顛覆性創新,而不能是(shi)微量(liang)的差異化(hua)(hua)和創新點。王維認為(wei),這個(ge)技術(shu)差異化(hua)(hua)或者性能提升至少需要(yao)10倍。

稀疏化計算技術(shu)在王維(wei)看來是一條能實(shi)現10倍顛(dian)覆性創新(xin)的路徑。

“(稀疏化計算)技術差異化達到了一個數量級,當時我們就可以在算法層面上做到接近20倍的稀疏率,模型精度不改變,這是一個足夠顛覆性的技術特點。”王維說,“同時,稀疏計算無需再造一個生態,它和現在所有的AI訓練、推理生態兼容,因此市場化落地可以確定。”

事實也正(zheng)如王(wang)維(wei)所料,市場幾乎不需要他去(qu)重新教育(yu)。其接(jie)觸了(le)很(hen)多行業的頭部客戶,本身有較強的AI算(suan)法和人(ren)才,所以都十分認可稀疏化計算(suan)在(zai)深度學習推理、訓練的潛力和發(fa)展空間(jian)。

令客戶好奇的是,墨芯把稀疏化做到什么程度了?產品的完整性如何?是不是到可用甚至易用、通用的程度了啊?這個里面的技術差異性有沒有足夠大,讓我足夠有興趣,去選擇國際大廠之外的第二供應商?這些是更加重要的問題。

而這,實際(ji)上也(ye)是當下云端(duan)AI芯片產業發展至今,走向規模化落地的最大挑戰之(zhi)一(yi)。

在墨芯創業(ye)之時,各路玩家都在求索突破摩爾(er)定律極限的(de)新(xin)路。業(ye)內(nei)已經有一些顯性路徑,比如通過存(cun)算一體設計,在底層硬(ying)件(jian)層面做(zuo)優化。而從(cong)(cong)稀疏化算法,是(shi)從(cong)(cong)上(shang)層AI算法切入(ru)做(zuo)芯片(pian)優化的(de)另一路徑。無論是(shi)那條技(ji)術路徑,除(chu)了(le)要向客戶(hu)證(zheng)明其(qi)產品差(cha)異化,還要證(zheng)明其(qi)技(ji)術完整度及(ji)TCO(總擁有成本(ben))。

而在眾多(duo)技術路(lu)徑中,稀疏化計(ji)算在當時可謂(wei)人跡罕至。包(bao)括英(ying)偉達、英(ying)特爾等大芯片廠都還未有推出相(xiang)關產品,而是在這兩年才有相(xiang)關進展。

這也決定了墨芯在研(yan)發與(yu)落地過(guo)程(cheng)中幾乎(hu)沒有(you)同類玩家(jia)可以參考(kao),挑戰重重。

三、硅谷20年芯片老兵+算法大牛創業,打造算法定義計算平臺

如何在毫無參考的情況下實現底層(ceng)創新突(tu)破?

“很顯(xian)然,你(ni)需要有(you)頂(ding)級的(de)算法科學家(jia),對于稀(xi)疏(shu)化計算這(zhe)一套(tao)理論有(you)很強的(de)突破性(xing)和創新(xin)性(xing),因為(wei)這(zhe)個(ge)地(di)方是最核心的(de)創新(xin)源、創新(xin)點。”

王(wang)維(wei)告訴我們,令(ling)他有(you)底氣的是,墨芯從(cong)早期團(tuan)隊(dui)設置就兼(jian)顧了算法、架構、芯片設計的頂(ding)尖人(ren)才。

2018年冬天,王維從美國硅谷飛往卡內基梅隆大學,與正在讀博士的校友嚴恩勖聊了兩天兩晚,當即拍板基于(yu)稀(xi)疏(shu)算(suan)(suan)法做AI芯片創業(ye)。嚴恩勖是神經網絡動態稀(xi)疏(shu)算(suan)(suan)法發(fa)明者,曾在Google和Microsoft Research擔(dan)任研究員,在國際頂(ding)級人工智(zhi)能期刊論文發(fa)表40余篇(pian)。

彼時(shi),1700億參數(shu)的GPT-3大模型還沒(mei)有誕生,但關于通(tong)用人工智能發展的潮水已在業內暗流(liu)涌動。大模型意味著巨量數(shu)據和算力需(xu)求(qiu)。時(shi)任英(ying)特爾芯片架構師的王維看到(dao)了其中的創業機會。

就在與嚴恩勖會面的幾個月前后,王維找來了硅谷20多年的好友。這兩位好友分別是有20年以上SoC芯片設計和團隊管理經驗的蘆勇,他曾任SK Hynix芯片設計總監和Marvell資深芯片設計經理;以及,擁有18年DSP、CPU處理器以及硬件加速器學術及產業經驗的肖志斌,他曾是阿里達摩院(yuan)的核心架(jia)構師和研究員。

在半(ban)導(dao)體圈(quan)摸(mo)爬滾(gun)打20多年,王維、蘆勇和肖志斌深知半(ban)導(dao)體是一個成熟(shu)行業。

在(zai)這(zhe)一行(xing)業(ye),如果要尋求機會(hui)的話,一定需要一個爆發點的應用產生(sheng)。就如同過去20年,PC、移動互聯網手機的興起,為半(ban)導體行(xing)業(ye)帶來(lai)(lai)的巨大(da)(da)空間一樣。現(xian)在(zai),人工智能正在(zai)帶來(lai)(lai)新(xin)的大(da)(da)趨勢、大(da)(da)機會(hui)、大(da)(da)市場。

2018年8月,墨芯人工智能(Moffett AI)正式在硅谷創立。

墨芯(xin)取自其英文名Moffett的諧音,這是其創(chuang)業(ye)起源卡內(nei)基梅(mei)隆大學(xue)硅(gui)谷(gu)校區的地名;同時,墨芯(xin)也(ye)有“墨子(zi)芯(xin)片”之意,致敬(jing)中國古代偉大的科學(xue)家墨子(zi)。

經過全面系統化分析推演之后,王維和幾位創始人已經一步步明確執行了其設立的目標——打造一個優秀的算法定義計算平臺,支持前沿的稀疏化計算框架。

四、兩年悶聲研發,一次流片成功,首顆芯片即量產

看好(hao)國內(nei)的創業大環境和市場,墨芯人工智能于(yu)2019年(nian)5月在(zai)深圳建立總部(bu)。

而此時(shi),墨(mo)(mo)芯(xin)也正(zheng)式完成研發首(shou)顆芯(xin)片(pian)的(de)前(qian)期籌備。盡管(guan)團(tuan)隊都是經(jing)驗豐富的(de)芯(xin)片(pian)老兵,但由于稀(xi)疏化計算在國內外都沒有先例(li)參(can)考,墨(mo)(mo)芯(xin)的(de)芯(xin)片(pian)真正(zheng)完成研發轉去(qu)流(liu)片(pian),已經(jing)是兩年(nian)后(hou)2021年(nian)5月。在這兩年(nian)里,墨(mo)(mo)芯(xin)除了(le)拿下了(le)來自基(ji)石、真格基(ji)金、深圳天使母基(ji)金、凱旋創投(tou)、將門創投(tou)領(ling)投(tou)、浪潮和智慧互(hu)聯產業基(ji)金等戰略投(tou)資的(de)三輪合計數億元的(de)融資,大多(duo)數時(shi)候沒有更(geng)多(duo)消息流(liu)出(chu)。

AI和大數據帶來的(de)時代(dai)的(de)變量,已經改(gai)變了半導體設(she)計思路,悶聲做研發的(de)墨芯是這一(yi)進程的(de)親歷(li)者。

墨芯選擇“算法創新,定義芯片架構”的策略,這與傳統芯片公司只攻底層的設計思路不同。簡單來(lai)說,這一方法是通過理(li)解(jie)創新(xin)算法的(de)突(tu)破(po),用這些新(xin)算法的(de)突(tu)破(po)來(lai)定(ding)義(yi)(yi)軟件(jian)架構,再往(wang)下定(ding)義(yi)(yi)硬件(jian)架構。

當(dang)下,市面上已有同(tong)行也在打(da)造算(suan)(suan)法(fa)定義硬件(jian)或算(suan)(suan)法(fa)芯(xin)片化產品(pin),但與基于特定場景做算(suan)(suan)法(fa)芯(xin)片化的做法(fa)不(bu)同(tong),墨芯(xin)更注重(zhong)應對通(tong)用(yong)(yong)性、易用(yong)(yong)性的基礎算(suan)(suan)力需(xu)求。聚焦數據中心AI算(suan)(suan)力需(xu)求的通(tong)用(yong)(yong)性,其在大(da)數據里提取核(he)心特征,為應用(yong)(yong)場景做決策(ce)和判(pan)斷。

“我們(men)是(shi)一(yi)(yi)次流片(pian)成(cheng)功,第一(yi)(yi)顆芯片(pian)就是(shi)量產芯片(pian)。”王(wang)維告訴智東西,“這件(jian)事情的(de)(de)考驗,完(wan)全在于(yu)芯片(pian)團(tuan)隊(dui),它是(shi)否有足夠(gou)的(de)(de)經驗和能力(li),能夠(gou)承擔得起一(yi)(yi)個這么大一(yi)(yi)塊芯片(pian),一(yi)(yi)次流片(pian)成(cheng)功。我相信我的(de)(de)團(tuan)隊(dui)很好(hao)的(de)(de)、非(fei)常出(chu)色(se)的(de)(de)完(wan)成(cheng)了這個任務。”

五、流片半年已有多家客戶,構建生態發力三大市場

2022年被認為是中國AI芯片(pian)產業化落(luo)地元年。四年磨一劍,墨芯也正(zheng)開啟稀疏(shu)化創新技術路徑的產業化推廣。

今年7月(yue),王維已經談下了幾家(jia)客戶。流片成功僅(jin)半年,在互聯網市場(chang),墨芯已在一些頭(tou)部(bu)互聯網公(gong)司進入適配階段(duan);在行業市場(chang),墨芯也與生命(ming)科學領域部(bu)企業項(xiang)目落地。

在未來一個階段中(zhong),墨芯將(jiang)圍繞互聯網、泛政府行業及垂直行業三大方(fang)向進行市場推廣。在定(ding)價(jia)上,墨芯不(bu)會(hui)采取(qu)低價(jia)策略,而(er)是將(jiang)整個算力服(fu)務器的(de)TCO(總擁(yong)有(you)成(cheng)本)達(da)到現有(you)主流(liu)產品的(de)1/2,甚至1/3。

在(zai)王維看來(lai)(lai),稀(xi)(xi)疏化計(ji)算(suan)是一個通(tong)用(yong)的(de)、正前沿的(de)發展方(fang)向(xiang),它在(zai)技術層面上沒有什(shen)么局(ju)限性(xing)。現在(zai)最大的(de)挑戰是關(guan)于(yu)稀(xi)(xi)疏化的(de)計(ji)算(suan)生態。只有生態完備(bei),這些產品能夠(gou)更快速的(de)讓(rang)各個行業的(de)用(yong)戶快速使(shi)用(yong)起來(lai)(lai)、熟悉起來(lai)(lai)。

因此,墨芯面對的下一步(bu)更大(da)的挑戰是如何(he)未來去(qu)建立一個生態同盟的合作關(guan)系。

在(zai)算(suan)法(fa)生態方(fang)面,由于墨芯是(shi)從算(suan)法(fa)創新,與當下主流(liu)算(suan)法(fa)框(kuang)架高度兼容,已通過眾多SDK布(bu)局(ju)TensorFlow、PyTorch等主流(liu)框(kuang)架接(jie)口,讓客(ke)戶(hu)在(zai)使用時(shi)好像“仍然是(shi)在(zai)用原來的平臺一樣”。

在硬件生(sheng)態上(shang)(shang),墨(mo)芯也與市面上(shang)(shang)主(zhu)流服務器廠(chang)商(shang)展開(kai)合作,比如(ru)而(er)在一(yi)個月(yue)前,墨(mo)芯剛剛與浪潮(chao)信息簽訂元腦戰(zhan)略合作協議,通過加入計算生(sheng)態進行市場(chang)推(tui)廣。而(er)后,墨(mo)芯也將與其他服務器提供商(shang)以及運營商(shang)開(kai)放生(sheng)態合作。

結語:AI芯片產業化驗證期,考驗創企多兵種作戰力

當下,隨(sui)著摩爾定律逼近物理極限,中(zhong)(zhong)國AI芯(xin)片創(chuang)業(ye)也進入產業(ye)化驗證期。AI芯(xin)片創(chuang)業(ye)大軍中(zhong)(zhong)涌現出不同技術(shu)流派(pai)的玩家(jia),他們(men)中(zhong)(zhong)既(ji)有(you)幾十年(nian)經驗的芯(xin)片老兵,又有(you)學術(shu)成果豐碩(shuo)的AI算法后浪。這展現出中(zhong)(zhong)國產業(ye)發展至今的人(ren)才蓄(xu)水池(chi)的汩汩活(huo)力,是中(zhong)(zhong)國攻克(ke)芯(xin)片卡脖子(zi)難關的動力之源(yuan)。

墨芯(xin)人工智能是這批創業大軍(jun)中的(de)(de)一(yi)支多兵種作(zuo)戰隊伍(wu),硅谷20年芯(xin)片老兵與AI算(suan)法(fa)科學家(jia)共同構(gou)建的(de)(de)團隊基因,讓這支隊伍(wu)在技術路(lu)線選(xuan)擇上也獨辟蹊徑。稀疏(shu)化計算(suan)路(lu)徑,作(zuo)為AI算(suan)法(fa)領域認(ren)可的(de)(de)一(yi)大發展趨勢,率(lv)先被這家(jia)芯(xin)片創企(qi)實現產品(pin)驗證。下一(yi)步,生(sheng)態能否快(kuai)速(su)(su)建立,產品(pin)能否快(kuai)速(su)(su)推廣落(luo)地,是其面臨的(de)(de)新課題。