芯東西(公眾號:aichip001)
編輯 |? GACS 2024

2024全球AI芯片峰會(GACS 2024)于9月6日~7日在北京舉行,大會由智一科技旗下芯片行業媒體芯東西和硬科技知識分享社區智猩猩發起舉辦,在主會場邊緣/端側AI芯片專場上,智芯科創始人兼CEO顧渝驄以《具身智能的大腦芯片》為題發表了演講。

智(zhi)芯(xin)科從2019年開始研究(jiu)基于(yu)SRAM的(de)(de)存(cun)算(suan)一(yi)(yi)體芯(xin)片,已有大量專(zhuan)利積累。智(zhi)芯(xin)科創始人兼CEO顧(gu)渝驄認為,具身(shen)智(zhi)能(neng)是其中最大的(de)(de)落地場景之一(yi)(yi),具身(shen)智(zhi)能(neng)對低延時、低功耗都有嚴(yan)苛的(de)(de)要求(qiu),因此有必要配備高能(neng)效的(de)(de)存(cun)算(suan)一(yi)(yi)體AI芯(xin)片。

存算(suan)一(yi)體芯片的主(zhu)流技術(shu)路徑(jing)包括DRAM、SRAM、Flash、Emerging NVM等。其中,SRAM具有讀寫(xie)速度快(kuai)、能效比高(gao)、工藝成熟和可集成性佳的優勢,可快(kuai)速無限次讀寫(xie),很適合Transformer的自注意(yi)力機制。憑借這些優勢,SRAM已(yi)成為海內外存算(suan)一(yi)體技術(shu)研(yan)發的首選。

智(zhi)芯科基于SRAM的模數混合存內(nei)計算(suan)芯片,精度高(gao)、量產一致性(xing)高(gao),并能夠(gou)進一步(bu)降低(di)功耗。硬件之外,智(zhi)芯科還(huan)打造了通(tong)用性(xing)、易用性(xing)較強的軟件生(sheng)態。據顧(gu)渝驄(cong)透露,未來智(zhi)芯科將(jiang)推出面向(xiang)具身(shen)智(zhi)能感知到大(da)算(suan)力邊緣服務器(qi)的眾多產品,覆蓋大(da)模型、機器(qi)人和(he)自動駕駛等場景。

智芯科顧渝驄:詳解SRAM存算一體技術優勢,將研發服務器和穿戴芯片 | GACS 2024

▲智芯科創始人兼CEO 顧渝驄

以下為顧渝驄的演講實錄:

我是智芯(xin)科的創(chuang)始人(ren)。我們目前主(zhu)要的研(yan)究方向是基于SRAM的存算一體創(chuang)新技術。我們從2019年就(jiu)開始研(yan)究這個技術,目前正在為這個技術找(zhao)到各種各樣的落地場景。

我個人認為,未來具身智能(neng)一定是該技術最大(da)的落地場景(jing),類似于人(ren)(ren)的發展。人(ren)(ren)形(xing)機(ji)器人(ren)(ren)的出現,可能會改變(bian)人(ren)(ren)們(men)的生(sheng)活體驗,每個(ge)家庭以后都會有1個(ge),甚至多個(ge)人(ren)(ren)形(xing)機(ji)器人(ren)(ren)。

一、低延時且低功耗,將有效解決人形機器人的智能和傳感兩大問題

如何解決(jue)人形(xing)機器人的(de)(de)智能問(wen)題(ti),以(yi)及它的(de)(de)傳感問(wen)題(ti)呢?那么(me),我們需要提出一些新的(de)(de)芯片(pian)。

具身智能的樣式形形色色,有人形的、有類狗型的、有無人機式的。這些都可以叫具身智能。而具(ju)身智能最大的一(yi)個特點是要能給出實(shi)時(shi)反應。

我前兩天看了(le)一(yi)個視(shi)頻,機器人(ren)走上(shang)演(yan)示臺的過程中(zhong)可(ke)能(neng)要摔跤了(le),像這(zhe)種情況(kuang),機器人(ren)必(bi)須要有很快的速度才能(neng)反應過來。

傳統的芯片雖然也用到了AI,但是反應速度延遲,可能會出問題。它不能夠及時把數據傳到云端,再快速傳回來。雖然這其中的延遲只是毫秒級別的,但機器人可能已經摔倒了。因此,為了減少(shao)延遲,我們必須要解(jie)決不用5G或者6G連云端,而是讓算(suan)力直接“上身”到機(ji)(ji)器人(ren)(ren),成為機(ji)(ji)器人(ren)(ren)的“小腦(nao)”。

“小腦”問(wen)題解決之后(hou),我(wo)們就應該提(ti)高機(ji)器人的(de)續航(hang)能(neng)力(li)。如果(guo)一個機(ji)器人在家里(li)面干不(bu)了(le)幾個小時,又要休(xiu)息,又要充(chong)電,顯然(ran)不(bu)太合(he)理。

我個人認(ren)為,未(wei)來大家都會非(fei)常關(guan)注(zhu)高(gao)能效AI芯片(pian),而存算一體可能是目(mu)前看(kan)來比較現(xian)實(shi)的方法。我相信一個好的產品肯定會把各種各樣的先進技術集合在一起。我們會采(cai)用(yong)存算一(yi)體技(ji)術,也會采(cai)用(yong)Chiplet技(ji)術,來真正解決具身智能大、小腦的(de)功耗問(wen)題。

二、易讀寫、可異構、難替代,SRAM仍是存算一體技術的最優解

目前(qian),國(guo)內外大家都(dou)在關注存儲器方面的問題(ti)。

英偉達走的是相對來(lai)說傳統(tong)的GPU、NPU的路,這條(tiao)路終究會到頭。現在英偉達正在開發3nm工藝,臺(tai)積電(dian)甚至已(yi)著手研(yan)發2nm工藝。1nm工藝、小于1nm工藝的芯片,我覺(jue)得已(yi)經(jing)要突破物理理論極限了。

海內外都在推進存算一體技術的研究,主流方向是SRAM。我(wo)們要把(ba)存儲和運算有(you)機地(di)結合在(zai)一起,突破原來的(de)馮·諾伊曼架構,這樣才能解(jie)決存儲墻、功耗墻問題。

我們通常(chang)認為有(you)(you)4類存(cun)儲器,包括DRAM、SRAM、Flash等。這3類都是現在(zai)比較(jiao)成熟的存(cun)儲工藝(yi),每個都有(you)(you)各自的優缺點。

我們發現,相對(dui)來說,SRAM是比較經濟的一(yi)種實現存(cun)算一(yi)體的方(fang)式。

首(shou)先它(ta)的讀寫速度(du)很(hen)快,它(ta)也沒有(you)讀寫次數(shu)限制。目前還沒有一種新型(xing)存(cun)儲(chu)器可(ke)以代替SRAM。

SRAM還有一個最大的好處,它可以異構,這也是(shi)它(ta)和DRAM最大的不同(tong)。我可以把SRAM存算(suan)一(yi)體(ti)技(ji)術、CPU和GPU等組合成一(yi)個SoC芯片。

總的(de)來說,SRAM存(cun)算一(yi)體技(ji)術(shu)用在Transformer的(de)自注意力(Self-Attention)機制里,是非常有(you)優勢的(de)。它可(ke)以(yi)快速并(bing)且無限(xian)次(ci)(ci)(ci)地刷新,而每(mei)次(ci)(ci)(ci)的(de)計算結果,又能以(yi)非常快的(de)速度存(cun)回去,從而準備下一(yi)次(ci)(ci)(ci)的(de)計算。對于Attention機制里Q×K×V這個矩陣基本的(de)運算,想要(yao)真正實現低功(gong)耗,SRAM可(ke)以(yi)算是最好的(de)方案(an)了。

三、芯片算力最小僅1GOPS,最大有1000TOPS,可針對不同場景定制

下面我們簡單介紹一下智芯科。智芯科早在2019年就開始涉足存內計算領域,研發工作分布在深圳、杭州、合肥多地,期間也拿下不少專利,并且在SRAM模數(shu)混合的(de)存算一體具備創新優勢。我們(men)不是采用模擬存內(nei)計算,而(er)是采用數字存內(nei)計算,這(zhe)樣可以達(da)到(dao)精(jing)度無損、性能速度非(fei)常好和能效(xiao)比非(fei)常高(gao)的(de)效(xiao)果。

同時,我們SRAM存內計算還(huan)可以支持(chi)矩陣稀(xi)疏性(xing)。傳(chuan)統的NPU一(yi)般采用(yong)Zero Skip技術,通過在(zai)矩陣運(yun)(yun)算(suan)(suan)時跳過或忽略矩陣中的零元(yuan)素,來(lai)減少不必要的計算(suan)(suan)過程,從而提高整體運(yun)(yun)算(suan)(suan)效率。

但是(shi)存內計算不需(xu)要做這(zhe)些判斷,如(ru)果(guo)是(shi)0的(de)話,會自動省略(lve),甚至里面有“0”這(zhe)個(ge)比(bi)特都可(ke)以省略(lve)。我們可(ke)以實現輸入DIN稀(xi)疏和權(quan)重Weight稀(xi)疏。

最理想(xiang)的情況(kuang)下(xia),假設稀疏(shu)性利(li)用率為50%,SRAM存內計算在22nm就可以(yi)做(zuo)到23TOPS/w的能效比。如(ru)果采用(yong)7nm、5nm等更先進(jin)的工藝,其效(xiao)率隨之提高。

在(zai)擁有(you)較好(hao)的(de)(de)硬件(jian)基礎之(zhi)上(shang),開發一系列包括(kuo)編譯器在(zai)內的(de)(de)通(tong)用軟(ruan)件(jian)工(gong)具,這是非(fei)常重要的(de)(de)。因此,智芯科的(de)(de)業務除(chu)了芯片(pian)研發,也將(jiang)逐步拓(tuo)展到工(gong)具開發。

這是我們芯片的布局,基本上覆蓋從1GOPS到1000TOPS算(suan)力規模的芯片,并且支持(chi)多模態(tai)能(neng)力。其中,小算(suan)力的芯片主要用于語音(yin)(yin)識別(bie)、語音(yin)(yin)交互等(deng)場景;AT700主要解決具(ju)身智能(neng)感知問題,比如具(ju)身機(ji)器人(ren)最重(zhong)要的視覺;AT800用于構建具(ju)身智能(neng)的“大腦”;AT900則是(shi)車規級別(bie)的。

除此之外,我們將研發用于具備多模態能力(li)的邊緣服務器、大算力(li)推理服務器和各類穿(chuan)戴(dai)式(shi)設備的芯片。