芯東西(公眾號:aichip001)
編輯 | ?GTIC

芯(xin)東西(xi)9月(yue)14日(ri)報道,在剛(gang)剛(gang)落幕的GTIC 2022全球AI芯(xin)片峰會期間,知存科技(ji)創始人兼CEO王紹迪進行了(le)以《WTM存內計算芯(xin)片應用及發展(zhan)》為題的演講。

王(wang)紹迪(di)說,與傳統馮·諾依曼(man)架構相(xiang)比,存算(suan)(suan)一體(ti)(ti)具備明顯的能(neng)效、成本優勢。但(dan)未來要滿(man)足(zu)更多(duo)場景(jing)需求,存算(suan)(suan)一體(ti)(ti)在(zai)通用性(xing)、工具鏈、精度上(shang)的優勢還(huan)有待補(bu)齊。他(ta)預測未來3-5年(nian)內,存算(suan)(suan)一體(ti)(ti)可能(neng)實(shi)現每年(nian)超過8倍的算(suan)(suan)力(li)提(ti)升(sheng)。

知(zhi)存(cun)科(ke)技的存(cun)算(suan)(suan)一(yi)體芯(xin)片已(yi)進入多個可穿戴(dai)設備(bei)產品(pin),年銷量預(yu)計達百萬。此外,王紹迪首(shou)次(ci)公開知(zhi)存(cun)科(ke)技未來五年的產品(pin)路(lu)線圖,預(yu)計明年發(fa)布(bu)(bu)覆蓋2D與3D視頻處(chu)理場景的更(geng)高算(suan)(suan)力WTM8系(xi)列(lie),在2025年前發(fa)布(bu)(bu)邊緣計算(suan)(suan)產品(pin)WTM-C系(xi)列(lie)。

以下為王紹迪的演講實錄:

這應該是我第三次參加AI芯片峰會。這一次非常高興的是存算一體AI芯片有了(le)專門的論壇。

我是知存科技的創始人兼CEO王紹迪,我們公司專注于存內計算芯片的研發、生產和銷售。今天的介紹會有4個部分:第一部分關于知存科技以及存內計算芯片的簡介;第二部分講一講存內計算的優勢;第三部分介紹存算一體WTM2101芯片以及它目前的應用場景(jing)和(he)優勢;第四部分介紹知(zhi)存科(ke)技(ji)的產品還(huan)有未來(lai)規劃。

一、技術原理基于歐姆定律,矩陣乘法效率倍增,發展潛力巨大

知存科技(ji)2017年(nian)成立,到現在(zai)快接近5年(nian)時間(jian)。

成立之前,我們首席科學家郭昕婕從2012年開始做存內計算芯片的研發,2016年已經完成國際上首個Flash存算一體芯片的驗證,算是一個從01存(cun)算一(yi)(yi)體芯片的驗證,這(zhe)也(ye)是第(di)一(yi)(yi)個可以做多(duo)層深(shen)度學習網(wang)絡的存(cun)算一(yi)(yi)體芯片。

有了這樣的成果,在2017年,我跟郭昕婕創立了知存科技,專注于存算一體芯片的研發。我們成功量產了一款名為WTM2101的存算一體芯片。

WTM2101芯片目(mu)前已經量產商用,用在多(duo)個產品(pin)中,后(hou)面我再(zai)作介紹。

知存科技王紹迪:5年產品路線圖首公開,存算一體要擁抱Chiplet生態

存算一體和傳統計算的區別是使用存儲器單元做計算。主要用存算一體技術去解決矩陣乘法的計算,人工智能99%都是(shi)矩陣(zhen)乘法,存算一體(ti)非常適合(he)人工(gong)智能(neng)或者(zhe)深度學習的(de)計算,可以把存算一體(ti)應用到人工(gong)智能(neng)芯(xin)片中。

存算一體最基本的技術原理,如果做模擬的存算一體,是利用歐姆定律的乘法。我們知道歐姆定律是電壓×電導=電流,這是物理(li)(li)上的計算(suan)原理(li)(li)。如果我們能(neng)夠利用存儲(chu)器實現物理(li)(li)的計算(suan)原理(li)(li),一個存儲(chu)陣列就(jiu)可(ke)以實現百萬級甚至千萬級并行的計算(suan),計算(suan)并行度要高出(chu)很(hen)多。

常用的向量矩陣乘法在深度學習計算中,如果轉化到存算一體中,只需要1次存儲器的讀取操作,就可以完成百萬級參數的乘法和加法計算。如果用傳統的GPU架構,百萬級的乘法加法計算,光是存儲器的讀取次數就要超過5萬次。這是1次存儲器的操作和5萬次存儲器操作的區別。

在存儲器操(cao)作有(you)巨大區別的(de)(de)情況下,存算(suan)一(yi)體(ti)(ti)計算(suan)的(de)(de)能效(xiao)、速(su)度、算(suan)力、成本(ben)就有(you)很大的(de)(de)優勢。基于這樣(yang)的(de)(de)優勢,知存科技(ji)專注開發存算(suan)一(yi)體(ti)(ti)芯(xin)片。

存算(suan)一(yi)體(ti)芯片目(mu)前已經實現(xian)商用,而且未來還有很多的迭代(dai)優化空間,包括存算(suan)一(yi)體(ti)計算(suan)的速(su)度加(jia)快、計算(suan)的精(jing)度提高、面積持續(xu)減少(shao)、規模持續(xu)加(jia)大。

我認為未來幾年都是存算一體飛速發展的黃金時代,這就像以前90年代摩爾定律一樣,每年都有幾倍的算力提升。我認為存算一體在未來3-5年內可能提升速度更快,每年可能都超過8倍的算力提升。

二、減少數據搬運代價,成本、能效優勢明顯

存算一體的(de)優(you)勢(shi)目前(qian)主要(yao)是在成本、算力(li)、功耗上,它(ta)在通用性、工具(ju)鏈和(he)精度上的(de)不足還(huan)需補齊。

為什么存算一體它從(cong)成本、算力、功(gong)耗上(shang)會(hui)有這樣的優勢?

我們可以看CPUGPU和存算一體的計算架構,CPU的計算架構相當于計算單元有很多,有多級的緩存。GPU也是類似(si),但(dan)它(ta)計算的(de)單元數量會(hui)更多,計算的(de)并行度會(hui)更多。

知存科技王紹迪:5年產品路線圖首公開,存算一體要擁抱Chiplet生態

存(cun)(cun)算一體跟(gen)前面的(de)架(jia)構(gou)相當不同,存(cun)(cun)算一體相當于沒有統一的(de)緩存(cun)(cun)存(cun)(cun)儲,可以理解成計算和存(cun)(cun)儲是一體化且(qie)是分布式。

如果從架構方面來看比較復雜,我們可以拿核酸檢測舉例,可以想象CPU1個人給1棟樓的居民一點點地做核酸檢測,GPU相當于1000個人給1000個居民樓做核酸檢測,但馮·諾依曼架構就是檢測人必須呆在一個大的園區中,1000個人都在一個廣場上,1000個(ge)樓的(de)居民去(qu)做檢測。

未來計算的數據量會越來越大,現在可能是GBTB級,未來可能是PB級,計算并行度也從現在的百萬級,到千萬級、億級。相當于我們現在要做核酸檢測,可能從原先一個小區的人變成我們需要把一個城市的人,1萬倍核(he)酸(suan)檢測的(de)工作人(ren)員聚(ju)集一(yi)起,整(zheng)個(ge)城市的(de)人(ren)過去(qu)做核(he)酸(suan)檢測,這(zhe)樣可想而知大家都會堵在路(lu)上。

這就變成數據搬運的代價是非常大的,因為人從家里到核酸檢測的園區,可能需要走一天的時間去做核酸檢測再回來,這就跟現在馮·諾依曼的計算瓶頸是一樣的,數據搬運占用了可能95%以上的功耗,占用了80%以上的時間。

隨著算(suan)力越來(lai)越大,它的問題(ti)會越來(lai)越嚴重,存算(suan)一(yi)體是一(yi)種可以緩解這種問題(ti)的技術,我們(men)不(bu)再需(xu)要有(you)統一(yi)的人(ren)一(yi)點點做(zuo)核酸檢測(ce),它的效率就有(you)很(hen)大的提升(sheng)。

所以這里面,我(wo)們也在分析端側、邊側和(he)云(yun)側存算一體到底應(ying)用優(you)勢在什么。

知存科技王紹迪:5年產品路線圖首公開,存算一體要擁抱Chiplet生態

左邊總結(jie)了一(yi)個對(dui)端(duan)側(ce)、邊側(ce)、云側(ce)的計(ji)算(suan)需求(qiu)的優(you)勢。端(duan)側(ce)最重(zhong)要(yao)的是成本;邊側(ce)相(xiang)當來說能效(xiao)比較重(zhong)要(yao),因為端(duan)側(ce)很多場景(jing)下受(shou)散熱限(xian)(xian)制或者體積(ji)限(xian)(xian)制,但它(ta)對(dui)成本、精度(du)、工具鏈、算(suan)力(li)都有一(yi)定的要(yao)求(qiu);云側(ce)相(xiang)對(dui)來說能效(xiao)也一(yi)樣重(zhong)要(yao),但成本相(xiang)對(dui)不(bu)是那么重(zhong)要(yao),它(ta)對(dui)算(suan)力(li)、通信、工具鏈、精度(du)都有不(bu)同(tong)方面的需求(qiu)。

存(cun)算(suan)一(yi)(yi)體在(zai)(zai)(zai)算(suan)力、成本、能(neng)效(xiao)都有一(yi)(yi)定的(de)優勢,但在(zai)(zai)(zai)不同的(de)應用場景下它(ta)的(de)優勢也是有所側重(zhong),隨著算(suan)力在(zai)(zai)(zai)增大的(de)情(qing)況下能(neng)效(xiao)會逐漸(jian)提高。

這點可以很容易理解,不僅存算一體,像現在的NPU還有AI芯片,都是算力越大的時候,能效在往前提升。但傳統的NPU還有AI芯片,它有一定的(de)瓶頸(jing),達到一定算力的(de)程度下,再往上的(de)能效就很難(nan)提(ti)升了,這(zhe)主要受到存儲墻的(de)限制。

但(dan)存(cun)算(suan)(suan)(suan)一體的能(neng)(neng)效隨(sui)著算(suan)(suan)(suan)力在增(zeng)大(da),它能(neng)(neng)夠提升的空間是更大(da)的。另外是成(cheng)(cheng)本,算(suan)(suan)(suan)力更大(da),存(cun)算(suan)(suan)(suan)一體成(cheng)(cheng)本下降也是快的,因為算(suan)(suan)(suan)力越大(da)的時候,存(cun)算(suan)(suan)(suan)一體的計算(suan)(suan)(suan)單元它的存(cun)儲器所占的面積、所占的成(cheng)(cheng)本以及可拓展性(xing)的優勢(shi)就(jiu)發揮出來了。

算力很小(xiao)的(de)(de)情況下(xia),存儲器(qi)(qi)只占芯(xin)片中非常小(xiao)的(de)(de)一部分(fen),算力很大(da)的(de)(de)時候甚至可以(yi)用專用的(de)(de)工藝去把(ba)存儲器(qi)(qi)的(de)(de)密度提(ti)高(gao),把(ba)存儲器(qi)(qi)的(de)(de)工藝做(zuo)的(de)(de)成(cheng)本更低,它的(de)(de)集成(cheng)度也(ye)做(zuo)得更高(gao)。

我們認為像存算一體,預計它的每Tops的成本可以做到普通AI芯片或者GPU的大概1/20,這是它一(yi)個很(hen)(hen)大的優(you)(you)勢。另外存(cun)儲器(qi)使(shi)用工藝(yi)的成(cheng)本(ben)也比大算力下先進工藝(yi)要(yao)低很(hen)(hen)多,所以存(cun)算一(yi)體的大算力成(cheng)本(ben)也有很(hen)(hen)大的優(you)(you)勢。

三、量產不到半年,落地多款可穿戴設備

我們公司去年發布、今年量產了一個WTM2101芯片。這個芯片的特點,常規使用下功耗是在5uA-3mA的量級,AI算力可以達到50Gops,可以存1.8兆個算法參數,用存儲單元做深度學習計算,一般可以運行1-3個算法,因為一般算法大小在端側下大概幾百K級別,有的可能到1M的級別。

知存科技王紹迪:5年產品路線圖首公開,存算一體要擁抱Chiplet生態

WTM2101和現有(you)市場上(shang)做得很好的(de)芯片方案(an)相(xiang)比,圍繞典(dian)型應(ying)用場景(jing)在(zai)算力、功耗上(shang)都(dou)有(you)很大(da)的(de)優勢,兩(liang)個乘(cheng)起來(lai)大(da)概有(you)個幾(ji)十(shi)倍的(de)優勢。所以它(ta)在(zai)能效上(shang)或(huo)者在(zai)算力上(shang)、功耗上(shang)都(dou)有(you)不同幅(fu)度的(de)提升。

知存科技王紹迪:5年產品路線圖首公開,存算一體要擁抱Chiplet生態

這是WTM2101芯片的架構。它不是一個專用芯片,而是通用、可開發的,這里面有1.8M的存算一體,我們也叫它NPU,做人工智能計算。此外有個CPU,還有加速器,加速器是標準的ASIC,做一些存內計算做不了的非AI計算,它的可開發性也是比較強的。另外有個320KB RAM可以實現非AI的算法,配合148MHzCPU,在常規非AI的(de)算法都可(ke)以跑(pao)得游刃(ren)有余(yu)。

我們的接(jie)(jie)口做了很多低(di)功耗的接(jie)(jie)口設計(ji),可以連多個傳感器去(qu)實現傳感器的取(qu)出和(he)實時處理,同時也支持(chi)音頻(pin)信號(hao)的直接(jie)(jie)輸入和(he)直接(jie)(jie)處理。

這個芯片主要用在可穿戴場景中,因為可穿戴對功耗一般在幾毫安的限制,像WTM2101一般功耗是在1mA以(yi)內,所(suo)以(yi)在這(zhe)個場景下它增加的功耗很小,但提升算力很大,一般會把現有產品的人(ren)工(gong)智能算力提高幾百倍以(yi)上,包括像耳(er)機、手表,功能像語(yu)言(yan)識別(bie)、語(yu)音增強、健(jian)康監測、環境識別(bie)、遠(yuan)場喚醒、運動識別(bie)、視覺識別(bie)、事(shi)件檢測,這(zhe)是芯片的常用場景。

我(wo)簡(jian)單介紹一些(xie)目(mu)前在客戶應用中用起來(lai)比較好的功能(neng)。

第一個是AI降噪算法。用芯片可以跑比較大的模型,跑1Gops的(de)(de)算(suan)力,這個算(suan)力主(zhu)要(yao)做(zuo)的(de)(de)算(suan)法(fa)采(cai)集外界的(de)(de)聲(sheng)音,包括人聲(sheng)和(he)噪聲(sheng),基于深度學習的(de)(de)計算(suan),可(ke)以(yi)把人聲(sheng)和(he)噪聲(sheng)分離(li)開,生成(cheng)一個干凈(jing)的(de)(de)人聲(sheng)。

這純靠算法層面去做噪聲人聲分離,所以對人聲的保留比原有的傳統算法做得更好,并且計算實時性可以做得很好,延遲可以做到8ms以內。在對低(di)延時(shi)要(yao)求(qiu)非常強的場景下,這個(ge)芯片的功耗、延時(shi)、算力(li),目前沒(mei)有其他(ta)芯片可以取代。

另外在做命令詞的識別,我們可以去運行AI的算法,可以支持多個語言,并且換詞不用重新訓練算法,也可以做免換寫,最多支持300個詞的連續識別。在300個詞的連續識別下,芯片的功耗也是低于1mA,包(bao)含麥克(ke)風的(de)數據處(chu)理以及后面識別的(de)功耗。尤(you)其(qi)多國(guo)語言,要切換(huan)語言應用到不同國(guo)家的(de)場景下,這個芯片可以很容易做到,而且支持語言是(shi)不需(xu)要換(huan)算(suan)法的(de)。

另外在健康領域,它可以做到很低功耗的處理,包括跟PPGECG常(chang)規的(de)(de)傳感器(qi),可以自動地去實時處理,做(zuo)(zuo)健康(kang)數(shu)據的(de)(de)監測,包括(kuo)血(xue)壓、血(xue)糖、血(xue)氧,做(zuo)(zuo)運動的(de)(de)識別、做(zuo)(zuo)抬腕(wan)手勢的(de)(de)識別。

對比之前最低功耗的芯片,它的功耗優勢基本在6-10倍左右(you)的降(jiang)低,所(suo)以對(dui)穿(chuan)戴類(lei)產品,尤(you)其健康(kang)場景下常用產品的待機增加幅(fu)度(du)是非常大的。

這個芯(xin)片也已經有(you)(you)客戶用起來做(zuo)視(shi)覺的(de)監測,包括基本的(de)人體檢(jian)測、物體分類(lei)、存在檢(jian)測等,芯(xin)片也可以(yi)接(jie)輕量級(ji)視(shi)覺的(de)攝像頭,做(zuo)人體檢(jian)測還有(you)(you)手勢識別的(de)功能。

現在已經使用了WTM2101芯片的產品,包括耳機、模組還有手表,今年預計應該有8個產品差不(bu)多可以基(ji)于這(zhe)個芯片(pian)實現量產。

四、預告未來五年芯片規劃,將擁抱Chiplet生態

除了WTM2101芯片(pian),我們未來(lai)也有對(dui)存內(nei)計(ji)算全面的(de)規劃,也希望跟大家共同(tong)把存內(nei)計(ji)算的(de)生態推向一個新的(de)階段。

這是我們的芯片產品規劃,2021年是第一代芯片WTM10012022年是第二代芯片WTM2101。第一代、第二代芯片的算力提升有接近10倍。

知存科技王紹迪:5年產品路線圖首公開,存算一體要擁抱Chiplet生態

我們在明年會推出8系列芯片,相對第二代的新品算力,預計有800-1000倍的算力提升,算力可以達到幾十Tops左右,這(zhe)個算力已(yi)經(jing)進行過流片的驗(yan)證。

我們預計在2025年會推出下一系列C系列的芯片,預計會達到100Tops級別,在2026年會規劃更高算力的芯片,當然它的架構還有它的使用材料可能跟現有的8系列、2系列、1系列都會有很大的不(bu)同。

這是(shi)未來(lai)關于知存(cun)(cun)存(cun)(cun)內計算產品發(fa)展的(de)規劃。

除了存(cun)內(nei)計(ji)算(suan)(suan)的(de)算(suan)(suan)力,我們更關注在(zai)存(cun)內(nei)計(ji)算(suan)(suan)的(de)工具鏈、生(sheng)態的(de)建設。知存(cun)的(de)團(tuan)隊(dui)正在(zai)打造一個最適(shi)合(he)存(cun)內(nei)計(ji)算(suan)(suan)的(de)工具鏈,更好地(di)開發存(cun)內(nei)計(ji)算(suan)(suan)產品。

這里面我們總結出來有幾個非常重要的部分,做好這3點(dian),才能把存算(suan)一體真(zhen)正用好。

第一(yi),針(zhen)對存內(nei)計算(suan)芯片進行算(suan)法自(zi)動化設計。

現有的深度學習算法很多基于現在CPUDSPNPU做(zuo)了(le)很多(duo)優(you)化,這(zhe)(zhe)(zhe)種(zhong)優(you)化并不適合存(cun)內(nei)(nei)計(ji)算(suan)(suan)芯(xin)片,沒有(you)把(ba)存(cun)內(nei)(nei)計(ji)算(suan)(suan)的(de)(de)(de)優(you)勢充分發揮(hui)出來,因為存(cun)內(nei)(nei)計(ji)算(suan)(suan)適合大規模并行數據的(de)(de)(de)計(ji)算(suan)(suan),盡量減少數據的(de)(de)(de)流動(dong)。針對存(cun)內(nei)(nei)計(ji)算(suan)(suan)它的(de)(de)(de)架構(gou),芯(xin)片的(de)(de)(de)優(you)勢怎么自動(dong)化設(she)計(ji)算(suan)(suan)法(fa),這(zhe)(zhe)(zhe)是(shi)一(yi)個(ge)很重要(yao)的(de)(de)(de)任務要(yao)去完成,我們做(zuo)了(le)一(yi)些這(zhe)(zhe)(zhe)方(fang)面的(de)(de)(de)事(shi)情。

另外我們認為一個很重要的事情,就是存內計算,因為里面是包含模擬的計算,它的計算精度定義跟數字計算不一樣。就算模擬計算的精度可以達到非常高,比如一個存儲單元可以存10比特,用10比特可以理解成1024個值,用1024個值表示數據電路的1比特、2比(bi)特結果也是不一樣的。

因為數字信號的1比特、2比特它是絕對的1、絕對的0或絕對的1234。即使模擬的精度更高,但它不是絕對的量化值。比如表示1,模擬信號可能是1.001,也可能是0.999,這里面是有差別。模擬的計算精度可以更高,應該更好地被利用起來,這需要新的深度學習訓練方法。這個方法或者工具鏈開發好之后,存內計算的發展速度,它的應用速度、開發速度都會大幅度的提高,可能在客戶的開發時間會從原先的1~2個月節省到1~2周。

第二個是架構和工具鏈。我們現在的芯片是2.0架構,后面會做出Memcore3.0的架構,我們預計新的架構會使用超過5年的時間,它相對來說更通用、可拓展性更強,更穩定、高效。我們8系列、未來的C系列產品,在五年內都會去使用這個新的架構。

此外還(huan)有(you)映射的工(gong)具(ju),怎(zen)么自(zi)動(dong)化開發算法(fa)、自(zi)動(dong)化訓練(lian)算法(fa),還(huan)有(you)自(zi)動(dong)化把算法(fa)移植到芯片上。最重要的是,這個工(gong)具(ju)會兼容歷史的芯片,意(yi)味著(zhu)我們在(zai)老(lao)產品(pin)當中開發的算法(fa)可以(yi)直接(jie)在(zai)新的產品(pin)中直接(jie)應(ying)用(yong),這可以(yi)大(da)幅(fu)度節省客(ke)戶開發產品(pin)的時(shi)間(jian)。

第三,在新的技術方面我們也投入了很多,包括在工藝方面,我們持續在研究,未來會有一個更好的存儲器件,它更穩定,可以做更多比特的存內計算,在計算能效上也比現有的高出4-8倍。

這(zhe)里面在工藝(yi)上做了很多(duo)調(diao)整的(de)(de)創新,因為(wei)傳統的(de)(de)存(cun)儲器并沒有針對(dui)存(cun)內計算(suan)做任(ren)何(he)的(de)(de)優化,所以這(zhe)里面可優化的(de)(de)空(kong)間非(fei)常多(duo)。此外,更高(gao)密度的(de)(de)集(ji)成(cheng),也是未來幾年(nian)要探(tan)索的(de)(de)事(shi)情,嘗試把(ba)存(cun)內計算(suan)的(de)(de)存(cun)儲器往(wang)更高(gao)的(de)(de)三維維度做集(ji)成(cheng)。

最后值得一提的是Chiplet,存內計算也要擁抱Chiplet的生態。我們現在已經在做的事情,包括針對2.5D3D如何實現跟CPU、跟存儲器、跟GPU,在不(bu)同工藝來(lai)混合兼容,這(zhe)樣可以更(geng)好地發揮(hui)存內計算的性能。

我認為Chiplet生態,包括先進封裝(zhuang)的(de)(de)生態可以把存(cun)算一體帶到一個新的(de)(de)高度,因為它讓存(cun)儲器的(de)(de)工藝(yi)(yi)和邏輯(ji)工藝(yi)(yi)以及其他工藝(yi)(yi)更好,更容(rong)易兼容(rong)在一起,并且大幅度降低了開發的(de)(de)成本。

這(zhe)是我今天的報告。謝(xie)謝(xie)大家。

以上是王紹迪演講內容的完整整理。