芯東西(公眾號:aichip001)
編輯 |? GACS

9月14日~15日,2023全球AI芯片峰會(GACS 2023)在深圳南山圓(yuan)滿舉行。在9月15日高能效(xiao)AI芯片專場上(shang),知存科技(ji)業務拓展副(fu)總裁詹(zhan)慕航分享了主(zhu)題為《大算(suan)力需求下存內計算(suan)的(de)應(ying)用和發展趨(qu)勢》的(de)主(zhu)題演講。

詹慕航分享說(shuo),AI神經網(wang)絡的(de)核心就是矩陣(zhen)乘法/乘加運算,越(yue)典型(xing)的(de)大(da)模型(xing)越(yue)需要矩陣(zhen)運算,便(bian)越(yue)適合存(cun)內計算的(de)方式(shi)。知(zhi)存(cun)科技(ji)順應AI時代的(de)新(xin)型(xing)需求,創新(xin)使(shi)用Flash存(cun)儲器完成神經網(wang)絡的(de)儲存(cun)和運算,以解(jie)決存(cun)儲墻問題(ti)。

詹慕航(hang)列(lie)舉了WTM-2端側存內(nei)計(ji)算AI芯(xin)片,該(gai)系(xi)列(lie)芯(xin)片有著極低功耗、極低延遲的優勢特點,其已經量產商用(yong)的國際首顆(ke)存內(nei)計(ji)算芯(xin)片WTM2101,功耗僅5uA-3mA,同(tong)時(shi)兼具高算力,適用(yong)端側智能物聯網場景(jing)。接(jie)著,詹慕航(hang)預告了針(zhen)對視(shi)頻增強(qiang)場景(jing)的WTM-8系(xi)列(lie)芯(xin)片,該(gai)芯(xin)片可以將(jiang)單核算力提(ti)升80倍,效(xiao)率提(ti)升10倍。

知存科技詹慕航:AI算力提升數百倍、功耗降低數十倍!加速存內計算芯片端到邊應用丨GACS 2023

以下為詹慕航的演講實錄:

非(fei)常感謝主辦方能讓(rang)這么多(duo)AI芯片(pian)行業專家們齊聚一(yi)堂,我們很欣慰地看到(dao)身邊有(you)這么多(duo)戰友。

大(da)家(jia)都(dou)是(shi)在(zai)為自主(zhu)可(ke)控的(de)目標,無論是(shi)近存(cun)計算還是(shi)存(cun)內計算,或者(zhe)是(shi)Chiplet、3D Bounding,無論是(shi)數字、模擬,SRAM(靜態存(cun)儲(chu)器)、RRAM(阻變存(cun)儲(chu)器)或者(zhe)是(shi)Flash(快閃存(cun)儲(chu)器)。大(da)家(jia)都(dou)是(shi)在(zai)做同樣一件事情(qing),就是(shi)將(jiang)算力提升、功耗(hao)降低(di)、面(mian)積減(jian)少、延(yan)時(shi)降低(di),還有將(jiang)存(cun)儲(chu)器的(de)帶(dai)寬提高,這也都(dou)是(shi)我(wo)們在(zai)接下來可(ke)能(neng)要共(gong)同去(qu)努(nu)力的(de)方向(xiang)。

當然不得不提,我們(men)很(hen)感謝,知存科(ke)技(ji)作為(wei)存算(suan)一(yi)體領(ling)域里(li)的(de)“排頭兵”得到了(le)(le)行(xing)業和資本的(de)認可。我們(men)獲得很(hen)多(duo)榮譽,近期獲得了(le)(le)國(guo)家級專精特新“小(xiao)巨人”。我很(hen)樂意跟大家分享一(yi)下我們(men)這個“排頭兵”做了(le)(le)什(shen)么(me)、做到什(shen)么(me)程(cheng)度,做一(yi)個拋磚引玉。

知(zhi)存科技公司成立較早,于(yu)2017年成立。對于(yu)整(zheng)個存內計(ji)算領(ling)域,特(te)別是模擬Flash閃存領(ling)域,我們行動得較早。創始(shi)團隊從(cong)2013年開始(shi)就(jiu)著手(shou)研究(jiu),也有了一些(xie)成果。

在做芯(xin)(xin)片(pian)(pian)方面,我們選了(le)最艱難(nan)的(de)(de)一(yi)(yi)(yi)個模(mo)式。2018年(nian),知存(cun)科技首顆存(cun)算(suan)(suan)一(yi)(yi)(yi)體(ti)的(de)(de)芯(xin)(xin)片(pian)(pian)的(de)(de)實驗樣(yang)本流片(pian)(pian);2020年(nian),小批量生(sheng)產存(cun)算(suan)(suan)一(yi)(yi)(yi)體(ti)加速器WTM1001;2022年(nian),全球首顆基(ji)于模(mo)擬Flash存(cun)算(suan)(suan)一(yi)(yi)(yi)體(ti)的(de)(de)芯(xin)(xin)片(pian)(pian)WTM2101正式量產。截至今天(tian),知存(cun)科技的(de)(de)出貨已經到了(le)kk級別。我們今年(nian)還(huan)即將(jiang)投(tou)片(pian)(pian)和發(fa)布一(yi)(yi)(yi)款基(ji)于邊側的(de)(de)圖像視(shi)頻處理芯(xin)(xin)片(pian)(pian)WTM-8系列。

今天和大家分享的內(nei)容(rong)主要分三(san)大部(bu)分。第一,AI計算和內(nei)存(cun)墻(qiang)(qiang)的問題,包(bao)括如何從根本上(shang)解決內(nei)存(cun)墻(qiang)(qiang)/功耗墻(qiang)(qiang)等問題;第二,知存(cun)科技存(cun)內(nei)計算芯片產品及(ji)部(bu)署(shu);第三(san),存(cun)內(nei)計算的發展(zhan)趨勢(shi)。

一、架構革新打破“內存墻”,用28nm做出逼近7nm的算力

無論是(shi)在(zai)摩爾定律有(you)效的(de)(de)(de)(de)階段,還是(shi)現在(zai)逐(zhu)漸(jian)失效的(de)(de)(de)(de)階段,有(you)一點(dian)是(shi)不變的(de)(de)(de)(de),就是(shi)對算力本(ben)身(shen)的(de)(de)(de)(de)需(xu)(xu)求(qiu)。對于除了Tranformer之(zhi)外(wai)的(de)(de)(de)(de)所有(you)AI模型(xing),(算力需(xu)(xu)求(qiu))每(mei)兩(liang)年有(you)8倍的(de)(de)(de)(de)增量;對于AIGC、生成(cheng)式AI包括Tranformer模型(xing),(算力需(xu)(xu)求(qiu))有(you)275倍的(de)(de)(de)(de)增量。

算力本身不是偽命題,它(ta)只是一(yi)(yi)個(ge)硬幣的(de)一(yi)(yi)面(mian),另外(wai)一(yi)(yi)面(mian)是存(cun)儲(chu)的(de)帶(dai)寬,或(huo)者叫(jiao)吞(tun)吐(tu)數據的(de)速率。這(zhe)些年,行業在算力上的(de)發展還可以,但(dan)存(cun)儲(chu)的(de)性能(neng)指標有(you)一(yi)(yi)些滯后,有(you)一(yi)(yi)個(ge)很大(da)的(de)Gap。時常我們在抓(zhua)取數據、吞(tun)吐(tu)數據的(de)時候,消耗了大(da)量的(de)時間和功耗,整個(ge)能(neng)效比大(da)大(da)地拖延。

要解決內存墻/功耗墻的問題,需要認識到先進工藝已經不能有效地解決大算力的需求了,那么我們就從架構上進行革新。

知存科技詹慕航:AI算力提升數百倍、功耗降低數十倍!加速存內計算芯片端到邊應用丨GACS 2023

我(wo)(wo)們(men)回顧一下高中物(wu)理的(de)知識(shi),基于歐(ou)姆(mu)定律:輸(shu)出電(dian)(dian)壓=電(dian)(dian)流×電(dian)(dian)阻(zu),電(dian)(dian)阻(zu)倒數就是電(dian)(dian)導,Flash是浮柵晶體管,我(wo)(wo)們(men)通(tong)過(guo)編程可(ke)以微調電(dian)(dian)導值,亞閾值可(ke)以做(zuo)出很(hen)多。

大家在市(shi)面上買到(dao)的(de)Flash是(shi)(shi)(shi)基于NOR Flash,買到(dao)后需要從底層改(gai)寫Flash的(de)浮柵晶體管和電(dian)導(dao)。做(zuo)完之后,輸出的(de)電(dian)流,整體比如(ru)是(shi)(shi)(shi)一千行(xing)、一千列。它有兩(liang)個(ge)大的(de)優點:一是(shi)(shi)(shi)密度大,是(shi)(shi)(shi)1000×1000,這是(shi)(shi)(shi)100萬個(ge)cell;二是(shi)(shi)(shi)并行(xing)度高,因為它是(shi)(shi)(shi)模擬計算。

存內計算(suan)是(shi)放在AD(數模轉換)之前,就去做(zuo)這樣的運算(suan),它的并行度非常高(gao)。比(bi)如讀取(qu)一次(ci)用戶數據的時候,就可以在同時進行這1000行、1000列(lie)、100萬的運算(suan)。傳統(tong)GPU/CPU要(yao)去抓(zhua)取(qu)十(shi)幾萬次(ci),我們(men)只需要(yao)抓(zhua)取(qu)一次(ci)就能做(zuo)百萬級的并行運算(suan)。

整個AI神經網絡或者CNN矩陣運算、卷積運算,核心實際上就是矩陣乘法/乘加運算。越是大模型,越是矩陣運算,越適合存內計算的方式,因為存和算本身在一起,一次性并行完成。

從工藝來看,降低成本是行業共同的目標之一,知存科技的存內計算基于成熟工藝,通過架構的創新,能夠達到兩代以后先進工藝所要達到算力能耗需求。我們在去年量產的(de)WTM2101芯片(pian)是基于(yu)40nm制程,該芯片(pian)在算(suan)力(li)和能效比上相當于(yu)12nm工藝的(de)6到(dao)10倍。

知存科技詹慕航:AI算力提升數百倍、功耗降低數十倍!加速存內計算芯片端到邊應用丨GACS 2023

有人開玩笑說,這是“非馮”和“馮”的一場battle。存內計算最核心的原理是在模擬器件上,因為它是進行本計算,存儲單元本身就是計算單元,所以我們沒有獨立的計算單元,也沒有獨立的存儲單元,這樣就節省了很多數據的吞吐量、搬運的能耗。

二、基于Flash的量產存算一體芯片,逐步覆蓋從端到邊

接下(xia)來(lai)(lai)給大(da)家匯(hui)報一(yi)下(xia)知存科技(ji)(ji)目前(qian)的產品,以及知存科技(ji)(ji)將來(lai)(lai)的技(ji)(ji)術路線圖。

經歷(li)過這么多的(de)事情,一(yi)(yi)句(ju)話總(zong)結:我(wo)們(men)實(shi)現(xian)了0到(dao)1的(de)突破。輕舟(zhou)已過萬重(zhong)山,我(wo)們(men)現(xian)在(zai)已到(dao)了量(liang)產級別。要(yao)(yao)把(ba)一(yi)(yi)顆芯片從樣片做到(dao)量(liang)產,我(wo)們(men)有額外的(de)工(gong)作要(yao)(yao)去(qu)做。除了之前(qian)做很多的(de)設計(ji),我(wo)們(men)要(yao)(yao)去(qu)解決可靠(kao)性(xing)、一(yi)(yi)致性(xing)、良率等諸多問題。

知(zhi)存科技(ji)整個團隊在這幾年的(de)時間里,所(suo)有(you)該踩(cai)雷的(de)都踩(cai)過(guo)了。關鍵是知(zhi)存科技(ji)作為(wei)一個“排頭(tou)兵(bing)”,前面沒(mei)有(you)可以對標的(de)產品,沒(mei)有(you)可以去借(jie)鑒的(de)技(ji)術(shu)。

從整個規格的定義,從Flash架構到MPU核,我們存算架構的設計都是自己摸索出來。我們在前頭拿著手電筒,在無人區探索出來,包括前端的設計模擬、包括數字、前端后端封測,整個團隊付出很大努力。幸虧有驚無險,我們走過來了,并擁有了目前業界唯一可以基于Flash的存算一體架構量產芯片

知存科技詹慕航:AI算力提升數百倍、功耗降低數十倍!加速存內計算芯片端到邊應用丨GACS 2023

對(dui)于生態的(de)(de)(de)建設(she),知存(cun)科技志存(cun)高(gao)遠。我(wo)們有專事工(gong)具鏈的(de)(de)(de)團隊,不光是做一顆好(hao)的(de)(de)(de)芯(xin)片(pian),我(wo)們要(yao)推給客(ke)戶的(de)(de)(de)是一顆好(hao)用(yong)的(de)(de)(de)芯(xin)片(pian)。在算法的(de)(de)(de)移植上(shang)和客(ke)戶對(dui)于芯(xin)片(pian)的(de)(de)(de)使用(yong)上(shang),我(wo)們對(dui)于工(gong)具鏈早(zao)早(zao)地同步進行投(tou)入。

介紹一下我們的WTM2101芯片,它用于端側,算力小于1Tops,精度在INT8以下,參數量為1.8MB,當然我們的算力不停地會有迭代和演進

在(zai)WTM2101芯片上(shang),模(mo)型(xing)參數(shu)的大小已經遠(yuan)遠(yuan)超過市場(chang)的需求,其擁有(you)的50Gops算力在(zai)很多場(chang)景跑不滿,也(ye)放不滿1.8MB的模(mo)型(xing)和(he)參數(shu)。對于模(mo)擬精(jing)度的控制,我們有(you)稀疏(shu)和(he)致密(mi)的方法(fa),在(zai)WTM2101上(shang)我們可以做到(dao)8-bit。WTM-8系列芯片有(you)12-bit的精(jing)度,參數(shu)量也(ye)是(shi)從幾十MB到(dao)幾十G不等(deng),取(qu)決于客戶(hu)的應用場(chang)景和(he)客戶(hu)的模(mo)型(xing)大小。

給大家看一些實例,這是量產產品真正的實測數據。用算法復雜度間接地折算,來表現WTM2101的算力,可以看到在降噪以及命令詞的識別場景下,相較于市場現有方案,WTM2101在AI算力上有數十倍到百倍的提升;與此同時,功耗降低數十倍到微安級別。知存科技的(de)算(suan)(suan)法復(fu)雜度很大(da),1000MB左右,市場現有(you)方案(an)能存放的(de)算(suan)(suan)法復(fu)雜度卻(que)很小。

知存科技詹慕航:AI算力提升數百倍、功耗降低數十倍!加速存內計算芯片端到邊應用丨GACS 2023

WTM2101的(de)應(ying)用產品包括智(zhi)能(neng)手(shou)表等,當(dang)客戶把知存(cun)科技的(de)芯片放到手(shou)表里,發現有以下兩件事情:

1)健康算法。無論你做(zuo)PPG、ECG、心跳心率(lv),還是姿(zi)態(tai)的(de)(de)監控,比如(ru)一(yi)個(ge)(ge)抬(tai)腕(wan)的(de)(de)健康類的(de)(de)算(suan)法,在用了我們的(de)(de)芯(xin)片以后24小(xiao)時里的(de)(de)誤識別率(lv)竟然達到了0。因為要去做(zuo)AI Training,我們給它喂大(da)量數據、大(da)量時間(jian)的(de)(de)Training訓練之后,在這個(ge)(ge)芯(xin)片真正應(ying)用的(de)(de)時候,它能夠很精確地判斷(duan)出來。

2)功耗小且Always on。由于我(wo)們(men)的(de)(de)方案節(jie)省功耗,所以續航很好,如果你的(de)(de)手表以前(qian)需(xu)要4天充一(yi)次電(dian),我(wo)們(men)直接會延長續航時間2-3天。如果算力有(you)10倍的(de)(de)提(ti)(ti)升,功耗又有(you)10倍降低的(de)(de)時候,整個能效是2個數量級(ji)的(de)(de)提(ti)(ti)升,我(wo)們(men)的(de)(de)方案是非常驚(jing)艷(yan)的(de)(de)一(yi)個產(chan)品。

WTM2101覆(fu)蓋(gai)的產品目前主要有(you)語音識別和人聲(sheng)增強、健康算法(fa)等方面。

具(ju)體來說,語音(yin)的識別包(bao)括(kuo)人聲增強。WTM2101的應用場景(jing)有(you)(you)(you)對講機、助聽器(qi)、TWS耳機。另(ling)外(wai)在(zai)降噪(zao)(zao)上,我們(men)有(you)(you)(you)大量Training訓(xun)練數(shu)據,包(bao)括(kuo)做(zuo)一些加噪(zao)(zao)的訓(xun)練、做(zuo)量化。我們(men)在(zai)提(ti)取、識別噪(zao)(zao)音(yin)的時(shi)候是非(fei)線(xian)性的,所(suo)以它可以精確且快速地(di)識別出各種人聲之外(wai)的背景(jing)噪(zao)(zao)音(yin),并有(you)(you)(you)效(xiao)地(di)把它消除掉,包(bao)括(kuo)回聲消除。健(jian)康算法這個技(ji)術的應用場景(jing)除了手表,還包(bao)括(kuo)醫療(liao)行(xing)業的產(chan)品形(xing)態(tai)。

對于端側而(er)言,WTM2101是一顆大算(suan)力且有效的處理(li)器芯片。

我(wo)們的(de)合(he)作(zuo)伙伴包括一款(kuan)叫CW01的(de)兒童(tong)手(shou)表的(de)ODM(原(yuan)始設計制造商(shang))。合(he)作(zuo)產品還有(you)(you)INMO Air2眼鏡,我(wo)們提供命令(ling)詞識別(bie),戴(dai)著眼鏡的(de)時候精準、快速地識別(bie)語(yu)音(yin)指令(ling)。另外還有(you)(you)上一周剛(gang)剛(gang)發布的(de)魅(mei)藍K歌耳機,大家可以(yi)搜一下這款(kuan)耳機,299元,可以(yi)K歌,有(you)(you)耳返的(de)功能(neng),這是一個(ge)物(wu)有(you)(you)所(suo)值、非常好玩的(de)產品。

知存科技詹慕航:AI算力提升數百倍、功耗降低數十倍!加速存內計算芯片端到邊應用丨GACS 2023

接下來是(shi)一顆支持大(da)算力和端側大(da)模型(xing)的(de)視(shi)覺類(lei)芯(xin)片(pian)——WTM-8系列(lie)芯(xin)片(pian),大(da)家可以(yi)把它理解(jie)成類(lei)似(si)于R1這顆芯(xin)片(pian)。它在端側可以(yi)打破(po)很多(duo)使(shi)用(yong)場(chang)景,因(yin)為它在散熱上沒有憂慮,對(dui)功耗的(de)控制非常好。從視(shi)頻方面來說(shuo),渲染(ran)用(yong)傳統GPU做也還不錯,但(dan)超(chao)過三維重構(gou)、插(cha)幀、超(chao)分都是(shi)更適(shi)合用(yong)神經網絡(luo)技術(shu)。

WTM-8系(xi)列芯片的(de)高性能成像功(gong)能類似于(yu)(yu)實(shi)現AI ISP功(gong)能,產品可(ke)(ke)以(yi)(yi)將功(gong)耗大幅地(di)降(jiang)低,對(dui)于(yu)(yu)有(you)散熱要求的(de)情(qing)況就會非常(chang)友好。對(dui)于(yu)(yu)分(fen)(fen)辨率(lv),產品從4K一直可(ke)(ke)以(yi)(yi)支持到8K分(fen)(fen)辨率(lv),幀(zhen)率(lv)可(ke)(ke)以(yi)(yi)支持60、90、120。對(dui)于(yu)(yu)視(shi)頻(pin)顯示,在幀(zhen)率(lv)比(bi)(bi)如插(cha)(cha)幀(zhen)方面,知存科技(ji)可(ke)(ke)以(yi)(yi)從30幀(zhen)插(cha)(cha)到60、60插(cha)(cha)到90、90插(cha)(cha)到120。對(dui)于(yu)(yu)超分(fen)(fen),比(bi)(bi)如710,我可(ke)(ke)以(yi)(yi)超到1080p、2K、4K,包括做一些AI的(de)ME、MC等運動(dong)補償前處理(li),以(yi)(yi)及后處理(li)的(de)去(qu)噪、寬動(dong)態(tai)HDR等。

打個(ge)比方,當你(ni)拿手機拍照(zhao),出(chu)來是很清晰的照(zhao)片。但當你(ni)去錄像,截屏經常(chang)比較糊。如果(guo)有我們這顆芯片加持,大家在錄像的時候,它(ta)已經進行了AI插幀和(he)AI超(chao)分(fen),你(ni)截取(qu)的照(zhao)片就會非常(chang)清晰。

我們目前在和(he)一些行(xing)業頭部客戶做深度合作的預演,對于將來產品形態,特別是有(you)關(guan)視(shi)(shi)頻(pin)視(shi)(shi)覺,有(you)更加長遠的預演。

三、大模型、智能駕駛,將是存算一體芯片的新戰場

未來在(zai)AI芯片或者(zhe)存算(suan)會(hui)是(shi)(shi)什(shen)么(me)樣的(de)場(chang)景?這幾天談(tan)得非常多的(de)是(shi)(shi)大語(yu)言模型(xing),大模型(xing)出(chu)現神經網(wang)絡(luo)屬(shu)性及矩陣運(yun)算(suan)的(de)形態,我們相(xiang)信,一(yi)定是(shi)(shi)非常適(shi)(shi)合(he)存算(suan)一(yi)體(ti)或者(zhe)存內計算(suan)這樣底層架構的(de)創新。相(xiang)比馮·諾依曼來說,它(ta)是(shi)(shi)非常適(shi)(shi)合(he)。我們目前的(de)狀態是(shi)(shi)在(zai)做研究。

還有一些更加智(zhi)慧的(de)產品(pin)形態。大家可能(neng)在(zai)餐館里(li)見到一些送餐機器人,這是比較初級的(de)機器人;更加智(zhi)能(neng)的(de)機器人,你點了菜之后,它可能(neng)幫你進行后端的(de)處(chu)理。以上都依賴于在(zai)高(gao)效大算力芯片的(de)支持,這在(zai)不久的(de)將來這都可以實(shi)現。

還有一些類似于高級駕駛輔助系統ADAS等應用,我們也在積極跟進,而且也相信這很快會成為AI芯片、存算一體芯片的一個主戰場

最后我想說(shuo),很高興看到(dao)越(yue)(yue)來(lai)越(yue)(yue)多(duo)的(de)戰友和(he)伙(huo)伴加入(ru)到(dao)AI芯片領域,再到(dao)我們存算一體(ti)的(de)家(jia)庭(ting)里,我們希望(wang)把整(zheng)個(ge)市場的(de)蛋糕(gao)越(yue)(yue)做(zuo)(zuo)越(yue)(yue)大,大家(jia)都能(neng)夠做(zuo)(zuo)自主可控、自力更生的(de)事情,謝謝大家(jia)!

以上是詹慕航演講內容的完整整理