
智東西(公眾號:zhidxcom)
編輯 | 韋世瑋
智東西6月(yue)5日消息,近日,在落幕不久的GTIC 2021嵌入式AI創新峰會上,知存科技CEO王紹迪博士以(yi)《存算一(yi)體AI芯片(pian):AIoT設備的算力新選擇》為題,為大家解讀了存算一體技術如何帶來更加高效的AI計算。
作為存算一體AI芯片賽道的領軍者,知存科技主要研發基于Flash的存算一體芯片。王紹迪談到,現在行業已經進入到了后摩爾時代,尤其當芯片進入到7nm和(he)5nm階段后,研發進度放緩,芯片研發成本急劇增高,每一次迭代單個芯片成本增加1倍。
▲知(zhi)存(cun)科技創始人兼CEO王紹迪
但碎片化的IoT市場對先進工藝芯片的需求并不強烈,反而更青睞低(di)成本、低(di)功耗(hao)、易(yi)開(kai)發的芯片。不過,目前芯片都采用傳統的馮諾伊曼架構,最先進的存儲器仍采用1X工藝,“所(suo)以摩爾定律走到這個階段,存儲器的速度很難滿足現在行業的需求。”王(wang)紹迪說。
在他看來(lai),現在行業大多都面臨著存儲墻問題,存儲器的數據搬運慢、搬運能耗大,緩存的大小和密度都很難提升。為了解決存儲器瓶頸的問題,許多公司都采用了不同的方案,包括3D Xpoint、近內(nei)存計(ji)算、近存儲計(ji)算和(he)存內計(ji)算。
其(qi)中,王(wang)紹迪認為存算一體是最高效率的AI計算。今年知存科技發布了基于存算一體技術開發的第二代芯片WTM2101,算力相比第一代提高10倍,主要面向智能語音和智能健康領域,AI算力達50Gops,預計今年(nian)第四季度實現量產。
以下為王(wang)紹迪演講(jiang)實錄整理:
一、摩爾定律發展放緩,先進工藝芯片研發成本高昂
存算一體是新(xin)興的芯片架構,已經研究了很長時間,嵌入式AI也(ye)是一(yi)個非常(chang)新的技術,最近一年內才開始落地。我們先來(lai)談(tan)談(tan)存算一體芯片技(ji)術的研發背景(jing)。
摩爾定律一直陪伴著我們的成長,在過去10到(dao)20年里(li),硬件設備的芯片每年都以兩倍以上的速度提升,同時芯片的成本也在降低。尤其從2000年到2010年之(zhi)間,摩爾定律的增長速度都是很快的,符合每18個月算力提升一倍,成本降低一倍的節奏。
但自2010年之后,摩爾定律已經逐漸放緩,我們很難再看到每過一、兩年芯片就實現速度翻倍,成本降低。在2011年之后,每代芯片的更迭只有接近(jin)10%的性能提升。
當芯片進入7nm、5nm制程后(hou),芯片的研發(fa)進(jin)度(du)逐漸放緩,越來越少的(de)玩(wan)家(jia)(jia)在先(xian)(xian)進(jin)工藝上進(jin)行(xing)研(yan)發(fa),包括行(xing)業(ye)內能夠做先(xian)(xian)進(jin)工藝的(de)代工廠只剩下三(san)星、臺(tai)積電(dian)兩(liang)家(jia)(jia),其它很多代工廠逐漸放棄了先(xian)(xian)進(jin)芯片(pian)的(de)研(yan)究節點。
導(dao)致這一現象的(de)原因(yin)有幾個。芯片快速發展的(de)最主要是商業驅動,我們投入新的(de)工(gong)藝,到新的(de)技(ji)術節(jie)點上(shang)是不是有足夠的(de)商業回報(bao)?
假設我們看現在新的技術節點推進到了7nm,研發一個芯片需要3億美元,成本遠遠高于28nm的千萬美元的(de)研發成本;到5nm,研發成本又增加了50%,但是(shi)性能提升只有10%至(zhi)20%,不像過去一代芯片比上一代性能提升100%。
未來3nm的研(yan)發成本更高,達到6.5億美元,意味著將有40多億(yi)人民幣(bi)的研(yan)(yan)發(fa)(fa)費(fei)用放(fang)到一(yi)(yi)代芯(xin)片(pian)上。但研(yan)(yan)發(fa)(fa)新一(yi)(yi)代芯(xin)片(pian)又是否能帶來足(zu)夠的利潤來填補整個投(tou)入的研(yan)(yan)發(fa)(fa)成本?
先進工藝的研發成本越來越高,生產成本也在逐漸提高,5nm的芯片成本(ben)比7nm高(gao)了一(yi)倍(bei)。當市(shi)場沒有足夠的(de)利潤(run)支撐后(hou),廠(chang)商就不會(hui)采用先(xian)進工藝來生產芯片。
這也意味著,整個市場能夠真正應用先進芯片的廠商越來越少。
與此同時,目前最先進工藝最主要的應用場景是智能手機,除此之外,高性能計算也主(zhu)要采用先(xian)進工藝,其(qi)它碎片化市(shi)場很難采用(yong)先進工藝。
二、單一SoC難滿足AIoT碎片化市場,需建立正向生態
AIoT有很多(duo)的爆發機會,如果關注AIoT消費電子領域,可以發現消費電子近幾年有很多新形態產品的出貨量增速非常快,例如智能手表、TWS耳機(市場)在近幾年都有著指數級別的增速,數據公(gong)司統計TWS耳機在2020年(nian)出貨量有4億多。
但耳機僅僅是AIoT的一(yi)個場景,AIoT有成千上萬(wan)個場景,是不是每個場景都能爆發出這樣的能量呢?目前來看,智能手環和智能手表的增速很快,智能家居有潛力,AR/VR也有很大機會,Facebook、蘋果、微(wei)軟等都押注在這個領域。這些品類在未來會不會成為更大的市場?目前是未知數。但不可否認的是,AIoT有(you)很多的機會。
AIoT有一個特點,它是一個碎片化市場,這就導致(zhi)了它的(de)碎片化需求特(te)別(bie)多,同時需要芯片做到低成本、易開發,低功耗,難度(du)很(hen)大。
同時,單一的SoC只能滿足有限個應用場景。導致芯片公司在設計芯片時,需要去考慮芯片到底要覆蓋什么樣的場景,有多(duo)大的市場。
不同的(de)AIoT場景需求變化很大,有些場景需要成本極低,有些場景需要功耗極低。但芯片設計無法做到二者兼顧,兼顧過多導致冗(rong)余(yu)度增高,成本效率(lv)都會變差。
AIoT任何(he)一個細分場景都需要一個好的生態,之前兩位嘉賓都講到了從系統和算法層面AIoT生態的建立,包括商湯和大華在生態建立方面也做了非常多貢獻。這個生態要有好用的系統、好用的應用、好用的算法,同時芯片也要好用,成本足夠低,最重要的是開發快。當這些東西都齊備的時候,這個場景的市(shi)場就會爆發起來。
例如(ru),智能耳機市(shi)場在過去兩三年內處在飛速發展階段,應用和種類越來越多,芯片也越來越便宜。更重要的是,TWS耳機的開發速度很快,一款簡單的TWS耳機從開始(shi)研發到做(zuo)出來,只(zhi)需要兩個月左右的時間(jian)。
如果一個新(xin)的場景不具備這三個條件中的任何一個,這個市場就很難高速增長。同時,這三個條件又是互相驅動的,首先(xian)要有(you)合適的芯片(pian),芯片(pian)可以運行合適的系統,系(xi)統需要豐富的應用,這樣產品開發和創新速度都可以大幅度增速,市(shi)場可以快速發展,市場發展起來之后(hou)再去驅動系(xi)統、應用和芯片(pian)的迭代升級。
生態需要很多的廠商去參與建立,生態也會帶來收益(yi),很多市(shi)場會因(yin)為生態建立而(er)爆發。
三、傳統芯片架構面臨存儲墻瓶頸
說回到我們做的事情,當前嵌入(ru)式芯片都采用馮諾依曼架(jia)構,存算一體是一種不同于馮諾依曼的新架構,過去的7-8年處于快速發展階段。
新計算架構和傳統計算架構有非常大的不同,新計算架構面臨著生態問題,沒有合適的算法和系統,而傳統的馮諾依曼架構從上世紀40年代開始就已被應用,生態已經非常完備。
馮諾依曼架構為了速度越來越快,存儲器分級會越來越多(duo),最簡單的分級有緩存、內存、存儲。在(zai)復雜分層中(zhong),會有(you)8-9級,越往(wang)外的存儲介質密(mi)度(du)越大,速(su)度(du)越慢,越往內(nei)的存(cun)儲密度越(yue)小,速度越(yue)快。
存儲和內存(cun)的工藝尺寸發展落后于邏輯工藝,存儲器件很難縮小,即使是最先(xian)進的存儲和(he)內存,依(yi)然采(cai)用10nm到20nm的工藝,這意味著存儲(chu)器的速度很(hen)難滿足現在的計(ji)算需求。
我們在馮諾依曼架構中做運算時,數據需要在多級存(cun)儲之間搬運。內部緩存的速度快,但是容(rong)量小,當數(shu)據量很大時,數據會跑到外(wai)(wai)面的存(cun)儲(chu)器(qi)(qi)當中,但外(wai)(wai)面的存(cun)儲(chu)器(qi)(qi)速度(du)相對較慢(man)。
當前芯片(pian)的計算效率很高,不管采用28nm還是5nm。但是存(cun)儲、內存、緩存的延遲和功耗遠高于計算單元,導致存儲墻問題。
從功耗對比圖可以看出來,常用(yong)運算的功耗在0.x和x pJ,緩存和內存讀取數據的功耗達到了100pJ和2000pJ。并且讀取功(gong)耗隨著存儲器密度增(zeng)大(da)(da)而增(zeng)大(da)(da)。
計算中需要的數據量越來越多,數據量的需求每年都呈幾何倍數增長,但是存儲器的速度很難提高。尤其在現在的高算力和大數據的時代,處理器的核越來越多,但是存儲器帶寬提(ti)升很少,每個核使用的帶寬越(yue)來越(yue)小(xiao),突破(po)存(cun)儲墻瓶頸顯(xian)得尤為重要。
四、存算一體架構的優勢,模擬計算更高效
過去十年很多公司為了解決存儲墻瓶頸的問題,采用了以存儲/內(nei)存(cun)(cun)(cun)為中心的計算架(jia)構(gou)。將芯片(pian)、內(nei)存(cun)(cun)(cun)、存(cun)(cun)(cun)儲兩(liang)兩(liang)組合拉(la)近(jin),減(jian)少數(shu)據搬運(yun)距離,都可以(yi)解決一部分問題。
比如美光和英特爾推出3D Xpoint存儲器,結合存儲和內存,這個存儲器速度比內存稍微慢一些但比硬(ying)盤快,密度比內存大但比存儲小,這是一個存儲型的內存(Storage Class Memory)。
另外,像三星、臺灣力晶推出DRAM和(he)邏輯芯片的3D Stacking芯片,可以大幅度提高內存和(he)芯片之間的帶(dai)寬。
近存儲計算也是一種方案,在硬盤中增加一個計算芯片,釋放CPU的計算壓力。
存算一體屬于(yu)其中最特別(bie)的一種(zhong)方式,相對(dui)于(yu)其它(ta)三種(zhong)計(ji)算(suan)方式,存算(suan)一體計(ji)算(suan)方式直接采(cai)用存儲器單元做運算(suan),而(er)不是(shi)把存儲器和運算(suan)芯片的距離拉近,計(ji)算(suan)更為高效(xiao)。
存(cun)算一體可(ke)采用模擬計(ji)算,模擬計算近幾年的發展很快,它的一(yi)個特(te)點是可以直接用存儲器單元完成運算,可采用不同的存儲器介質,例如SRAM、Flash、RRAM。
模擬計(ji)算(suan)把向量(liang)乘矩(ju)陣的運(yun)算(suan)映射到(dao)存儲(chu)器(qi)當中,直接用(yong)存儲(chu)器(qi)完成向量(liang)乘矩(ju)陣的運(yun)算(suan),整個運(yun)算(suan)過程中沒有乘法(fa)器(qi)、加法(fa)器(qi)以及其(qi)他邏輯計(ji)算(suan)單(dan)元參與。
五、3年量產存算一體芯片,用Flash做運算
今(jin)年是知存科技創始團隊研發存算一體技術的第九年。早期從2012至2016年,當時存算一體沒有主流的方向,沒有主流架構,創始團隊采取Flash存算(suan)一體進行流片嘗試,也是個實驗科學。
2016年,我們完成了第七次流片,也是存算一次芯片的首次驗證。2017年獲得近四千萬的(de)項目投(tou)資后,公司成立,專(zhuan)注于(yu)存(cun)算一體技(ji)術開(kai)發(fa)。
真(zhen)正把實驗室的技術做到產品級,中間有非常多坎坷的路要(yao)走,從2017年底開始(shi)做(zuo)存算一體產業化,到2020年(nian)發布第一個存算一體產品,再到今年把第一個存算一體芯片量產,同時推出第二代產品,經歷過十多次芯片的迭代(dai)。
過去九年我們嘗試過很多(duo)存儲器,包括新(xin)型存(cun)儲器,最終選擇Flash的原因是——它是現在非常成熟、密度高、運算效率也是最高的存儲器之一。
固態硬盤、USB盤、ROM、嵌(qian)入式存(cun)儲都使用的是浮柵晶體管。存算(suan)一體(ti)技術用浮(fu)柵晶體管(guan)存儲數據又用它完成乘加法(fa)運算。浮柵晶體管類似MOS晶體管,可以(yi)像用(yong)MOS晶體(ti)管處理模擬信號一樣完成信號的線性放大和累加。同時(shi)浮柵晶體管可以被編程,從而改(gai)變其(qi)信號(hao)放大能力。
基于這種做法,等同于將Flash存儲器的每個存(cun)儲單元都變成一個乘加法器,這樣意味著一個2Mbit的小Flash陣列變成了兩百萬個乘加法器,達到百萬級的并行算力。
六、第二代存算一體芯片將于今年Q4量產
我們的第二代芯片WTM2101是基于(yu)最先進的(de)eFlash工(gong)藝設計,用于嵌入式場景,包括智能語音、智能健康、輕量級視覺等場景。
WTM2101芯片的功耗在幾十微安到十幾毫安,算力最大為50Gops,最大支持1.8M的權重參數,現在基于(yu)該芯片移植了很多商用算法,將在今年第四季度量產。
這個芯片可用于VAD喚醒、語音識別、通話降噪、聲(sheng)紋識別等,可以應用在很多嵌入式領域中,包括健康監測,以及極低功耗(毫安級)的視覺識別。近一年來,我們發現有很多過去不存在的應用場景,說明AIoT創新在加速,市場在增大。
我們的芯片配有深(shen)度學習網絡映射工(gong)具WITIN Mapper,可以(yi)將深度(du)學(xue)習算法自動映射到存算一體矩陣當中,然后按順序執行運算。單次執行最多包含40個(ge)矩陣,通過多(duo)次執行可以運行更大規模的網絡,例如我(wo)們已(yi)經映射了一個100多層的網絡,每層網絡的運算只需要一個存算一體指令。
今后幾年,我們(men)會和合作伙(huo)伴緊密配合,一起推動存算一體的AIoT生態。謝(xie)謝(xie)大家!
以上是王紹迪演講內容的完整整理。