
智東西(公眾號:zhidxcom)
文 | 心緣
架構創新(xin)正成為新(xin)風口,而(er)新(xin)興勢力在其中扮演(yan)著至關重要的角色。
傳統(tong)芯片遵循馮·諾依曼架構,處理(li)器和存(cun)儲相(xiang)互(hu)分離(li),在(zai)承(cheng)擔AI推(tui)理(li)運(yun)算(suan)時(shi),數(shu)據要在(zai)硬盤、主(zhu)存(cun)、計算(suan)單元(yuan)之間(jian)搬來搬去,90%以上的能量損耗于這一(yi)過(guo)程中。
為了突破傳統架(jia)構(gou)對算力的掣(che)肘,存(cun)算一體這(zhe)種(zhong)新(xin)興邏輯架(jia)構(gou)應運(yun)而(er)生(sheng)。其常見實(shi)現方(fang)式(shi)有兩種(zhong),一是在內存(cun)和固(gu)態硬盤芯片中植入計(ji)(ji)算單元(yuan),另一種(zhong)則(ze)是在直接用存(cun)儲單元(yuan)完成計(ji)(ji)算任務。
2016年,一(yi)對北(bei)大(da)微(wei)電子系85后夫(fu)妻,在留美期間積累(lei)了基于NOR Flash的(de)(de)存算一(yi)體AI芯片研發(fa)經驗(yan),并早早定下(xia)回國(guo)創業的(de)(de)想法。
就在今年8月6日(ri),他(ta)們所創辦(ban)的知存(cun)科技宣布了近億(yi)元(yuan)A輪融資。
▲知存科技創始(shi)人兼CEO王紹迪展示知存科技的存算一體AI芯片
近(jin)日(ri),智(zhi)東西同(tong)知存科技創始人兼CEO王紹迪聊了聊創業背后的故事,從創業想法(fa)萌芽階段的無人問津,到(dao)創業5個月完成流片(pian),再到(dao)即將迎來第一批產品的落(luo)地,他(ta)們正在離三年內賣出5000萬顆(ke)芯(xin)片(pian)的“中(zhong)期目標(biao)”越(yue)(yue)來越(yue)(yue)近(jin)。
一、從游戲中孵出的芯片情結
23年前,王紹(shao)迪8歲,父(fu)(fu)母為他買(mai)了一(yi)臺(tai)搭載英特爾(er)奔騰一(yi)代CPU的586電(dian)腦(nao)。那時(shi)候一(yi)臺(tai)586電(dian)腦(nao)售價八千(qian)多元,花費了他父(fu)(fu)母將近一(yi)年的工資。
奔騰(Pentium)這個跨時代的產品,不僅開辟了英特爾一統CPU市場的盛世王朝,也在王紹迪心中埋下做芯片的種子。
小學期(qi)間(jian)的(de)(de)王紹迪,主要還是用電(dian)腦來玩游戲。在這一過(guo)程(cheng)中(zhong),他直觀(guan)感受(shou)到摩爾定律帶來的(de)(de)變化(hua),計算機(ji)變革飛(fei)速(su),CPU速(su)度、光驅速(su)度、軟盤速(su)度、硬盤內存大小等都日(ri)新月異。
很快,586電腦已經(jing)跟(gen)不上游(you)戲速度,家里(li)的(de)電腦配置逐(zhu)漸(jian)升級,每隔(ge)兩三年換一代。2000年左右,為了玩雷神之(zhi)錘等3D效果好的(de)游(you)戲,王(wang)紹(shao)迪開始(shi)接觸GPU。漸(jian)漸(jian)地,王(wang)紹(shao)迪開始(shi)對芯(xin)片非常著迷。
經(jing)過(guo)高中物理競賽,高三上半(ban)學期,王紹迪被保送北大。在接受(shou)當地遼沈晚報采訪時,他即(ji)堅定地表達(da)了自己的愛好(hao)和志向,希望進修微電子專(zhuan)業,成為“中國芯(xin)”的研發人員之(zhi)一。
▲遼沈晚報(bao)專(zhuan)訪王紹迪(圖右)
二、結緣存算一體,師從學術大牛
知存科技關于存算一體芯片技術的根基,來源于王紹迪的妻子郭昕婕,她是第一批從事存算一體AI芯片研究的博士生。
盡管王紹(shao)迪和郭昕婕都是2011屆信息(xi)科(ke)學(xue)(xue)技術學(xue)(xue)院微電(dian)子專業的(de)應屆生,但由于北大(da)(da)教學(xue)(xue)很重視基礎,前(qian)兩(liang)年上的(de)都是理論課那種大(da)(da)課,兩(liang)人(ren)直到大(da)(da)三才相(xiang)識。
到大四申請出國留學時,兩人關于學校的一個重要篩選標準就三個字——離得近。
一般同學(xue)(xue)申(shen)(shen)請(qing)(qing)十(shi)幾所學(xue)(xue)校(xiao)(xiao)(xiao)(xiao),他們(men)則一連申(shen)(shen)請(qing)(qing)三十(shi)多個學(xue)(xue)校(xiao)(xiao)(xiao)(xiao),還特意按著美國(guo)地(di)圖看(kan),就是(shi)為了能申(shen)(shen)請(qing)(qing)到同一個或(huo)者離得近的學(xue)(xue)校(xiao)(xiao)(xiao)(xiao)。最終,王(wang)紹迪(di)申(shen)(shen)請(qing)(qing)到的加(jia)州大學(xue)(xue)洛杉磯(ji)分校(xiao)(xiao)(xiao)(xiao)(UCLA),和郭昕婕申(shen)(shen)請(qing)(qing)到的加(jia)州大學(xue)(xue)圣塔芭芭拉分校(xiao)(xiao)(xiao)(xiao)(UCSB),相(xiang)隔不過(guo)100英里。
說起來,郭昕婕此后研究存算一體芯片所跟隨的導師,還是王紹迪在拿到幾個offer后,幫她向導師寫信申請的。
郭昕婕的導師Dmitri B.Strukov教授是做存算一體(ti)的學術大牛。
2008年,惠普實(shi)(shi)驗室(HP Labs)證實(shi)(shi)了(le)37年前的科(ke)學(xue)預言,發現世界上(shang)第四種基本電(dian)路元件——憶(yi)阻器(qi)(memristor),并成(cheng)功實(shi)(shi)現了(le)世界首個(ge)能工作(zuo)的憶(yi)阻器(qi)原型,這項(xiang)研(yan)究(jiu)在《Nature》上(shang)發表《尋獲下落不明的憶(yi)阻器(qi)》,而Dmitri B.Strukov正是這一(yi)團隊的核心成(cheng)員之(zhi)一(yi)。此后,憶(yi)阻器(qi)、存算(suan)一(yi)體(ti)這些研(yan)究(jiu)陸續如火如荼地開展(zhan)。
▲HP Labs憶阻器團隊,從左到右分別是Dmitri Strukov, Stan Willams, Duncan Stewart, Greg Snider
2011年,即畢(bi)業(ye)那年,王(wang)紹迪和(he)郭(guo)昕婕提交申(shen)請,同樣在這一(yi)年,Dmitri B.Strukov準備申(shen)請存(cun)算一(yi)體(ti)項目,次年郭(guo)昕婕就成(cheng)為了(le)第(di)一(yi)批(pi)被(bei)招收(shou)的學(xue)生,被(bei)分(fen)到基(ji)于(yu)NOR Flash的存(cun)算一(yi)體(ti)芯片技(ji)術方向。
Dmitri B.Strukov告訴她(ta),這個方向是最接近產業化(hua)的(de)、實(shi)用的(de)方向,Flash技術成(cheng)熟,已經商用幾十年(nian),成(cheng)本(ben)很低,但其(qi)缺點同樣(yang)是因為Flash研究起步較早,不好在頂刊上(shang)發文章。
立項初期,深度學習還不火,郭昕婕主要將存算一體芯片應用在視頻處理矩陣乘法,到2013年,深度學習的熱度席卷學術界,發現存算一體芯片運算深度學習效果好后,在導師的支持下,郭昕婕直接轉方向到做深度學習芯片。
歷經6次流(liu)片,耗時(shi)4年(nian)(nian)(nian),郭昕婕終于在2016年(nian)(nian)(nian)研發(fa)出全球第一個3層(ceng)神(shen)經網絡的浮(fu)柵(zha)存(cun)算(suan)一體(ti)深度學(xue)習(xi)芯(xin)片技術,并(bing)完成技術驗證。一年(nian)(nian)(nian)后,她(ta)又再度攻下(xia)7層(ceng)神(shen)經網絡的浮(fu)柵(zha)存(cun)算(suan)一體(ti)深度學(xue)習(xi)芯(xin)片。
▲郭昕婕在IEEE電子器件大會(IEDM 2017)上發表的論文
存算一體以(yi)存儲(chu)器和模(mo)擬單(dan)(dan)元為主,Flash存儲(chu)陣(zhen)列經優(you)化改造后(hou),既可以(yi)容納更多神經網(wang)絡的(de)權重(zhong)參(can)數,又可以(yi)完成和此權重(zhong)相(xiang)關的(de)模(mo)擬計算。據王紹(shao)迪介紹(shao),理論上,單(dan)(dan)個Flash單(dan)(dan)元可完成8bit乘加法(fa)運算,假設有(you)200M個Flash單(dan)(dan)元,就能存儲(chu)2億個參(can)數,同時(shi)能并行完成2億次乘加法(fa)運算。實際運行時(shi),算力約為峰值的(de)10%-50%,由于芯(xin)片具(ju)備一定通用性,并非完全針對某(mou)一算法(fa)定制,AI算法(fa)在芯(xin)片無(wu)法(fa)達到(dao)100%的(de)利(li)用率。
在王紹迪看來,存算一(yi)體芯片的核心優勢有三(san)點。
其一,存儲單(dan)(dan)元(yuan)可用于計算,運算中無需數據搬運,運算單(dan)(dan)元(yuan)數量可提升多個(ge)數量級。
其二,無需獨立計(ji)算(suan)單(dan)(dan)元,這樣既節省了片上并行計(ji)算(suan)單(dan)(dan)元的(de)面積消耗,同時不用過于追求最先進的(de)芯片加工(gong)工(gong)藝(yi),而是可(ke)以使用成(cheng)熟(shu)工(gong)藝(yi)來降低成(cheng)本。
其(qi)三,架構中無(wu)需考慮(lv)內存搬運,大幅降低多核(he)AI芯片的設計難度。
三、投石無路,艱難的創業起步
從郭(guo)昕婕的(de)研究中,王紹迪看到(dao)了端側AI芯片(pian)商用落(luo)地的(de)價值,回(hui)國創業的(de)想法(fa)在心(xin)中萌芽。然(ran)(ran)而創業的(de)熱(re)情燃燒正(zheng)旺,突(tu)然(ran)(ran)就被(bei)現實(shi)的(de)冷水澆熄(xi),他(ta)在說服別人投資(zi)的(de)路上屢屢碰壁(bi)。
2016年年中,王紹迪在中美兩處尋找投資人。
彼時美國主流(liu)觀(guan)點認(ren)為(wei)端側不(bu)需(xu)要AI,只有服務器端深度學(xue)習做訓練的需(xu)求(qiu)才較大。王(wang)紹迪因在三(san)星和Arm實習,便嘗試(shi)聯(lian)系(xi)這兩(liang)家公司(si)做存儲(chu)器的相關負(fu)責(ze)人(ren),但他(ta)們認(ren)為(wei)王(wang)紹迪提出的方案找(zhao)不(bu)到應用(yong)場景。
在美國沒得到(dao)正面反饋,王紹(shao)迪(di)托人回(hui)國詢問卻也無(wu)果。
當時(shi)他(ta)看中的市(shi)場是(shi)缺乏高效端側算力的AR市(shi)場,而這一(yi)時(shi)期(qi),國(guo)內的AR剛走過高速(su)發展(zhan)的黃金時(shi)期(qi),市(shi)場開始疲軟下滑,王紹(shao)迪(di)也沒(mei)能建立什么有效的聯系。
時機(ji)沒到,就再等(deng)等(deng),王紹(shao)迪留在(zai)美國繼續從(cong)事博士后研究工作,很快,希(xi)望(wang)再次來臨(lin)。
2016年9月,英特爾宣布收購視覺處理芯片(pian)創企Movidius,直接填補其在物聯網領域的技(ji)術(shu)短板。伴隨著這一(yi)收購案的推進,終端側AI芯片(pian)逐漸興(xing)起。從2017年年中(zhong)開始,王(wang)紹(shao)迪每個月回國(guo)一(yi)次找融資(zi),另外一(yi)位合伙人(ren)也一(yi)直在國(guo)內幫(bang)著找各(ge)投資(zi)機構去聊。因為存算一(yi)體芯片(pian)仍(reng)然非(fei)常(chang)小眾,找融資(zi)的歷(li)程(cheng)進行的十分艱難(nan)。
終于,在一位北航教授的幫忙聯系下,啟迪之星、兆易創新的投資人在和王紹迪聊過后伸出了橄欖枝,說可以投資。
得到這(zhe)一(yi)口頭承諾,王(wang)紹(shao)迪立刻飛往美(mei)國打包行李,把車一(yi)賣(mai),提(ti)前談好做(zuo)存算(suan)一(yi)體(ti)芯片(pian)所需的(de)知識產權(quan)授權(quan),不到一(yi)個月就返回(hui)祖國,于2017年10月在北京創辦知存科技,王(wang)紹(shao)迪任(ren)CEO,郭昕婕任(ren)CTO。
四、創業初期的摸索
成立初期的知存科技可謂是一窮二白,融資(zi)難、缺人(ren)才、沒經驗。
考慮到攜(xie)帶資料日后可能(neng)有風險,王(wang)紹迪和(he)妻子郭昕婕回(hui)國時基本上都兩手空空。
一開(kai)始,知存科技只有王紹迪(di)、郭(guo)昕婕和他(ta)們的合伙人(ren)三(san)個人(ren),租了一個四人(ren)的小辦公室,還(huan)多(duo)出一個工位(wei)。
三個(ge)人(ren)都是學術圈出身,余下的(de)那個(ge)工位自然是要(yao)留給一(yi)個(ge)有做模(mo)(mo)擬芯片經(jing)驗(yan)的(de)專業人(ren)士,后來(lai)他們花了(le)很大精力才請來(lai)一(yi)位具有15年模(mo)(mo)擬芯片研(yan)發經(jing)驗(yan)的(de)老(lao)兵作為知存(cun)科技如今的(de)模(mo)(mo)擬芯片研(yan)發負責人(ren)。
于是(shi),到2018年春節,知(zhi)存(cun)的(de)小團隊成功漲(zhang)到4個人。
創(chuang)業期間的節奏比學(xue)術研(yan)究期間快(kuai)得多,企業規劃、運(yun)營管(guan)理和產業經(jing)驗(yan)都要(yao)經(jing)持續學(xue)習和積累(lei)。從(cong)創(chuang)業至今(jin),王紹(shao)迪每周(zhou)上班時(shi)間超過100小時(shi),有一周(zhou)甚(shen)至只睡了(le)不足28小時(shi)。
因為在學術研究期間,郭昕婕幾乎踩過各種芯片設計的坑,這也使得知存在成立后的短短5個月內就快速流片。
2018年初,知存的擴張(zhang)速度(du)堪比“龜速”,3月(yue)5個(ge)人(ren),4月(yue)6個(ge)人(ren),5月(yue)7個(ge)人(ren),流片前才終于突破個(ge)位數(shu),達到10個(ge)人(ren)。熬過(guo)缺乏(fa)資金(jin)的創業初期,團隊(dui)擴張(zhang)速度(du)逐步加快。
當前(qian)知存(cun)已經(jing)凝聚了一支經(jing)驗(yan)和能力兼(jian)備的55人(ren)團隊(dui),其中,模擬芯片設計團隊(dui)人(ren)數也增至近11人(ren),團隊(dui)平均工作經(jing)驗(yan)達(da)9年。此(ci)外,王紹迪還(huan)表示,今年知存(cun)科(ke)技還(huan)將再招5人(ren)左右(you)。
融(rong)(rong)資(zi)方(fang)面,知存科技已于2018年(nian)1月獲得啟迪之星等投(tou)資(zi)的(de)天使(shi)輪融(rong)(rong)資(zi),同年(nian)12月獲訊(xun)飛領(ling)(ling)投(tou)的(de)天使(shi)+輪融(rong)(rong)資(zi),今年(nian)8月獲得近億元A輪融(rong)(rong)資(zi),由中芯聚源(yuan)領(ling)(ling)投(tou),普華資(zi)本、招(zhao)商局創投(tou)、三峽鑫泰、科訊(xun)創投(tou)、燕緣雄芯跟投(tou)。
專(zhuan)利(li)(li)方(fang)面(mian),知存科技申請了40多項專(zhuan)利(li)(li),并購買(mai)了郭昕婕早期在(zai)國外研發期間所發明的專(zhuan)利(li)(li)授(shou)權。
知存的(de)(de)核(he)心產品(pin)MemCore001是基于NOR Flash存算一體(ti)架構的(de)(de)嵌入式智能(neng)語音芯(xin)片,主要應(ying)用于低功耗、低成本的(de)(de)端側語音識別,支持8-bit DNN、LSTM、TDNN等多(duo)種常用網絡,支持可變(bian)運算和參數精度。
據王紹(shao)迪介紹(shao),算力(li)(li)依(yi)據應用需求而定,市(shi)面上(shang)的(de)(de)芯片算力(li)(li)從1Mops到(dao)100Gops都(dou)有。知存即將發布3款存算一(yi)體芯片產品(pin),功耗(hao)和(he)成本(ben)和(he)市(shi)面上(shang)10Mops的(de)(de)芯片相當,算力(li)(li)為(wei)10Gops。
相比當下(xia)基(ji)于馮·諾依曼(man)架構的AI芯(xin)(xin)片(pian),知存科技(ji)的存算(suan)一體芯(xin)(xin)片(pian)能將(jiang)運算(suan)效(xiao)率提升20-50倍,現有(you)運算(suan)效(xiao)率達15TOPS/W,成本也比常規AI芯(xin)(xin)片(pian)降低30-90%,針對不同(tong)應用的成本在幾十美分到幾美元。
五、泡沫化很正常,落地難只是暫時現象
隨(sui)著AI需求的演進,知存會對(dui)芯片(pian)內部相應優(you)化,通過調(diao)整設計(ji)架構(gou),使其更(geng)好地支持(chi)現有(you)網絡支持(chi),可配置性更(geng)多,對(dui)新型網絡效率更(geng)高,整體(ti)芯片(pian)面積也變得更(geng)小。
存算一體畢竟是一個創新芯片架構,缺乏成熟的EDA工具、測試工具和應用層適配軟件,量產步驟還夠不成熟。不同于傳統芯片直接將量產步驟交由晶圓廠來完成,存算一體芯片的量產步驟需要芯片設計公司和晶圓廠一起來探索和建立。
在語(yu)音(yin)芯(xin)片(pian)落(luo)地后,未來,知存還(huan)計劃研發低成本(ben)、低功(gong)耗的視覺處理(li)芯(xin)片(pian)。
而(er)王紹迪他們之(zhi)所以(yi)暫不考慮(lv)云端(duan),是(shi)因為軟件(jian)SDK開發的(de)(de)投(tou)入太大,這(zhe)對一家初創公司來說將是(shi)很(hen)大負擔。Flash存在讀寫偏(pian)慢的(de)(de)缺點,如果以(yi)后(hou)有(you)更出色且成熟的(de)(de)存儲(chu)器,他們也會考慮(lv)用其替代Flash。
對于AI產業熱(re)議的泡沫化(hua)以及(ji)AI芯片落地難、量產難等問題,王紹迪也分享了(le)他的觀察和思考。
他認為(wei)(wei),像大多(duo)數(shu)快(kuai)速發展的(de)行(xing)業一(yi)樣(yang),AI也有(you)泡(pao)沫,但這并非因(yin)為(wei)(wei)AI沒(mei)有(you)價值,而是因(yin)為(wei)(wei)還沒(mei)找到(dao)好的(de)商業模(mo)(mo)式(shi),當前的(de)授(shou)權等商業模(mo)(mo)式(shi)利潤不高。
在(zai)他看(kan)(kan)來(lai),AI芯(xin)(xin)片落(luo)(luo)地(di)難(nan)只是暫(zan)時的(de)(de)(de)(de),AI芯(xin)(xin)片的(de)(de)(de)(de)作用是幫(bang)助(zhu)AI更(geng)好(hao)的(de)(de)(de)(de)落(luo)(luo)地(di)。從過去(qu)的(de)(de)(de)(de)發(fa)展來(lai)看(kan)(kan),提供(gong)更(geng)高的(de)(de)(de)(de)算力(li)可(ke)以幫(bang)助(zhu)更(geng)多的(de)(de)(de)(de)算法落(luo)(luo)地(di)到應(ying)用,降低成(cheng)本和功耗可(ke)以幫(bang)助(zhu)AI拓展更(geng)多的(de)(de)(de)(de)應(ying)用場景(jing)。因此(ci)做(zuo)算力(li)更(geng)大的(de)(de)(de)(de)AI芯(xin)(xin)片和更(geng)低成(cheng)本的(de)(de)(de)(de)AI芯(xin)(xin)片都(dou)可(ke)以幫(bang)助(zhu)AI落(luo)(luo)地(di)。當前AI芯(xin)(xin)片落(luo)(luo)地(di)難(nan)因為AI應(ying)用還不是一個成(cheng)熟的(de)(de)(de)(de)市場,沒有(you)成(cheng)熟的(de)(de)(de)(de)產品形態(tai)。AI芯(xin)(xin)片和AI一樣都(dou)在(zai)摸索中發(fa)展,逐(zhu)漸落(luo)(luo)地(di)更(geng)多的(de)(de)(de)(de)應(ying)用。
而(er)關(guan)于AI芯片量產難的問題,王紹迪認為有多個原因。
一是AI產(chan)品(pin)新,產(chan)品(pin)需求(qiu)和(he)功能(neng)一直在變化,沒有成熟的產(chan)品(pin)形態。很(hen)多芯片(pian)做了(le)很(hen)長時間design in,遇(yu)到產(chan)品(pin)需求(qiu)突(tu)然變化,造成了(le)芯片(pian)無法(fa)(fa)量(liang)(liang)產(chan)。這也是因為AI產(chan)品(pin)和(he)算法(fa)(fa)更新換代快所導致的,選(xuan)錯了(le)應用或者功能(neng)設計錯了(le)的芯片(pian)沒法(fa)(fa)量(liang)(liang)產(chan)。
二是某些大算力(li)AI芯(xin)片需要很好的算法(fa)適用性,研發(fa)周期長投入(ru)大從業人才少(shao)。
三是新型架構的AI芯片(pian),像是存算一體芯片(pian),沒有成熟的方案可以采(cai)用,需要開發新的量(liang)產方案。
結語
相比那些在芯片行業摸爬滾(gun)打多年的(de)老兵(bing),王紹迪等從學術圈走出的(de)創(chuang)業者們相對缺乏創(chuang)業經(jing)驗(yan)(yan)和工程(cheng)經(jing)驗(yan)(yan)。尤其是在開辟一條蹊徑(jing)之時,可能需經(jing)過(guo)各(ge)種(zhong)試錯、磨合、迷茫和思路(lu)轉換。
但同時,他們(men)也擁有更(geng)加蓬(peng)勃(bo)的朝氣,堅定而(er)無畏地追求創新(xin),勇于冒(mao)險,敢于跳(tiao)進造芯的洪流(liu)之中,注入一抹不一樣的色彩。
誠(cheng)然,云端市場(chang)巨頭環伺,終端市場(chang)亦是強手如林,留(liu)給(gei)創(chuang)企的(de)機(ji)會有,真正做到突圍也很難。AI芯片(pian)產業的(de)規律還需經歷(li)漫長的(de)考驗,而更(geng)多帶著各類創(chuang)業者的(de)涌入(ru),勢(shi)必會為整(zheng)個產業創(chuang)造更(geng)多的(de)可(ke)能性。
在政府(fu)、投(tou)資(zi)方(fang)、孵化器等(deng)機構的幫助下,也(ye)許下一個(ge)破局者已經在成長之中。