
芯東西(公眾號:aichip001)
編輯 | ?GTIC
芯(xin)東西(xi)9月8日報道(dao),在剛剛落幕的(de)GTIC 2022全球AI芯(xin)片峰會期間(jian),后摩智(zhi)能創始人(ren)兼(jian)CEO吳強以(yi)《用存(cun)算一體(ti)助力智(zhi)能駕駛算力革命》為題發表(biao)演講。
吳強認為,存算一體是解鎖算力和功耗難題的金鑰匙,這種創新計算架構具有大算力、低功耗、低延時的特點,對工藝的依賴較弱,能用28nm工藝做出基于傳統計算架構的其他AI芯片用7nm甚至5nm工藝才(cai)能(neng)實現的性能(neng)或者能(neng)效比。
今年上半年,后摩智能首顆存算一體芯片成功點亮,首次達到運行智能駕駛的復雜AI場景所需算力和精度需求,成功跑通11個類別的智能駕駛典型算法,能效比高達20TOPS/W。
吳強透(tou)露,其(qi)首顆芯片預計在今年底或明年初送到一部分客戶側試用。
以下為吳強的演講實錄:
大家(jia)好,很高興能代表后摩智(zhi)能來參加(jia)這(zhe)個峰會。我(wo)今(jin)天演講的主題是(shi)《用存算(suan)(suan)一體助力智(zhi)能駕駛(shi)算(suan)(suan)力革(ge)命》。
這(zhe)里面有兩個(ge)關(guan)鍵詞,第(di)一個(ge)是(shi)存算一體,第(di)二(er)個(ge)是(shi)智能駕(jia)駛。我先(xian)從智能駕(jia)駛講起(qi)。
一、智能駕駛普及商用,對芯片提出新的要求
汽車產業正經歷一個百年未有的大變局,主要是新能源化和智能化,它對人們的出行方式、生活方式都會帶來很大改變,這種改變某種意義上不亞于100多年前汽(qi)車剛剛出現的時候(hou)。
在今天的(de)(de)中國,走在智(zhi)能(neng)(neng)化(hua)和電(dian)動(dong)化(hua)的(de)(de)前列,我們已經能(neng)(neng)夠感受到這(zhe)種(zhong)改變,比(bi)如(ru)說(shuo)今天在大(da)部分城市,你(ni)上了一(yi)個網(wang)約(yue)車(che),很(hen)大(da)概(gai)率這(zhe)是一(yi)個新能(neng)(neng)源車(che),你(ni)會(hui)聽(ting)司(si)機跟你(ni)說(shuo)新能(neng)(neng)源車(che)比(bi)燃油車(che)便宜多了,口袋里很(hen)多錢、很(hen)幸福。
不管是新能源車還是傳統燃油車,汽車智能化是一個主要的趨勢,并且這種智能化的趨勢比我們想象要快。比如說很多專家預計2023年可能智能化普及率到25%,但事實上我們今年L2及以上的智能化普及率已經接近30%,到2025年可能接近50%。這意味著我們中國每年有2500萬輛的車,大概有1000多萬輛車會有L2或者以上的智能化。
這種智能化也改變了我們生活,很多是一種剛需,前幾天,一個朋友跟我說,他因為家里有事情,要開車回家單程1000公里,一個周末,2000公里在(zai)高(gao)速上(shang),如果(guo)有(you)智能(neng)輔助駕(jia)駛是(shi)很(hen)輕松的(de)事(shi)情。
智能駕駛智能化的普及和商用,對芯片提出了很多新的需求,要普及智能化有三個要素:一是強智能,就是這個東西足夠聰明,至少讓我在高速上開1000公里也非常輕松;二是低成本,因為中國大部分的車是在10-20萬人民(min)幣(bi),而這(zhe)些(xie)車能(neng)用得起;三是安全,用車是人命關(guan)天。
從芯片的角度來說,它對應著是大算力、低功耗、低成本、高可靠。
從(cong)算力的(de)角度來說,智能(neng)芯片發展(zhan)到今天,有一個核心的(de)矛盾。
二、智能駕駛芯片發展的核心矛盾
在需求側,算力需求不斷增長。
比如我這里比較了特斯拉Model 3和今年剛發布的蔚來的車:第一,傳感器多了很多,像素也多了很多,120萬到800萬更(geng)高,這都會對應著(zhu)(zhu)算(suan)力(li)大大加強;第二,算(suan)法(fa)變得更(geng)加復雜,并且(qie)還在不斷演進,這意味著(zhu)(zhu)我需(xu)要芯片對算(suan)法(fa)有更(geng)開放(fang)的(de)一個支持,因為(wei)一定(ding)要能夠支持未來(lai)的(de)算(suan)法(fa)。
而目前的做法(fa)是什么?
首先,我要做大算力,以前是幾十TOPS,現在是幾百甚至到千TOPS。在智能駕駛芯片,那么我用先進的工藝,從7nm到5nm甚至到3nm,我用HBM來增加存儲帶寬。
但這些東西,第一,非常昂貴,只有大廠才玩得起,比如HBM就(jiu)是英偉達和AMD做得最好。另外(wai)一(yi)種(zhong)(zhong)方法像用(yong)(yong)軟硬耦合的(de)方式來增加效率,這種(zhong)(zhong)提高了效率,但犧牲了通用(yong)(yong)性。
所以某種意義上來說,今天我們在智能駕駛計算面臨的核心矛盾是:
第一,要(yao)大算力,但是用傳(chuan)統的方式去(qu)做(zuo),成(cheng)本非常(chang)高。
第二,大算力必然代表著大功耗很高,因為差不多都是1TOPS/W的水平,而在數據中(zhong)心可(ke)以用空調,在車上我沒辦法散熱,散熱就產生(sheng)很大成本(ben)和穩定性問(wen)題。
一(yi)個朋友告(gao)訴我(wo),你(ni)不(bu)要看家里的液(ye)冷,你(ni)的時(shi)效就增加了(le),因為(wei)每個環節增加了(le)95%的可靠性(xing),1個是(shi)95%,3個95%下去它就變(bian)成80%多或者(zhe)更(geng)(geng)低的水(shui)平,所以我(wo)希望一(yi)個更(geng)(geng)簡潔(jie)的方(fang)式來降(jiang)低散熱、功(gong)耗過高的問題。
最后(hou),一定需要一個軟硬解耦(ou)的方案,這是今天我覺得智能駕駛芯片(pian)面臨的一個核心的矛盾。
三、存算一體,解鎖算力和功耗難題的金鑰匙
在所(suo)有的(de)方式(shi)當中,存算(suan)(suan)一(yi)體,是一(yi)種創新(xin)的(de)計算(suan)(suan)架構。在所(suo)有的(de)新(xin)技術當中,它可能是能夠解決我們今天(tian)算(suan)(suan)力和(he)功耗的(de)一(yi)把(ba)金鑰匙。
從傳統的馮·諾依(yi)曼到今天的(de)存算一體(ti),存算一體(ti)嚴(yan)格意義上(shang)它不是近(jin)(jin)存,近(jin)(jin)存我理解它是改良,它只是部分解決問(wen)題,而只有真正(zheng)的(de)存算一體(ti)才能(neng)從底層去解決這個(ge)問(wen)題。
它的能夠帶來的好處是:可以把算力做得更大,另外它天生有能效比的優勢,可以避免大數據的搬運,它可以把能效比做一個數量級上的延伸,它的延時也有提升。還有一個最重要的點,很多人沒有意識到,在今天的國際大環境下,我們面臨著技術封鎖,存算一體對工藝的依賴比較弱,它可以用更傳統的28nm工藝做出別人7nm甚至5nm的(de)性能(neng)或者(zhe)能(neng)效(xiao)比(bi),這(zhe)也(ye)是它天(tian)生的(de)優勢。
但它也面臨挑戰,畢竟它是一個新的東西。我也一直類比,就像電動車剛剛出現的時候有很多設計上的挑戰,因為燃油車畢竟做了上百年,而電動車剛剛開始。因為馮·諾(nuo)依曼也做了很(hen)多年,大家(jia)都知道怎么設(she)計,而存算一體怎么做大算力,這(zhe)是個剛(gang)剛(gang)開(kai)始的事情(qing)。
后摩(mo)選擇用(yong)存算(suan)一(yi)體芯片,做(zuo)智(zhi)能駕駛、無(wu)人(ren)車、仿生機器人(ren)等邊緣端場景,這本身(shen)從技術、產品和(he)市場是個(ge)比較完美的匹配。
那么(me)我們怎么(me)把存算一(yi)體(ti)的技(ji)術優勢變成一(yi)個產品優勢,并且能解決下游客(ke)戶具(ju)體(ti)的痛點。
舉一個具體的案例,很多中檔的車,他們是很在意成本的,而散熱其實是個很大的問題,有三種方式,一個是自然風冷,一個是風扇,或者液冷。自然散熱無論從成本、可靠性都是最理想的,但是這有一個強制要求,就是功耗在15瓦以內。
傳統的NCU大(da)家沒(mei)有(you)問題(ti),大(da)家都是(shi)自(zi)然散熱。而智能駕駛給(gei)車廠帶(dai)來一(yi)個(ge)新的(de)頭(tou)疼的(de)問題(ti),從來沒(mei)遇(yu)到過芯(xin)片(pian)那么(me)熱,怎么(me)散熱,能不(bu)能不(bu)用液冷、不(bu)增加成本,這是(shi)車廠很關心的(de)問題(ti)。
如果在傳統馮·諾依曼架構上,差不多1瓦1TOPS的樣子,15瓦大概20TOPS或者更高一點,這其實滿足不了L2++或者更高自(zi)動駕駛的需求。
而存算一體它能夠用能效比高的特點,做到比如15瓦的功耗算力達60TOPS(物理算力),或者更高的算力,滿足L2++智能駕駛的需求。
四、首顆存算一體芯片今年點亮,成功跑通主流智能駕駛算法
簡單介紹一下后摩,后摩主要是兩撥人,一撥人做存算一體的大牛,另外一撥人是像我這樣在工業界做了20年、在做大芯片、做過CPU、GPU,或(huo)者(zhe)智能芯片的一(yi)撥人。
我(wo)們兩撥人一起碰撞,怎(zen)么解(jie)決我(wo)們面臨的(de)問(wen)題(ti)?我(wo)們一起想到了(le)這(zhe)些比較認可、比較看(kan)好存算一體做(zuo)智(zhi)能駕(jia)駛芯片(pian)、做(zuo)大(da)算力芯片(pian)的(de)路徑,所以我(wo)們走到了(le)一起,成立了(le)這(zhe)家公(gong)司。
后摩也(ye)得(de)到了(le)一(yi)線資本的(de)認可,目前在(zai)南京(jing)、上海、北京(jing)、深(shen)圳設有研發中心,我們今年也(ye)點亮了(le)第一(yi)款大算力的(de)芯片,并(bing)且跑通了(le)一(yi)些智能駕駛的(de)主流算法。
用存算一體做大算力芯片,這是一款AI芯片,怎么去設計電路,怎么做AI核融合,比如架構層面,包括編譯器、算法層面怎么去融合,這些都是我們成立以來面臨的挑戰,是我們要解決的核心。后摩成立一年多,現在也申請了大概30多項的專利。
我舉個例,這是我們第一代的AI核的設計,整個都是我們自己設計,采用了分層分布式的設計。從右邊開始是最底層,我們叫Macro,是存算單元,它是在存算里做計算的單元,根據不同需求,它可以有不同大小,比如512×64、64×64。
若干的Macro可以組成一個Macro Group,多個Macro Group可以組成一個Macro Group Array,Array就變成了Tensor Engine這兒的一部分,我的Tensor Engine主要是Macro Group。
一個Tensor Engine組成了一個Tile,有點于類似于FSD的Core,是一個獨立運算單元。若干Tile可以組成AI Core,多個AI Core又可以組成Cluster,Cluster變成了SoC,就是車規SoC里最重要的AI計算單元。
整體來說,一個Tile之間本身類似一個FSD Core,是一個獨立運算單元,多個Tile之間也可以聯合起來進行運算,多個AI Core也可(ke)以聯合起來做一(yi)個聯合運算(suan)。所以整體(ti)來說(shuo)它是一(yi)個分布與(yu)集(ji)中的完美的結(jie)合,這是我(wo)們第一(yi)代的設計思路(lu)。
我們成立以來,去年成功做了第一顆流片,這顆流片是業內第一次把存算一體做到了幾十TOPS甚至更高的芯片,能效比20TOPS/W左右。
我們把它點(dian)亮,并且成功跑通(tong)了一些主流(liu)的(de)智(zhi)能駕駛算法,比如像(xiang)檢測、識別、語義(yi)分割。
這應該也是業內第一次用存算一體芯片做出了能夠做智能駕駛主流AI應用(yong)(yong)場景的嘗試,這是按照一個(ge)(ge)量產的設計,我們考(kao)慮了(le)冗余、自修復等等,是完全按照一個(ge)(ge)產品級的設計。我們第一代芯(xin)片希望今年(nian)底(di)或明年(nian)初能夠送到一部分客戶去試用(yong)(yong),這是我們產品方(fang)面的一些進展。
五、未來規劃:奔向100倍能效比
再說一(yi)下我們未來幾年產品的規(gui)劃。
后摩做存算一體,它是基于不同的存儲介質,前幾代基本上基于成熟的SRAM去做,SRAM現在比較成熟,性能也好(hao),但(dan)它(ta)容(rong)量有限。
我們希望在用SRAM我們能做出至少能突破500TOPS到千TOPS之間的大算力芯片。
2.0階段,我們芯片是基于更先進的如MRAM、RRAM等(deng)存儲(chu)介質來做(zuo)的(de)(de)。我們希望它本身有更(geng)(geng)大(da)的(de)(de)容量,能夠做(zuo)出(chu)更(geng)(geng)大(da)的(de)(de)算力和更(geng)(geng)高的(de)(de)能效比(bi),可以推出(chu)更(geng)(geng)有競爭力的(de)(de)產品來。
后摩的芯片是通過底層進行架構創新,對于客戶來說是無感知的,他不在乎你是怎么實現的,他不在乎你是用存算還是馮·諾依曼,他(ta)只要看到一個更(geng)好(hao)的產品,有更(geng)好(hao)的性能、更(geng)好(hao)的延時等(deng)等(deng),這是我們希望的結果。
對后摩來說,軟件更加重要,我們盡可能希望能夠對接主流的AI的編程框架,包括比如應用層TensorFlow、PyTorch、ONNX這些,然(ran)后我們自己提供一個中間層,能夠進行無感轉化(hua)。
我們只做(zuo)推理,希望有一(yi)層很輕的工具,把這些推理的模型進行(xing)轉(zhuan)換,讓大家(jia)做(zuo)到無感。
另外,我們做(zuo)相對通用(yong)的(de)計算芯片,我之前說了,算法(fa)一直在(zai)演(yan)進,大家對開(kai)放(fang)性是有要(yao)求(qiu)的(de),因為本身算力是個底層(ceng)的(de)架構,可以(yi)做(zuo)到(dao)很通用(yong),我們可以(yi)提供(gong)一系列(lie)的(de)計算的(de)架構,還能提供(gong)類似底層(ceng)的(de)接口,可以(yi)讓(rang)客戶(hu)自定義算子,這是我們在(zai)軟(ruan)件方面的(de)一個規劃和正在(zai)做(zuo)的(de)事情。
總體來說,這是我們軟件棧,基本上我們希望是個軟硬解耦的設計理念,這里面有三個顏色,看起來有點多:棕色是我們提供的硬件、芯片、驅動軟件、SDK;黑(hei)色(se)是我們會提供一(yi)個參考(kao)設計,包(bao)括(kuo)參考(kao)的(de)硬(ying)件、解決方(fang)案;灰(hui)色(se)是客戶自(zi)己(ji)的(de)東(dong)西,更(geng)多(duo)是應用(yong)層(ceng),包(bao)括(kuo)他們的(de)操作系統、中間(jian)件等等,基本上是三層(ceng)。
我們(men)希(xi)望給客(ke)戶,把軟硬解(jie)耦的(de)方式,我們(men)提(ti)供一個參(can)考設計(ji)(ji),讓客(ke)戶有最大的(de)靈活(huo)度開(kai)發自己的(de)東西,這是(shi)后摩(mo)智能的(de)設計(ji)(ji)理念。
六、愿景:打造1P/W的算力,支撐萬物智能
最后分享一(yi)(yi)個(ge)(ge)(ge)有趣(qu)的(de)產業(ye)觀察。我(wo)覺得在一(yi)(yi)個(ge)(ge)(ge)國(guo)家或者一(yi)(yi)個(ge)(ge)(ge)地(di)區,一(yi)(yi)個(ge)(ge)(ge)產業(ye)的(de)繁榮一(yi)(yi)定會帶動或者孵化出(chu)本地(di)供(gong)應鏈的(de)龍(long)頭企業(ye)。
打個比方,比如說在七八十年代日本消費電子,大家記得攝像頭等的繁榮,誕生了像松下、索尼這樣一些優秀的半導體企業。到90年代,美國PC產品的繁榮,當然也帶動了英特爾、AMD這些大的半導體公司。
原因很簡(jian)單(dan),因為(wei)產品(pin)的(de)(de)(de)廠(chang)商(shang)跟供(gong)(gong)應(ying)廠(chang)商(shang)它會有一個良性的(de)(de)(de)循環,產品(pin)廠(chang)商(shang)會把需求給供(gong)(gong)應(ying)商(shang),供(gong)(gong)應(ying)商(shang)就能(neng)夠做出更好的(de)(de)(de)部件、更好的(de)(de)(de)服務,因為(wei)是本地(di),反過來廠(chang)商(shang)會把更多的(de)(de)(de)訂單(dan)給供(gong)(gong)應(ying)商(shang),最(zui)后形成一個良性的(de)(de)(de)循環。
所以我自己的結論是(shi)(shi)說(shuo),中國汽車在電(dian)氣(qi)化和智(zhi)能化它一定會崛(jue)起(qi),這是(shi)(shi)一個趨勢。它必然會帶動(dong)本(ben)土供應(ying)鏈公司,包括芯(xin)片公司做(zuo)大做(zuo)強。
所以我也希望我們后摩智能以及在座的一些兄弟AI芯片(pian)公司,能夠抓住這(zhe)個歷史機遇(yu),做大做強,做出中國自己的芯片(pian)國際巨頭。
最后,我講講后摩智能的愿景,左邊這個圖是從劉明院士的演講里摘取的,她講了一個有趣的事,說芯片能效比每提升1000倍都會延伸出一個新的計算形態,比如小型機時代差不多1M/W,PC機時代差不多1G/W,而我們現在的手機時代差不多1T/W。她的預測是,如果到未來,真到了萬物智能的時代,也許我們需要1P/W的計算(suan)能(neng)力和能(neng)效(xiao)比。
我很喜歡劉明院士這個演講,我把它引進來,也表達后摩智能創業的初心,我們希望用更多底層的技術去打造1P/W的算力。
后摩智能早期從無人車、機器人、乘用車的智能駕駛作為切入點,把產品落地,為客戶創造價值。未來,希望能向仿生機器人、VR/AR這些(xie)領域(yu)去拓(tuo)展,最終我(wo)們希望能夠打造人工智能時代的一個算力(li)平臺(tai),去實現萬物智能的美好愿景。
以上是我的(de)分享(xiang),謝(xie)謝(xie)大家。
以上是吳強演講內容的完整整理。