
芯東西(公眾號:aichip001)
編輯 |? GACS 2024
2024全(quan)球(qiu)AI芯(xin)片峰(feng)會(GACS 2024)于9月6-7日在北(bei)京(jing)舉(ju)行,大會由智一科技旗下(xia)芯(xin)片行業媒(mei)體(ti)芯(xin)東西和硬(ying)科技知識分(fen)享社(she)區(qu)智猩猩發起舉(ju)辦。在7號下(xia)午舉(ju)行的(de)邊緣/端側AI芯(xin)片專場,后摩智能聯合(he)創始人、產品副總裁信曉旭以《存算一體(ti),解鎖AI大模(mo)型的(de)邊端側潛力》為題發表演講(jiang)。
在演(yan)講中,信曉旭(xu)首先分析了AI技術(shu)發(fa)展(zhan)的兩大趨勢:模(mo)型參數的不斷擴(kuo)展(zhan)和(he)小(xiao)模(mo)型的興起。后者在端(duan)(duan)側(ce)和(he)邊(bian)(bian)緣(yuan)(yuan)側(ce)展(zhan)現(xian)出巨(ju)大潛力(li)。因(yin)為(wei)端(duan)(duan)側(ce)和(he)邊(bian)(bian)緣(yuan)(yuan)側(ce)的應用更接近(jin)實(shi)際場景,能(neng)夠利(li)用豐富的數據資源,為(wei)AI技術(shu)提供(gong)發(fa)展(zhan)土壤。由此,信曉旭(xu)強(qiang)調了端(duan)(duan)側(ce)和(he)邊(bian)(bian)緣(yuan)(yuan)側(ce)在AI創新(xin)中的潛力(li)。
信曉旭還梳理了(le)AI芯片(pian)發展的(de)(de)兩個階段,提到內存訪問(wen)效率(lv)已成為(wei)新的(de)(de)瓶頸。在(zai)業界正在(zai)探索(suo)的(de)(de)幾(ji)種技(ji)術(shu)路徑中,存算一(yi)體技(ji)術(shu)通過將(jiang)存儲和計算功能集成在(zai)同一(yi)芯片(pian)上,實現了(le)低(di)成本、低(di)功耗和低(di)延遲的(de)(de)優勢(shi),與(yu)端側AI芯片(pian)的(de)(de)需求高(gao)度契合。
最后,信曉旭介紹了這兩年后摩智能陸續推(tui)出(chu)的(de)兩種芯片,它們都展(zhan)現(xian)了超過同(tong)行2倍的(de)能效優(you)勢,還特別實現(xian)了對邊(bian)緣(yuan)計算場(chang)景的(de)定制化(hua)優(you)化(hua)。此外,據信曉旭透(tou)露,基于新架構(gou)的(de)M50芯片正在研(yan)發(fa),在新架構(gou)中,AI核心的(de)性(xing)能將(jiang)總體(ti)提升20%。
▲后摩智能聯合創始人、產品副總(zong)裁信曉(xiao)旭(xu)
以下為信曉旭的演講實錄:
一、相比參數不斷增長的大模型,端側小模型的發展將更有生命力
任何一次里(li)程技術的創(chuang)新,都是0到1的質變,1后面添加(jia)多(duo)少(shao)個0要看底層的技術,賦能多(duo)少(shao)應用(yong),解決(jue)多(duo)少(shao)問題。所以(yi)談到這樣一次技術革命,最終爆發(fa)了多(duo)大能量有多(duo)大影響力,將完全取決(jue)于(yu)最后創(chuang)新。
IT行業(ye)發展歷程(cheng)中最有影響力的(de)(de)技術(shu)革命分別有兩次(ci),一次(ci)是(shi)計算機技術(shu)的(de)(de)革命,一次(ci)是(shi)通信技術(shu)的(de)(de)革命。
先說計(ji)算(suan)(suan)機技術的革命,計(ji)算(suan)(suan)機出來的時候是計(ji)算(suan)(suan)導(dao)彈(dan)的飛行軌跡,如果沒(mei)有(you)用(yong)(yong)(yong)到(dao)(dao)個人電(dian)腦上,沒(mei)有(you)更多的應用(yong)(yong)(yong),像播放器等(deng)(deng)等(deng)(deng),它還是實驗(yan)室的實驗(yan)工具。通(tong)信(xin)技術最(zui)開始做的最(zui)高效的通(tong)信(xin),無時無刻不(bu)在的通(tong)信(xin)。大家可以(yi)看到(dao)(dao)現在整個移(yi)動互(hu)聯網以(yi)及APP應用(yong)(yong)(yong)完全離不(bu)開了。
任何(he)一(yi)次的(de)技(ji)術革(ge)命都會經歷幾(ji)個(ge)不同(tong)的(de)階段:前期(qi)技(ji)術非常非常炫酷(ku),然后找到(dao)應(ying)(ying)(ying)用(yong)(yong)(yong)(yong)、應(ying)(ying)(ying)用(yong)(yong)(yong)(yong)場景(jing)去(qu)解決(jue)一(yi)些問(wen)題,最(zui)后實(shi)現商(shang)業閉環這樣一(yi)個(ge)過程。大(da)模(mo)型(xing)發展的(de)當下(xia),最(zui)最(zui)重要的(de)事情(qing)就是找到(dao)應(ying)(ying)(ying)用(yong)(yong)(yong)(yong)、對應(ying)(ying)(ying)的(de)應(ying)(ying)(ying)用(yong)(yong)(yong)(yong)場景(jing)。那么,下(xia)一(yi)個(ge)殺手(shou)級應(ying)(ying)(ying)用(yong)(yong)(yong)(yong)到(dao)底是什么?
再說到AI的技術發展,從AlphaGO到ChatGPT,這個過程中一直是沿著兩個路徑走。一個是越做越大的模型參數,實際上是探索了當前這個技術路線的邊界。技術發展到現在,我們很欣喜的發現了另外一條路徑——一些小模型的出現。大家開始嘗試把AI能力用在更多的場(chang)景(jing)中,以更簡單的方式(shi)、更少的成本部署到各個終端里(li)。
這種模型正在陸陸續(xu)續(xu)推出,它們(men)也展示了非常好的(de)能(neng)力。像Llama,是在端側(ce)(ce)和(he)邊(bian)緣(yuan)側(ce)(ce)對于(yu)應(ying)用(yong)創(chuang)新中的(de)一大步。這些端側(ce)(ce)和(he)邊(bian)緣(yuan)側(ce)(ce)的(de)應(ying)用(yong)不僅更接近實際場景,而且(qie)能(neng)夠利用(yong)豐富的(de)數(shu)據(ju)資源(yuan),為AI技術(shu)的(de)發展提供肥沃的(de)土壤。
從過往的歷史可以看出,大部分技術革命都產生在端側,比如移動互聯網時代的手機等等。AI發展到現在,端側展現出更多的生命力。應用創新還會繼續發生在端側和邊緣側。
二、存算一體技術與端側AI芯片的需求高度契合
AI芯片的發展經歷了兩個階段。
第一階段缺乏專門處理矩陣和張量計算的處理器,AI芯片面臨著計算效率低下的挑戰。為了(le)解決(jue)這一問(wen)題(ti),業界推(tui)出了(le)如英偉達的Tensor Core和華為昇騰的CUBE等技術,顯著提(ti)升了(le)計算能力。
然而,隨著計算能力的提升,內存訪問效率成為了新的瓶頸,尤其是在處理大模型時,內存訪問的需求更為迫切。這種現象(xiang)被稱(cheng)為“Memory Wall”(存儲墻(qiang)),它已成為當前AI芯片(pian)設計中亟(ji)待解決的(de)(de)關(guan)鍵問(wen)題(ti)。我參(can)加過兩次(ci)峰會(hui),第一次(ci)參(can)加峰會(hui)的(de)(de)時(shi)候,我好像是所(suo)有參(can)會(hui)嘉賓中唯一一個(ge)講(jiang)存算一體(ti)的(de)(de)。而(er)這次(ci)峰會(hui)上有很(hen)多(duo)人都提到(dao)了這個(ge)事情(qing),說明大家都關(guan)注到(dao)了這樣(yang)一個(ge)痛(tong)點,我們當下就需要解決這樣(yang)一個(ge)問(wen)題(ti)。
其實解決這個“Memory Wall”的問題,大家都在嘗試不同的路徑。有兩個技術路線。其中一種方法是通過封裝技術將計算單元與存儲單元更緊密地集成,如HBM技術的成功應用。然而,盡管這種技術在云端應用中表現出色,但其高昂的成本使得端側應用難以承受。邊端側的AI芯片相對于云端來說有它特殊的需求,對功耗、對成本更敏感。我們其實需要摸索出一個更符合它需求的路(lu)徑。
存算一體其實是很多廠家都在嘗試走的技術路線。存算一體體現出來三個優勢,低成本、低功耗、低延遲。這些(xie)特點非常符合邊(bian)端(duan)側AI低功耗、低成本的需求。
三、后摩智能存算一體芯片能效比優勢顯著,特別針對邊緣計算場景優化
在(zai)創業(ye)之(zhi)初(chu),存(cun)(cun)算(suan)一(yi)體不(bu)是太多人知道,只有學術(shu)界知道。現在(zai),存(cun)(cun)算(suan)一(yi)體開始在(zai)產業(ye)界落(luo)地。能走到這一(yi)步還是很欣(xin)慰,越來越多志同(tong)道合的朋(peng)友(you)開始在(zai)這個(ge)領域(yu)里深(shen)耕。
我們公司(si)做存(cun)算一體相對比較早。在(zai)(zai)過去四(si)年中,我們一直在(zai)(zai)探索存(cun)算一體技術在(zai)(zai)端(duan)側AI、邊緣測(ce)AI的技術路徑和產(chan)品化。
我們陸續推出了兩款芯片。2023年推出了第(di)(di)一款(kuan)后(hou)摩鴻途(tu)??H30的芯片,整體算力(li)超過了我們原本的預期。今年推出了第(di)(di)二款(kuan)芯片——后(hou)摩漫(man)界??M30,算力(li)達(da)到了100TOPS,功耗12W左右。
我們的H30和M30芯片在能效比方面表現出色。它們每瓦特的計算效率基本上達到了7-8TOPS,我們的友商在3TOPS左右。這是超過2倍的能效優勢。這樣一個數據(ju),更堅定了我們的(de)信心:我們用存算一體的(de)架構,在(zai)可以擁有更好的(de)產品的(de)同時,還可以實實在(zai)在(zai)解決計算效率的(de)問題。
我們的芯片針對邊緣計算場景進行了優化。這(zhe)(zhe)些優(you)化(hua)措施包括采用量化(hua)技術來降低模(mo)(mo)型(xing)的(de)計(ji)(ji)算和(he)存儲需(xu)求,這(zhe)(zhe)對于(yu)成本(ben)敏感的(de)邊緣設備市場至(zhi)關(guan)重要。量化(hua)技術通過減少模(mo)(mo)型(xing)參數的(de)精度(du),從而減少模(mo)(mo)型(xing)大(da)小和(he)計(ji)(ji)算量,使得大(da)模(mo)(mo)型(xing)可以在(zai)不影響(xiang)性能的(de)前提下部署(shu)到邊端設備中。
我們把行(xing)業非常主流(liu)的(de)大(da)模型部署(shu)在了存算一體的(de)芯片上(shang),都(dou)可以順(shun)利運行(xing),結合上(shang)下文、硬件(jian)以及其(qi)他配置(zhi)等因素,整(zheng)體運行(xing)性能在15Tokens到20Tokens之(zhi)間(jian)。
除了芯片(pian)之外,我們還提供(gong)了多種產品形態以滿足(zu)不同場(chang)景(jing)的(de)(de)需求(qiu),包括標(biao)準的(de)(de)PCIe加速卡、M.2計算(suan)模組以及(ji)Som計算(suan)模組。
結語:下一代M50芯片正在研發,AI核心的性能將總體提升20%
我們的H30和M30芯片是基于第一代天樞架構設計的。而現在,新一代的天璇架構已經完成,它在天樞架構的基礎上進行了改進和優化。在新的天璇架構中,AI核心的性能總體而言提升了20%。
基于天璇架構會推(tui)出M50的芯(xin)片,現在在開(kai)發階段,下一次(ci)演講可能就(jiu)是揭開(kai)面(mian)紗的時(shi)候。