芯東西(公眾號:aichip001)

芯東西9月19日(ri)報道(dao),9月14日(ri)-15日(ri),2023全球(qiu)AI芯片峰會(hui)(GACS 2023)在深圳市(shi)南山區圓滿舉行。繼(ji)首日(ri)開(kai)幕式及AI芯片創新(xin)專(zhuan)場火熱(re)開(kai)場(《云邊端AI芯片熱(re)戰大(da)模型!2023全球(qiu)AI芯片峰會(hui)首日(ri)干(gan)貨》),峰會(hui)次日(ri)演講(jiang)繼(ji)續(xu)輸出密集干(gan)貨滿載,在上午場的最后一個(ge)環(huan)節,2023中國AI芯片先鋒(feng)企(qi)業TOP30和2023中國AI芯片新(xin)銳企(qi)業TOP10評選(xuan)結果正式公布。

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲2023中(zhong)國AI芯片先鋒企業TOP30

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲2023中(zhong)國AI芯片新銳企(qi)業TOP10

2023全(quan)球AI芯片(pian)(pian)峰(feng)會由智(zhi)(zhi)一科(ke)技旗(qi)下芯東(dong)西聯合(he)智(zhi)(zhi)猩(xing)(xing)猩(xing)(xing)發起主辦,在(zai)南山(shan)區科(ke)技創新局的指導(dao)下以(yi)“AI大(da)(da)時代 逐鹿(lu)芯世界(jie)”為主題,設置七大(da)(da)板塊(kuai),主會場(chang)包括(kuo)開(kai)幕式和(he)AI芯片(pian)(pian)架構創新、AI大(da)(da)算(suan)力(li)芯片(pian)(pian)和(he)高能效AI芯片(pian)(pian)三大(da)(da)專場(chang);分(fen)會場(chang)包括(kuo)首次增(zeng)設的集成電路政策交(jiao)流會、AI芯片(pian)(pian)分(fen)析師(shi)論(lun)壇、智(zhi)(zhi)算(suan)中心算(suan)力(li)與(yu)網絡高峰(feng)論(lun)壇。

在第二天的AI大算力芯片論壇、高能效AI芯片論壇上,上(shang)海交通大學計算機科學與工(gong)程系(xi)教授梁曉(xiao)峣發表開場演講,隨后來自英特(te)爾Habana、壁仞科(ke)技、千芯(xin)(xin)科(ke)技、Graphcore、中(zhong)科(ke)加禾、芯(xin)(xin)和半導體、云(yun)天(tian)勵飛、知(zhi)存科(ke)技、諾(nuo)磊科(ke)技、邁特(te)芯(xin)(xin)、肇觀電(dian)子、智(zhi)芯(xin)(xin)科(ke)、原粒半導體、九天(tian)睿芯(xin)(xin)15家頂尖AI芯片企(qi)業(ye)及新(xin)銳企(qi)業(ye)的創始人、技術決策者(zhe)及高(gao)管分別發表主題(ti)演(yan)講,分享前(qian)沿研判(pan)與最新(xin)實(shi)踐。

通過峰會次日的嘉賓分享和觀點碰撞,我們看到大多數AI芯片企業都在積極備戰生成式AI與大模型浪潮帶來的時代機遇,嘉賓分享的議題焦點可以歸納為幾個關鍵詞:生成式AI、NVIDIA、GPGPU、落地挑(tiao)戰(zhan)、架構(gou)創新(xin)、存算一體

無論(lun)是大算力(li)AI芯片(pian)還(huan)是高能(neng)效AI芯片(pian),都面臨(lin)存(cun)儲墻、功耗墻等共通(tong)的(de)傳統架構(gou)痼疾,也正分別(bie)從核心應用場景的(de)迫切(qie)之需(xu)出發(fa),通(tong)過廣聯生(sheng)態伙伴、優化軟硬協同(tong),更大程度挖掘芯片(pian)性(xing)能(neng)的(de)潛能(neng),探索不依賴(lai)先進制程來(lai)實現性(xing)能(neng)提升、能(neng)效提升的(de)新(xin)路徑(jing)、新(xin)解法。

一、破解大模型落地挑戰,大算力芯片亮出三項關鍵技術

大模(mo)型落(luo)地(di)進程(cheng)已經提速,但其與算力供應(ying)之間的差距目前沒有被彌(mi)合,國產大算力芯片(pian)(pian)正在通過不(bu)同(tong)的技術路徑發起沖鋒,提高芯片(pian)(pian)能效比的同(tong)時加速大模(mo)型落(luo)地(di)。

1、GPGPU加速大模型訓練,用開源解決人、錢、時間難題

上海交通大學計算機科學與工程系教授梁曉峣談道,大家在AI大時代淘金,賣鏟子的NVIDIA“賺錢賺的最多”。他認為,包含CUDA Core和Tensor core(張量計算核心)的V100這代GPGPU,幫助NVIDIA奠定AI時代算力基座的行業地位。當谷歌、特斯拉等芯片公司拿出比NVIDIA更有效的矩陣計算方式后,NVIDIA為了鞏固自己在人工智能時代的霸主地位,在數制、稀疏性、互聯、內存帶寬等方面(mian)進行了多項革新。此外,NVIDIA構建的(de)涵蓋編程語(yu)言、運行環境等完善的(de)軟件生態是讓芯(xin)片好用的(de)“護城河”。

芯片生態從軟件廠商圍繞核心芯片(架構)開發“領域專用軟件”發展到芯片廠商圍繞核心軟件(框架)開發“領域專用芯片”,直到現在芯片廠商和大模型公司圍繞核心應用開發“領域專用系統”。梁曉峣提到,當(dang)競(jing)爭對手領先時,可以用開(kai)源的方式解(jie)決資金、人(ren)才和時間(jian)的問題。開(kai)源也(ye)被證明(ming)是當對手特(te)別強(qiang)大時,較為有效的(de)突圍方式(shi)。

去年,梁曉峣團隊推出自研開源GPGPU平臺“青花瓷”,支持大規模并行通用計算。梁曉峣解釋道,說的直接點就是除了游戲,希望NVIDIA的芯片能做的“青花瓷”都能做,同時還特別重視對NVIDIA GPGPU產品的兼容。他補充說,“青花瓷”平臺完全免費開放,這(zhe)一(yi)平臺最(zui)主要目的是為行業(ye)提供GPGPU架構參考設計,開放給(gei)企業(ye)、高校進(jin)行基礎研究、實踐平臺、突破創新。

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲上(shang)海交通大學計(ji)算機科學與工程系教授梁曉峣

在產業界,壁仞科技也認同高性能GPGPU是訓練GPT大模型的關鍵。一方(fang)面(mian)(mian),大(da)模型在計算(suan)機體系結構中面(mian)(mian)臨計算(suan)、通信、存儲(chu)、并(bing)行(xing)擴展(zhan)、穩定可(ke)靠五大(da)挑戰;另一方(fang)面(mian)(mian),還(huan)要解(jie)決用戶視角下(xia),存得(de)下(xia)、易擴展(zhan)、易使用三大(da)“溫飽”需求,以(yi)及高(gao)性(xing)能、低(di)(di)成本、低(di)(di)延時三大(da)“小康”需求。

針對這些挑戰和需求,壁仞科技打造了面向大模型的軟硬一體全棧優化的解決方案,包括高性能集群、機器學習平臺suCloud、加速庫、訓練框架和推理引擎、超大模型框架、算法/應用六層架構。壁仞科技系統架構副總裁丁云帆談道,高性能通用GPU是訓練GPT大模型的關鍵算力基礎,互聯帶寬/拓撲是支撐GPT大模型分布式高效擴展的關鍵,基于自研(yan)BR104 GPU的主流(liu)量產產品(pin)壁(bi)勵104,壁(bi)仞科(ke)(ke)技(ji)可構建千卡GPU集群(qun),并結合大模型(xing)(xing)分(fen)布式策略優化(hua)助力大模型(xing)(xing)創(chuang)新落地。另(ling)外壁(bi)仞科(ke)(ke)技(ji)還與產業界的框架、模型(xing)(xing)伙伴、科(ke)(ke)研(yan)機(ji)構、高校(xiao)等緊密合作打造大模型(xing)(xing)產學研(yan)用生態。

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲壁仞科技系(xi)統(tong)架構副總裁丁云帆

2、傳統架構難突破帶寬、成本瓶頸,大模型時代亟需超越GPU新架構

“大模型本質是對知識的壓縮和對輸入的反饋,即存算一體、以存代算。”千芯科技董事長陳巍談道,“LLM/MLM的開源資源、部署(shu)訓練架構、算力(li)成本成為(wei)大模型應用落(luo)地(di)和企(qi)業盈(ying)虧的關鍵分水嶺。”

陳巍介紹了(le)幾種典型(xing)的商用大(da)模(mo)(mo)型(xing)存(cun)算一(yi)體架構落地情況(kuang),并指出”特斯拉的Dojo芯片使用了(le)近存(cun)計算架構優化(hua)數據通道,或是(shi)為大(da)模(mo)(mo)型(xing)量身定制“,”微軟三星等科技巨頭正在投(tou)資存(cun)算一(yi)體芯片企業“。

Habana中國區負責人(ren)于(yu)明揚一上(shang)臺便放話:演講不摻廣(guang)告,都是真(zhen)實體驗。“我們認為(wei),每個Billion(十(shi)億)的參數規模,在(zai)有限時(shi)間(jian)范(fan)圍內(nei)要把(ba)訓練(lian)做(zuo)好,基本需要的算力大概在(zai)16卡。”

他談到大模型給硬件層帶來壓力,對單卡的算力、內存、服務器互聯方案、集群長時間穩定運行等提出更高要求。在大模型發展過程中,上層框架及軟件生態扮演的角色越來越重要。傳統模型很大程度需要CUDA的資源進行訓練,但大模型時代更多強調高層框架軟件生態——如何解決集群管理與穩定性、訓練過程中的并行化要求等。

于明揚總結了面向大模型高效訓練和推理的一些選擇,包括計算速度、高速存儲、高擴展性、易用性、高能效、高性價比。在大模型時代,企業如果能很好地針對框架做優化,有機會繞開CUDA生態墻,打破NVIDIA在市場上一家獨大的局面

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲Habana中(zhong)國區負(fu)責人于(yu)明(ming)揚

GPU、CPU之外,英國芯片公司Graphcore(擬未科技)提出了IPU架構,支持FP8浮點運(yun)算,基于此來(lai)應(ying)對對話式(shi)AI的(de)時延(yan)、應(ying)用(yong)成本(ben)與能(neng)耗的(de)挑戰。早在2018年,AI教父Geoff Hinton就(jiu)看到了IPU架(jia)構的(de)潛力,他在接(jie)受采訪時以(yi)Graphcore的(de)IPU芯片為(wei)例,大(da)力倡(chang)導為(wei)構建功能(neng)更像(xiang)大(da)腦的(de)機器(qi)學(xue)習系統轉向不(bu)同(tong)類型(xing)的(de)計(ji)算機。

Graphcore中國區產品總負責人朱江提到,IPU采用了大規模并行的多指令多數據架構,并極大地擴展了片上SRAM的大小,使得片內存儲吞吐量達到65TB/s。這樣大規(gui)模的片上(shang)存儲(chu)和分布式(shi)設計(ji),可(ke)以極大(da)地(di)提(ti)高訪存(cun)帶寬和內存(cun)訪問效(xiao)率,有力(li)地(di)幫助(zhu)客戶打破內存(cun)墻的(de)瓶頸。IPU的(de)獨(du)特設計還使其實現了高效(xiao)的(de)訪存(cun)能(neng)耗。同樣是搬運一個byte的(de)數據,CPU大(da)概(gai)(gai)需要(yao)消耗320pJ,GPU大(da)概(gai)(gai)需要(yao)64pJ,而(er)IPU大(da)概(gai)(gai)需要(yao)1pJ。此外,Graphcore推(tui)出的(de)Bow IPU還采用了WoW的(de)先進封裝,并在支(zhi)持數據類型(xing)上進行了投入,成為(wei)業內最早支(zhi)持FP8精度(du)的(de)硬件之(zhi)一。

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲Graphcore中(zhong)國區產品總負責(ze)人朱(zhu)江

3、產業鏈創新:編譯器+EDA平臺,提高AI芯片適配性

大模型應用與算(suan)力之間(jian)的差距,加(jia)速了企(qi)業在兩者間(jian)構建“橋(qiao)梁”,縮(suo)小其(qi)中差距的步伐。

中科加禾創始人崔慧敏認為,大模(mo)型讓國產AI芯片面臨的生態困境更加凸顯,編譯器(qi)成為一大破解(jie)之(zhi)道(dao)。簡單來說(shuo),編譯器是用于將(jiang)機(ji)器語言翻譯為人類語言的(de)工(gong)具,在AI芯(xin)片產業鏈中,相當(dang)于AI芯(xin)片與(yu)AI用戶(hu)之間(jian)的(de)“橋梁”。

在GPU時代,編譯(yi)器(qi)(qi)(qi)大家主要使用(yong)的(de)是NVIDIA的(de)CUDA編譯(yi)器(qi)(qi)(qi)。隨(sui)著AI時代到來,編譯(yi)器(qi)(qi)(qi)的(de)內涵和外(wai)延(yan)進一步擴大,涉及了圖、張(zhang)量(liang)、指令、圖算融合等(deng)不同層(ceng)面的(de)編譯(yi)。

大模型時代,編譯器能夠促進芯片性能提升、跨平臺優化及安全性增強。崔慧敏談道,在性能方面,編譯技術可以發掘更激進的融合策略,進一步全局對計算、同步進行重排優化,為模型推理側帶來最高2~3倍的性能提升;在跨平臺方面,中科加禾認為基于機器模型可以有效支撐編譯優化的跨平臺表現;在安全方面,編(bian)譯(yi)技(ji)術(shu)能以很低的開銷來實現軟件(jian)TEE,增(zeng)強安全(quan)性。

目前,中科加禾正(zheng)聚焦搭建對不同芯(xin)片都適(shi)用(yong)的(de)工具集(ji),通過組件化服(fu)務助力(li)AI芯(xin)片完成生態(tai)遷移等目標(biao),并計劃在2023年12月(yue)推出跨(kua)平臺大模型推理引擎。

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲中科加(jia)禾(he)創始(shi)人崔慧敏

單芯片SoC向新型“SoC”(System of Chiplets)架構演進過程中,芯和半導體產品應用總監蘇周祥談道,Chiplet對單顆SoC的拆分、組合和架構規劃問題,給傳統的設計流程帶來了很大的挑戰

他認為,Chiplet從系統最初的設計到最終的嵌合簽核,都需要新的工具、新的思路和新的方法學。芯和半導體給出的答案是一個圍繞Chiplet產業的全新EDA平臺,蘇周祥說道(dao),全新(xin)平臺需要支(zhi)持系統級連(lian)接(jie)、堆棧管理、層次化設(she)計,還需要在物理實(shi)現方面(mian)協同設(she)計環(huan)境(jing)、支(zhi)持各(ge)領域的工(gong)具、多芯片3D布局規劃和布線。

因(yin)此,芯和半導體推出專(zhuan)為3DIC Chiplet量身定做的(de)(de)仿(fang)真(zhen)(zhen)全流(liu)程EDA平臺(tai),這(zhe)是一個(ge)針對Chiplet的(de)(de)完整的(de)(de)包括設(she)計(ji)、SI/PI/多物理(li)場分析的(de)(de)解(jie)決(jue)方案。該平臺(tai)擁有AI驅動的(de)(de)網格剖分技(ji)術,以及云計(ji)算(suan)加(jia)載的(de)(de)分布(bu)式(shi)并行計(ji)算(suan)能力,還支持(chi)裸芯片(pian)、中介層和基板的(de)(de)聯合仿(fang)真(zhen)(zhen)引擎技(ji)術。

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲芯和半導(dao)體產品(pin)應用(yong)總監(jian)蘇周(zhou)祥(xiang)

二、遍地能跑大模型!解讀高能效AI芯片三大趨勢

大(da)模(mo)型強大(da)的(de)(de)內(nei)容生(sheng)成、理解能力,使得其在(zai)云(yun)邊端的(de)(de)多類型應用場景(jing)出現(xian),不同場景(jing)為高能效(xiao)AI芯(xin)(xin)片(pian)提(ti)出了新要求。邊緣AI芯(xin)(xin)片(pian)對(dui)低功(gong)耗、高性能的(de)(de)需求增長;大(da)模(mo)型對(dui)容量(liang)和帶(dai)寬既要又要,存(cun)(cun)算一體芯(xin)(xin)片(pian)的(de)(de)存(cun)(cun)儲介質如(ru)何(he)選擇。

這一(yi)背景下,高能(neng)效AI芯(xin)(xin)片(pian)的(de)發(fa)展呈現出三(san)大(da)趨勢,分別是(shi)為大(da)模型構建低(di)功(gong)耗AI網絡,通過存(cun)內計算(suan)突破功(gong)耗墻(qiang)和存(cun)儲(chu)墻(qiang)問題,以(yi)及邊緣(yuan)端(duan)的(de)智能(neng)視覺處理芯(xin)(xin)片(pian)需求(qiu)增長。

1、算力方案構建低功耗AI網絡,大小模型或在云邊端協同進化

智芯科聯合創始人&CEO顧渝驄談道,大模型發展會面臨兩方面瓶頸,大數據和大模型所產生的顯存墻問題(模型是否能跑起來)以及計算墻(能否在合理時間內完成推理)問題。他認為,存內計算是解決這兩大難題的有效解法,相比于GPU能更(geng)有(you)(you)效地利用數據(ju),降低功耗;更(geng)高(gao)效地讀(du)取寫入數據(ju);集(ji)成存(cun)儲(chu)和計算(suan),提供更(geng)大(da)內(nei)存(cun)容量。智芯(xin)科計劃(hua)基于精度(du)無損SRAM的(de)存(cun)內(nei)計算(suan)CIM推出針對大(da)模(mo)型的(de)900系列芯(xin)片,有(you)(you)望替代NVIDIA在專有(you)(you)云、推理側的(de)應用。

大模型帶來的算力爆發遠超摩爾定律,同時大功耗算力設施帶來的碳排放量巨大,因此,邁特芯希望做一款低功耗芯片,把功耗降下來。邁特芯基于立方脈動并行架構的存算芯片來滿足大模型部署。邁特芯創始人兼CEO黃瀚韜談道,通過用更低的bit來表示GPT-3的主要數據,可以將大模型參數規模變小,邁特芯可在ChatGLM2-6B大(da)模型上用INT4和(he)INT2算(suan)力,達到跟ChatGLM2-6BFP16相(xiang)當的推理水平(ping)。在架構(gou)方面,邁特芯針對(dui)大(da)模型算(suan)法搭建(jian)立(li)方單(dan)元架構(gou),通過立(li)方脈(mo)動陣列實現(xian)高(gao)強度并行(xing)計算(suan),其解決方案能兼顧高(gao)通量和(he)低功(gong)耗。

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲邁特芯創始人兼CEO黃(huang)瀚韜

在原粒半導體聯合創始人原鋼看來,隨著大模型蒸餾技術發展,超大模型可以生成一系列適合邊端的小模型,取得接近于大模型的效果。原粒半導體基于AI Chiplet把(ba)SoC算力(li)(li)跟NPU(神經網絡處理器)的AI算力(li)(li)解綁,再靈活(huo)組合出邊緣端(duan)芯片,以適配邊緣端(duan)大模(mo)(mo)型(xing)的推(tui)理要求。目前,原粒半導體已研發出多模(mo)(mo)態算力(li)(li)核(he)心(xin)CalCore技(ji)術,支(zhi)持(chi)企業將大模(mo)(mo)型(xing)部署在端(duan)側;以及(ji)自適應算力(li)(li)融合CalFusion技(ji)術,自動分配芯粒以捆(kun)綁不同(tong)的算力(li)(li)。

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲原(yuan)粒半(ban)導體聯合創始人原(yuan)鋼

全球邊緣計算市場規模不斷擴大,但因場景、芯片平臺、算力需求碎片化等痛點使得其算法投入產出往往不成正比,這有望依(yi)托于大(da)模(mo)型(xing)強大(da)的(de)圖像(xiang)、語言(yan)理(li)(li)解、場景泛化能力得(de)到突破。同時,云(yun)天(tian)勵飛副總裁(cai)、芯(xin)(xin)(xin)片(pian)(pian)業務線總經(jing)(jing)理(li)(li)李愛軍(jun)提到,邊緣(yuan)計算(suan)芯(xin)(xin)(xin)片(pian)(pian)設(she)計需(xu)要考慮SoC集成(cheng)、算(suan)力可靈活擴展芯(xin)(xin)(xin)片(pian)(pian)架構、統一的(de)工具(ju)鏈架構、隱私保護(hu)等方面因素。云(yun)天(tian)勵飛基(ji)于其(qi)自(zi)研算(suan)法開發平臺(tai)(tai)和(he)算(suan)法芯(xin)(xin)(xin)片(pian)(pian)化平臺(tai)(tai),訓練了“云(yun)天(tian)書”大(da)模(mo)型(xing),推出內置云(yun)天(tian)勵飛第四(si)代神經(jing)(jing)網絡(luo)處理(li)(li)器的(de)新一代邊緣(yuan)計算(suan)芯(xin)(xin)(xin)片(pian)(pian)DeepEdge10,能滿(man)足大(da)模(mo)型(xing)部署需(xu)要。

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲云天勵飛副總裁、芯片業務(wu)線總經理李愛軍

2、多存儲介質方案迸發,存算一體突破功耗、存儲瓶頸

當前大模型(xing)對容量和帶寬既要又要,存算一體(ti)芯片正處(chu)于多種存儲介質(zhi)百花齊放的格局(ju)。

千芯科技將不同類型存儲器融合到統一存算架構(UMCA),可為客戶的應用(yong)(yong)(yong)場(chang)景(jing)提供SRAM、Flash、RRAM多種(zhong)存算(suan)(suan)芯片(pian)方案;通過(guo)多處理器融合,使(shi)存算(suan)(suan)一(yi)體保持大(da)算(suan)(suan)力(li)高能效(xiao),同(tong)步(bu)獲(huo)得CPU、GPGPU的通用(yong)(yong)(yong)生態能力(li)。其存算(suan)(suan)一(yi)體架(jia)構不依(yi)賴先(xian)進工藝(yi),可基于成熟工藝(yi)達到(dao)先(xian)進算(suan)(suan)力(li);并(bing)提供芯片(pian)級算(suan)(suan)法壓縮技術(shu),方便大(da)模型客戶無感使(shi)用(yong)(yong)(yong)量化剪枝(zhi)稀疏等壓縮技術(shu)來達到(dao)降本增效(xiao)的目標。

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲千芯科(ke)技(ji)董事長陳(chen)巍(wei)

智芯科聚焦的(de)是SRAM,智芯科聯(lian)合創始人&CEO顧渝驄提到,他們將推(tui)出針(zhen)對大(da)模型的(de)900系列(lie),該系列(lie)可以提供1000-2000TOPS的(de)算力,為邊緣側(ce)大(da)模型推(tui)理提供算力,功耗為150W,采(cai)用12nm制程(cheng),價格(ge)遠低于NVIDIA。

此外還有推出基于SRAM純數字及模數混合架構的多重融合存內計算技術的九天睿芯。九天睿芯副總裁袁野談道,AIGC在內容生成之外,還帶來AR/VR、具身智能、外部感知信號鏈等的全面升級,其采用的混合架構模式,能實現有效精度計算,CIMD(純數字存內計算)+CIMX(模數混合純內計算)兩種存算架構在(zai)芯片(pian)方(fang)面融合,能支(zhi)持訓練(lian)+推(tui)理一體應用(yong),并使性能最(zui)大(da)化。此外,存內計(ji)算可以(yi)通過(guo)互聯(lian)、疊加實現更大(da)算力(li),九(jiu)天(tian)睿芯已積累多(duo)個(ge)智能信(xin)號(hao)鏈(lian)(智能感知(zhi)/互聯(lian))的(de)基礎(chu)IP,并啟動告訴互聯(lian)接口技術研發(fa),為實現大(da)算力(li)做準備。

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲九(jiu)天睿芯副總(zong)裁袁野

在知存科技業務拓展副總裁詹慕航看來,AI神經網絡或者CNN矩陣運算、卷積運算的核心就是矩陣乘法/乘加運算,越典型的大模型越需要矩陣運算,便越適合存內計算的方式,將“存(cun)(cun)”和“算”結合(he),一(yi)次性并行完(wan)成。因此,知存(cun)(cun)科技(ji)選擇使用(yong)Flash存(cun)(cun)儲器完(wan)成AI神(shen)經(jing)網絡的儲存(cun)(cun)和運算,以解決存(cun)(cun)儲墻問題。

知(zhi)存(cun)(cun)科技推出(chu)的(de)WTM-2端側AI芯(xin)(xin)片(pian),具(ju)備極(ji)低功耗(hao)、極(ji)低延(yan)遲,其已(yi)量產的(de)國際首顆存(cun)(cun)內計算(suan)(suan)(suan)芯(xin)(xin)片(pian)WTM2101功耗(hao)僅(jin)5uA-3mA,兼具(ju)高算(suan)(suan)(suan)力(li),適用端側智(zhi)能物(wu)聯網場(chang)景(jing)。下一(yi)步,知(zhi)存(cun)(cun)科技還將(jiang)針對視頻增(zeng)強場(chang)景(jing)推出(chu)WTM-8系列芯(xin)(xin)片(pian),該系列芯(xin)(xin)片(pian)具(ju)備4核(he)存(cun)(cun)算(suan)(suan)(suan)MPU,單核(he)提升算(suan)(suan)(suan)力(li)80倍(bei),提升效率10倍(bei)。

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲知存科技(ji)業務(wu)拓展(zhan)副總裁詹慕航

3、3D視覺應用滲透加速,創新方案1個大腦指揮8只眼睛

肇觀電子CEO馮歆鵬認為,隨著視覺技術從2D向3D發展,智能3D視覺應用將滲透到全行業,且路線圖可以往五十年以后延伸。但硬(ying)件成像限制(zhi)和AI感知局限是3D視覺(jue)行業繞不開的痛(tong)點(dian),馮歆鵬談道,為了解決(jue)上述問題,肇(zhao)觀電子積累了3D、VSLAM、AI和OCR光(guang)學字符識別等(deng)多項機器視覺(jue)核心技(ji)術。其中,肇(zhao)觀電子3D深度相機能(neng)適用冷庫機器人在(zai)(zai)-18℃的(de)(de)環境里啟動“眼睛(jing)”完成任務等(deng)極限場景,他(ta)還提(ti)到,部(bu)分海外巨頭的(de)(de)機器視覺(jue)技(ji)術甚至無(wu)法在(zai)(zai)低溫環境里開機。

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲肇觀電子CEO馮歆鵬(peng)

諾磊科技推出的集成CIS+AI+MCU光譜識別功能的感算一體AI光譜分析芯片陣列技術“Eye with Brain”,能做到“1個眼睛照顧8個大腦”,還(huan)能實(shi)現對(dui)多頻段光(guang)譜的檢測與分析。有別于(yu)AI業界的傳(chuan)統算法,諾(nuo)磊(lei)科(ke)技(ji)的產(chan)品配合(he)高度集(ji)成機(ji)器影像辨識(shi)傳(chuan)感器,能獨立運行實(shi)現影像偵測、追(zhui)蹤(zong)及識(shi)別。諾(nuo)磊(lei)科(ke)技(ji)創始人、CEO Raymond Wu提到,諾(nuo)磊(lei)科(ke)技(ji)在(zai)首款(kuan)110nm工藝量產(chan)芯片NB1001上,結合(he)WLO(晶圓(yuan)級光(guang)學)技(ji)術,將光(guang)學元件(jian)集(ji)成到半導體(ti)晶圓(yuan)上,設(she)計為(wei)類似于(yu)麥克風陣(zhen)(zhen)列的光(guang)譜檢測陣(zhen)(zhen)列。

Raymond Wu還提到,曾經一枝獨秀的影像解決方案CCD由于系統體積大、成本高、功耗大、落地難逐漸被CIS(CMOS圖像傳感器)取代。這與當下AI應用有相似性,他認為高算力并不是能百分之百解決所有AI應用的手段,AI應用的算力需求取決于具體應用的場景,單一化應用沒有必要做復雜的AI芯片

大算力與高能效AI芯片發起沖鋒!2023全球AI芯片峰會第二日干貨總結

▲諾磊科技創始(shi)人、CEO Raymond Wu

結語:云邊端AI芯片熱戰大模型,2023全球AI芯片峰會升級

2023全球AI芯片峰會(hui)第(di)二天,云邊(bian)端AI芯片熱戰大模型的戰況更盛。

一方(fang)面,面向(xiang)大(da)(da)模型的(de)海(hai)量算力需求(qiu),國產大(da)(da)算力芯(xin)(xin)(xin)片廠商(shang)(shang)已經發起技(ji)(ji)術沖鋒。GPGPU廠商(shang)(shang)從芯(xin)(xin)(xin)片設計(ji)、解決方(fang)案和生態多方(fang)面加快大(da)(da)模型場景(jing)落地,國內(nei)外的(de)AI芯(xin)(xin)(xin)片廠商(shang)(shang)試(shi)圖用(yong)創新架構打破NVIDIA一家(jia)獨大(da)(da)局(ju)面,此外上下(xia)游產業鏈也在通過編(bian)譯器、EDA等(deng)技(ji)(ji)術的(de)創新為AI芯(xin)(xin)(xin)片性能(neng)提供(gong)“放大(da)(da)器”。

另(ling)一方面,大(da)模型的落(luo)地場景正從云端(duan)(duan)延(yan)伸(shen)至邊緣側、端(duan)(duan)側,使得國內(nei)一批高能效AI芯片廠商(shang)看到了市場發展機(ji)遇。通過存內(nei)計(ji)算、立方單元架構、Chiplet等不同創新架構,AI芯片廠商(shang)不約而同地探索降(jiang)低(di)(di)AI芯片能耗和算力成本的最短路徑(jing),從而為大(da)模型的規模化落(luo)地提供條(tiao)件。隨著大(da)模型在端(duan)(duan)側、邊緣側的部署(shu)門檻降(jiang)低(di)(di),大(da)小模型有望實現(xian)更好的協同,從而促進AI落(luo)地產業(ye)的深度和廣度大(da)大(da)加強。

通過第(di)二天的峰會,我們可以看到(dao)以下五(wu)大產業發展趨勢值(zhi)得關注:

1、作為首屈一指的芯片巨頭,NVIDIA通過在數值、稀疏性、互聯、內存帶寬等方面的革新,鞏固了其在AI時代的霸主地位。對此,國內GPGPU廠商可以通過開源的方式解決錢、人、時間的問題。

2、傳統架構難以突破大模型訓練中的帶寬和成本瓶頸,市場需要超過NVIDIA GPU的新架構。存內計算/邏輯能讓芯片能效大幅提高,突破功耗墻和存儲墻問題,從而以成熟工藝突圍大算力芯片。

3、面向大模型場景,AI芯片廠商需要滿足存得下、易擴展、易使用三大溫飽需求,以及易使用、低成本、低延時三大升級需求。這需要AI芯片廠商加快技術架構創新,也需要用軟硬一體化解決方案去突破。

4、大模型讓國產AI芯片面臨的生態困境更加凸顯,需要產業鏈上下游加快適配。比如通過編譯器創新,產業能夠促進芯片性能提升、跨平臺優化及安全性增強;也有企業打造圍繞Chiplet產業的全新EDA平臺,為芯片設計創新提供支持。

5、大模型正從云端場景向邊緣側、終端延展。在邊緣側和終端場景,客戶對AI芯片的能耗和成本更加敏感。為此,AI芯片領域的玩家通過存內計算、立體單元架構、模型稀疏化、Chiplet等路徑降低芯片能耗和成本,支持大模型“下沉”。

結合前后兩天(tian)的2023全球AI芯(xin)片峰(feng)會產學研投領域46+位大佬的交(jiao)鋒,我(wo)們(men)發(fa)現,“得(de)算(suan)力者得(de)天(tian)下(xia)”已經成為(wei)大模型(xing)時代的特征,跳(tiao)出(chu)(chu)NVIDIA GPU路徑(jing)的新(xin)架構、新(xin)產品越來越多。隨著摩(mo)爾定律逼近極限(xian),現實算(suan)力資源與理想算(suan)力資源之間存在巨大鴻溝,在NVIDIA之外(wai),市(shi)場上(shang)已經涌現出(chu)(chu)更多能夠填補市(shi)場空白的AI芯(xin)片企業,推動市(shi)場呈現“百花齊放”態勢。

從2018年舉辦第一(yi)屆開始發展到(dao)今(jin)天,全球AI芯片(pian)(pian)峰會(hui)至今(jin)已連續舉辦五屆,峰會(hui)目前已經觸達到(dao)了AI芯片(pian)(pian)產(chan)業鏈的(de)設(she)計、EDA、編譯器等多(duo)個核心重要(yao)環節,覆蓋云邊端等全場景(jing)的(de)芯片(pian)(pian)巨(ju)頭和新(xin)銳創企,以及來(lai)自(zi)學術圈和投資界的(de)專業人士。在過去兩天的(de)峰會(hui)中,我們(men)(men)聽到(dao)了頂級AI芯片(pian)(pian)產(chan)學研用及投融資領域專家們(men)(men)的(de)思想交鋒,多(duo)元的(de)精彩觀(guan)點在這里碰(peng)撞。乘風新(xin)技術浪潮,全球AI芯片(pian)(pian)峰會(hui)已經成為國內極少數專注在AI芯片(pian)(pian)領域且具有較大影響力的(de)行業峰會(hui)。

在接下(xia)來幾周里,芯(xin)東(dong)(dong)西將陸續輸出新(xin)鮮的干貨圖文,并放送多個精彩主(zhu)題(ti)演講的圖文速(su)記整理,具體請關注芯(xin)東(dong)(dong)西與智東(dong)(dong)西公眾號推(tui)送內容。