
芯東西(公眾號:aichip001)
編輯 |? GACS 2024
2024全球AI芯(xin)(xin)(xin)片(pian)(pian)峰會(GACS 2024)于(yu)9月6日(ri)~7日(ri)在(zai)北(bei)京舉(ju)行,大會由智(zhi)一科技旗(qi)下芯(xin)(xin)(xin)片(pian)(pian)行業媒體(ti)芯(xin)(xin)(xin)東西和(he)硬科技知識(shi)分享社區智(zhi)猩猩發起(qi)舉(ju)辦。在(zai)7日(ri)的(de)主(zhu)會場邊(bian)緣/端側AI芯(xin)(xin)(xin)片(pian)(pian)專場上,云天(tian)勵飛副總(zong)裁、芯(xin)(xin)(xin)片(pian)(pian)業務線總(zong)經理李愛軍以《面(mian)向大模型的(de)國產工藝邊(bian)緣AI芯(xin)(xin)(xin)片(pian)(pian)架(jia)構創新與展(zhan)望》為題(ti)發表演講。
隨著大模型推動物理世界的智能化演進,更多的應用將在邊緣側完成。大模型使邊緣AI場景面臨新的算力挑戰:算(suan)力需求大、帶寬(kuan)要求高(gao)、計算(suan)擴展性強。李愛軍談道,國產工藝邊緣AI芯片要應對挑戰,架構創新是關鍵。
面向大模型所帶來的新的邊緣AI計算場景,云天勵飛研發國內首顆基于國產工藝Chiplet系列化邊緣AI芯片,采用“算力積(ji)木(mu)”的(de)理(li)念,設(she)計了D2D Chiplet/C2C Mesh大(da)模型推理(li)架構,從(cong)芯片設(she)計、制程工(gong)(gong)藝、基板選擇(ze)到封裝測試均用國產(chan)技(ji)術,算力覆蓋8TOPS~256TOPS,滿(man)足大(da)模型落地的(de)個性化需求,可(ke)應用于各類邊(bian)緣(yuan)場景,并且工(gong)(gong)具鏈與軟件棧統一(yi),算法(fa)的(de)部署(shu)落地更便捷。
他預告說,云天勵飛后續將發布基于國產工藝的大模型邊緣推理一體機,提供更有性價比的邊緣(yuan)算力。
▲云天(tian)勵(li)飛副總(zong)裁、芯片業務線總(zong)經理李愛軍
以下是李愛軍演講內容的完整整理:
一、大模型邊緣落地離不開芯片,打造三大產品技術平臺
云天(tian)勵飛創業10年一(yi)(yi)直堅持在邊(bian)緣AI這個(ge)場(chang)景(jing)。今年,大(da)家非(fei)常清楚處于(yu)大(da)模型應(ying)用落地元年,我(wo)(wo)們(men)(men)看到的(de)現(xian)狀是(shi)大(da)模型應(ying)用落地。海量的(de)場(chang)景(jing)一(yi)(yi)定(ding)是(shi)在邊(bian)緣,而邊(bian)緣一(yi)(yi)定(ding)離(li)不(bu)開(kai)芯片(pian),離(li)不(bu)開(kai)芯片(pian)其實有一(yi)(yi)個(ge)繞不(bu)開(kai)的(de)話(hua)題(ti)就(jiu)是(shi)國產(chan)工藝(yi)。如何在當(dang)前國產(chan)工藝(yi)的(de)條(tiao)件下做(zuo)出(chu)能夠滿足大(da)模型邊(bian)緣落地的(de)AI芯片(pian)?這是(shi)我(wo)(wo)們(men)(men)不(bu)可回(hui)避的(de)話(hua)題(ti)。今天(tian)我(wo)(wo)就(jiu)給(gei)大(da)家帶來云天(tian)勵飛基于(yu)這一(yi)(yi)命題(ti)下的(de)一(yi)(yi)些實踐和探索。我(wo)(wo)會(hui)從以下四個(ge)方面闡述(shu)。
云(yun)天勵飛自創業以來深耕邊緣AI,圍繞(rao)著邊緣AI,打(da)造了三個(ge)產品技術的平臺(tai)。
第一個產品(pin)技術平(ping)臺是應用落(luo)地驅動(dong)的(de)算法(fa)平(ping)臺。通過(guo)這個(ge)(ge)平(ping)臺(tai)(tai)我們實現了覆蓋14個(ge)(ge)領域、超過(guo)102個(ge)(ge)種類,300多個(ge)(ge)適合(he)邊緣AI行(xing)業落地(di)的算法,這樣的平(ping)臺(tai)(tai)還支持端云(yun)協同,支持算法在細分場景下(xia)的快速(su)訓(xun)練微調和快速(su)部署,我們在這個(ge)(ge)平(ping)臺(tai)(tai)上也(ye)打造了云(yun)天自己的天書”多模態(tai)大(da)模型(xing)。這個(ge)(ge)大(da)模型(xing)在今年3月28日產品發布會上已經正式對外(wai)發布了。
第二個(ge)平(ping)臺(tai)(tai)是算(suan)法驅動的神經(jing)網絡處理器平(ping)臺(tai)(tai)。在(zai)這(zhe)(zhe)個平臺上實(shi)現高(gao)(gao)效推(tui)理(li)指令級設計(ji),同時完成了(le)四代神(shen)經網絡處理(li)器(qi)的(de)迭代。也是(shi)因為這(zhe)(zhe)么(me)高(gao)(gao)頻的(de)迭代,所以(yi)(yi)我(wo)們可以(yi)(yi)高(gao)(gao)效地支持包括(kuo)卷積神(shen)經網絡,包括(kuo)DV神(shen)經網絡,以(yi)(yi)及新(xin)一代的(de)Transformer計(ji)算方式。在(zai)這(zhe)(zhe)個基礎上,我(wo)們可以(yi)(yi)高(gao)(gao)效支持包括(kuo)視覺大模型(xing)、多模態大模型(xing)和(he)大語言模型(xing)這(zhe)(zhe)類(lei)在(zai)邊緣(yuan)高(gao)(gao)效推(tui)理(li)。
第三個平臺是面(mian)向邊緣(yuan)計算(suan)場(chang)景(jing)芯片(pian)平臺。基(ji)(ji)于(yu)這個(ge)(ge)平(ping)(ping)(ping)臺(tai)(tai),我(wo)(wo)們(men)(men)實現(xian)三代商用(yong)邊緣AI芯片(pian)的迭代,同時(shi)算(suan)力覆蓋從2T到256T的規(gui)模。我(wo)(wo)們(men)(men)在這樣一個(ge)(ge)平(ping)(ping)(ping)臺(tai)(tai)上,也完成了基(ji)(ji)于(yu)國產工藝的D2DChiplet先進封(feng)裝技(ji)術(shu)(shu),我(wo)(wo)們(men)(men)可能(neng)是國內第一個(ge)(ge)能(neng)達成商用(yong)量產階段(duan)的芯片(pian)和平(ping)(ping)(ping)臺(tai)(tai)。同時(shi)在這個(ge)(ge)基(ji)(ji)礎上,我(wo)(wo)們(men)(men)還實現(xian)了C2C Mesh高(gao)效互(hu)聯技(ji)術(shu)(shu)開發。
基于上面的(de)三(san)大平臺,我們從(cong)邊緣(yuan)AI底層的(de)算法(fa),以及(ji)AI處理器(qi)和(he)(he)芯(xin)片(pian)技術的(de)不斷迭(die)代(dai)和(he)(he)創新,支撐了(le)過去10年來云天勵飛推出一(yi)系(xi)列面向邊緣(yuan)AI的(de)產(chan)品。基于這(zhe)些邊緣(yuan)AI產(chan)品,我們也一(yi)步步去探索面向邊緣(yuan)AI行業(ye)應用的(de)各種場(chang)景(jing)。通過這(zhe)些場(chang)景(jing)的(de)探索,我們反(fan)(fan)過來又可以反(fan)(fan)哺(bu)算法(fa)和(he)(he)處理器(qi)、芯(xin)片(pian)的(de)迭(die)代(dai),下(xia)一(yi)代(dai)包括算法(fa),以及(ji)處理器(qi)和(he)(he)芯(xin)片(pian)下(xia)一(yi)代(dai)的(de)迭(die)代(dai)開發。
二、大模型向物理世界演進,垂類大模型解應用場景難題
大模型在(zai)邊緣落地(di)具有哪些挑戰呢?
首先回到過往AI1.0時代,在AI1.0的時代,邊緣場景落地有兩大痛點,第一個是場(chang)景眾多。場景眾多帶來最大的問題是為了滿足場景的需求,需要各種各樣的長尾算法,而長尾算法生產效率出現了投入產(chan)出不成正比的情(qing)況。李(li)愛軍提到,過去10年(nian)以來,有很(hen)多算法創新公(gong)司(si),基本很(hen)難實現盈利,包括我們在內。
另外一個痛點,用于邊緣AI場(chang)景(jing)的(de)芯(xin)片和算力(li)五花八門(men),帶來的問題是什么?邊緣產(chan)品極度碎片化(hua),我們很難有(you)哪一個(ge)場(chang)景下(xia)的(de)哪一個(ge)芯片年用(yong)量突破10萬(wan)(wan)片,甚至是5萬(wan)(wan)片。在這(zhe)樣(yang)的(de)情況下(xia),是很難有(you)做芯片的(de)規(gui)模(mo)效應,或者是邊緣場(chang)景落地的(de)規(gui)模(mo)效應。
大模型出現以后,我們看到了在邊緣AI場景大規模落地,我們覺得有了這個可能性。在過去一年半內,我們看到整個大模型算法在快速向物理世界演進。從2022年(nian)11月(yue)份ChatGPT發布標志(zhi)著語言大(da)(da)模(mo)型突破;到(dao)2023年(nian)3月(yue)份,Stable Diffusion發布,標志(zhi)著圖像大(da)(da)模(mo)型的突破;再到(dao)2024年(nian)2月(yue)份,Sora大(da)(da)模(mo)型出現,進一(yi)步開始理解(jie)物(wu)理世界;一(yi)直到(dao)今年(nian)5月(yue)份,空間(jian)計(ji)算率先提出,同時基于空間(jian)智能(neng)的大(da)(da)模(mo)型也(ye)開始出現,大(da)(da)模(mo)型在進一(yi)步理解(jie)三(san)維的物(wu)理世界。
另外一方面,去年大家在拼基礎大模型,到現在大家開始往行業走,開始真正把大模型往應用落地方向推。出現了各種各樣的垂類大模型,開始真(zhen)正去解決應用場景的問(wen)題(ti)。而大模型(xing)的落地正在快速從云端(duan)往邊緣(yuan)端(duan)發展,現在大家提得最多的就是大模型(xing)邊緣(yuan)節點怎么(me)去構筑。
三、大模型落地邊緣AI芯片迎挑戰,提出“算力積木”新架構解題
大模型落地對我們的邊緣AI芯片帶來了新的挑戰。邊緣應用場景本身有剛性需求,這個需求里面有系統自動化的要求,有人機交互的要求,包括更方便、更便利控制和維護的要求,以及隱私保護的要求。大模型又帶來了(le)新(xin)的計(ji)算范式,以及大參數量、大吞吐、大算力要求。這兩(liang)者結合以后,對我們(men)面向(xiang)大(da)(da)模型(xing)(xing)邊緣AI的(de)(de)(de)落(luo)地(di)提(ti)(ti)出(chu)(chu)了全(quan)新的(de)(de)(de)芯片(pian)要求。包括對于新的(de)(de)(de)計算范式,要具(ju)有高(gao)(gao)(gao)的(de)(de)(de)內存帶寬,以及(ji)高(gao)(gao)(gao)的(de)(de)(de)內存容量。同時,算力要具(ju)有很強的(de)(de)(de)擴展性。為(wei)什么(me)?因為(wei)我們(men)看到在邊緣大(da)(da)模型(xing)(xing)落(luo)地(di),參數有1.8B、1.4B、2.4B,還(huan)(huan)有3B、4B、7B、8B一直(zhi)到13B等一系列。你(ni)如(ru)何(he)能夠提(ti)(ti)供出(chu)(chu)一個(ge)彈性的(de)(de)(de)架(jia)構,可(ke)以使得各(ge)種各(ge)樣的(de)(de)(de)大(da)(da)模型(xing)(xing)在落(luo)地(di)的(de)(de)(de)時候能保證大(da)(da)模型(xing)(xing)高(gao)(gao)(gao)推理實(shi)(shi)時性要求,同時還(huan)(huan)要保證高(gao)(gao)(gao)性價比。這其實(shi)(shi)是對邊緣AI芯片(pian)提(ti)(ti)出(chu)(chu)很高(gao)(gao)(gao)的(de)(de)(de)挑戰,同時還(huan)(huan)要具(ju)備高(gao)(gao)(gao)能效、高(gao)(gao)(gao)實(shi)(shi)時性、高(gao)(gao)(gao)性價比等一系列的(de)(de)(de)特性。
云天勵飛基于國產工(gong)藝(yi)提出了(le)“算力積木”這樣的架(jia)構創新(xin)來(lai)應對(dui)這樣的(de)(de)(de)挑戰。我(wo)們(men)再(zai)回顧一下國(guo)產(chan)工藝(yi)(yi)。我(wo)們(men)看到的(de)(de)(de)是(shi)國(guo)產(chan)工藝(yi)(yi)在(zai)相當長(chang)的(de)(de)(de)一段時間內(nei)可能比國(guo)際工藝(yi)(yi)都要落后兩到三代。我(wo)們(men)如何在(zai)相對(dui)落后的(de)(de)(de)國(guo)產(chan)工藝(yi)(yi)上又實現滿足大模型落地需(xu)要的(de)(de)(de)高性(xing)(xing)能、高性(xing)(xing)價比的(de)(de)(de)邊緣AI芯(xin)片的(de)(de)(de)突破呢?我(wo)們(men)覺得只有在(zai)架(jia)構上進行創新(xin)才是(shi)唯一的(de)(de)(de)出路。
云天勵飛基(ji)于(yu)(yu)國(guo)產工藝(yi)提出的(de)(de)“算(suan)(suan)力積木”架(jia)構,是一(yi)個基(ji)于(yu)(yu)國(guo)產工藝(yi)的(de)(de)D2D Chiplet和C2C Mesh的(de)(de)大(da)模型(xing)推理架(jia)構。我們首先實現(xian)了(le)一(yi)個標準(zhun)化(hua)的(de)(de)大(da)模型(xing)的(de)(de)計算(suan)(suan)單元,這(zhe)個計算(suan)(suan)單元可(ke)以(yi)(yi)(yi)實現(xian)1.8B大(da)模型(xing)的(de)(de)實時(shi)高效(xiao)推理;在(zai)這(zhe)個基(ji)礎(chu)上,通過(guo)D2D Chiplet藝(yi)術(shu)(shu),可(ke)以(yi)(yi)(yi)實現(xian)7B大(da)模型(xing)的(de)(de)高效(xiao)推理;在(zai)此基(ji)礎(chu)上,利用(yong)C2C Mesh技術(shu)(shu),實現(xian)了(le)14B的(de)(de),140億參數高效(xiao)推理;進一(yi)步通過(guo)Mesh Torus架(jia)構可(ke)以(yi)(yi)(yi)實現(xian)高達(da)1000億以(yi)(yi)(yi)上模型(xing)在(zai)邊緣(yuan)端(duan)的(de)(de)推理。這(zhe)樣的(de)(de)架(jia)構可(ke)以(yi)(yi)(yi)滿足邊緣(yuan)算(suan)(suan)力在(zai)保證實時(shi)性的(de)(de)情況下(xia),可(ke)以(yi)(yi)(yi)實現(xian)大(da)模型(xing)對于(yu)(yu)算(suan)(suan)力的(de)(de)擴展性,以(yi)(yi)(yi)及(ji)靈活性的(de)(de)要求。
四、堅持走國產工藝路線,將推大模型邊緣架構推理機
為了(le)實現(xian)這(zhe)樣的(de)方面,我們做(zuo)了(le)很多技術上的(de)創(chuang)新(xin)。我們在標(biao)準化算力單元上面進(jin)行(xing)了(le)以下三(san)個創(chuang)新(xin),實現(xian)大模型(xing)高(gao)效推理。
首先,我(wo)們設計(ji)(ji)了(le)近(jin)存計(ji)(ji)算(suan),通(tong)(tong)過近(jin)存計(ji)(ji)算(suan)可(ke)以實現(xian)Transformer這種計(ji)(ji)算(suan)的超低(di)延時。通(tong)(tong)過可(ke)編程路(lu)由(you)(you)引(yin)擎,我(wo)們可(ke)以實現(xian)高(gao)效分布式的并行計(ji)(ji)算(suan),同時通(tong)(tong)過多路(lu)由(you)(you)協同機(ji)制。可(ke)以有效地提(ti)高(gao)大模型的參數(shu)數(shu)據響應速度,從(cong)而滿足高(gao)效推理的需(xu)要。
我們(men)在Mesh Torus上面,通(tong)過(guo)自(zi)適應(ying)路由機制,能夠實(shi)現(xian)(xian)(xian)減(jian)少(shao)數(shu)據搬運次(ci)數(shu);通(tong)過(guo)減(jian)少(shao)數(shu)據搬運次(ci)數(shu),可(ke)(ke)以有(you)效地降低帶(dai)寬的需(xu)求;通(tong)過(guo)Torus結構,可(ke)(ke)以有(you)效地降低多跳帶(dai)來時延的影響(xiang),從而(er)可(ke)(ke)以提升推(tui)理(li)速度。我們(men)現(xian)(xian)(xian)在可(ke)(ke)以實(shi)現(xian)(xian)(xian)8×16個標準“算力(li)積木”單元的Mesh Torus架構互(hu)聯,可(ke)(ke)以提供(gong)2048Tops統(tong)(tong)一管理(li)智能算力(li)。同時,我們(men)可(ke)(ke)以實(shi)現(xian)(xian)(xian)統(tong)(tong)一的內存管理(li)尋址,容量可(ke)(ke)以達(da)到(dao)512GB。大(da)家知道現(xian)(xian)(xian)在大(da)模型最(zui)大(da)的就是參數(shu)量。如(ru)果沒(mei)有(you)大(da)內存,你想(xiang)做到(dao)很好的推(tui)理(li)是難的。我們(men)還可(ke)(ke)以實(shi)現(xian)(xian)(xian)可(ke)(ke)統(tong)(tong)一調度的內存帶(dai)寬,高達(da)3840GB/s的帶(dai)寬。
基于這樣的(de)(de)(de)一(yi)(yi)些架構上的(de)(de)(de)創新,我(wo)們也推出了國內(nei)首個(ge)基于國產工藝(yi)Chiplet邊緣(yuan)化(hua)的(de)(de)(de)AI芯(xin)片(pian)。這個(ge)芯(xin)片(pian)是全(quan)國產化(hua)的(de)(de)(de)設(she)計,從(cong)設(she)計到工藝(yi)到封裝(zhuang)等。同時也是系列(lie)化(hua)芯(xin)片(pian),算力(li)從(cong)8T到256T范圍,可以滿(man)足邊緣(yuan)場景(jing)各類大模型落(luo)地(di)算力(li)的(de)(de)(de)需(xu)要(yao)。這個(ge)芯(xin)片(pian)還是主控級SoC芯(xin)片(pian),一(yi)(yi)顆芯(xin)片(pian)就可以滿(man)足這個(ge)場景(jing)單芯(xin)片(pian)設(she)備的(de)(de)(de)需(xu)要(yao),不需(xu)要(yao)再加其他的(de)(de)(de)芯(xin)片(pian),集成(cheng)了第四代(dai)的(de)(de)(de)處(chu)理(li)器(qi)。雖然芯(xin)片(pian)是系列(lie)化(hua)的(de)(de)(de),但是我(wo)們工具鏈是統一(yi)(yi)的(de)(de)(de),而(er)且是統一(yi)(yi)的(de)(de)(de)軟件(jian)棧,這樣方便(bian)軟件(jian)的(de)(de)(de)開發和應用。
目前Edge10國產化芯(xin)片平臺(tai)已經支持了主流(liu)(liu)大(da)模(mo)(mo)型(xing),包括(kuo)Transformer模(mo)(mo)型(xing)、BEV模(mo)(mo)型(xing)、CV大(da)模(mo)(mo)型(xing)和各類主流(liu)(liu)的(de)大(da)語言模(mo)(mo)型(xing),還有多模(mo)(mo)態大(da)模(mo)(mo)型(xing)。我們在(zai)(zai)單個(ge)“算力積木”單元(yuan),就是(shi)單芯(xin)片上,可(ke)以(yi)(yi)實現(xian)1.8B模(mo)(mo)型(xing)14.5tokens/s的(de)性(xing)能。在(zai)(zai)Chiplet芯(xin)片上,可(ke)以(yi)(yi)實現(xian)1.8B模(mo)(mo)型(xing),達到55tokens/s的(de)推理性(xing)能。如(ru)果是(shi)7B模(mo)(mo)型(xing),可(ke)以(yi)(yi)實現(xian)30tokens/s的(de)性(xing)能。如(ru)果是(shi)用Edge10做的(de)Mesh Torus的(de)一體機,對70B模(mo)(mo)型(xing)可(ke)以(yi)(yi)有高達60tokens/s的(de)推理。
Edge10芯片現在已經(jing)在邊緣AI各類(lei)場景(jing)下實現商(shang)業化(hua)落地。
我們展望邊緣AI大模型芯片的發展,無論是Gartner的預測,還是ABI的研究,包括IDC的預計,大家的判斷都是一致的。未來大部分的場景數據都將在數據中心之外產生,數據中心之外就是在邊緣端產生。我們認為在大模型和海量數據的驅動下,邊緣AI芯片未來一定會在可見的未來迎來大爆發。邊緣(yuan)AI芯片大爆發最核心的就(jiu)是(shi)(shi)大模型邊緣(yuan)推理(li),它需要具備的,包(bao)括(kuo)大算力、高能效、低延(yan)時(shi)、可(ke)擴展。特別是(shi)(shi)國(guo)產化(hua),在當前(qian)的國(guo)際形(xing)勢下特別重要。
未來,云天勵飛將會推出基于Mesh Torus架構的大模型邊緣推理一體機。以高峰值算(suan)力與突出的(de)(de)能效(xiao)比支持大模型(xing)的(de)(de)單機部署,包(bao)括(kuo)7B、70B、MoE等主流大模型(xing)的(de)(de)邊緣側推(tui)理部署。
我們堅(jian)持走國(guo)產工藝(yi)這個路線。通過(guo)架構(gou)創新的(de)(de)方式,能夠在相對(dui)落后的(de)(de)國產(chan)工(gong)藝(yi)上進行性(xing)能突破,我(wo)(wo)們(men)相比(bi)現在主流的(de)(de)用于大(da)(da)模(mo)型(xing)推(tui)理的(de)(de)一體(ti)機,我(wo)(wo)們(men)可以(yi)做到更(geng)高的(de)(de)性(xing)能、更(geng)高的(de)(de)性(xing)價(jia)比(bi)。即使用國產(chan)工(gong)藝(yi),我(wo)(wo)相信我(wo)(wo)們(men)也可以(yi)給大(da)(da)家(jia)帶來更(geng)高性(xing)價(jia)比(bi)的(de)(de)產(chan)品。