
智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 心緣
智東西9月10日報道,9月5日,中國科學院自動化研究所發布了類腦脈沖大模型“瞬悉1.0”(SpikingBrain-1.0)的技術報告。SpikingBrain-7B開源模型(xing)僅用主流大模型(xing)2%的預訓練數據,就實現了(le)Qwen2.5-7B 90%的性能(neng),并與Llama-3.1-8B等眾多(duo)開(kai)源Transformer模型相媲美的性能。
中科院自動化研究所稱,這是我國首次提出大規模類腦線性(xing)基(ji)礎模型架構,也是我國首次在國產GPU算力集群上構建類腦脈沖大模型的訓練和推理框架。
SpikingBrain訓練和推理的全過程均在國產算力上完成,使用的是由沐曦股份曦云C550 GPU組成的集群。在訓練過程中,集群連續運行(xing)2周未中斷,這也證(zheng)明了構建(jian)國產自主可控的(de)新型(xing)(xing)非Transformer大模型(xing)(xing)架構生態的(de)可行性(xing)。
除了極高的數據效率之外,SpikingBrain還在推理效率上實現數量級提升。在100萬個token上下文場景下,SpikingBrain-7B生成首個token的耗時,比Qwen2.5-7B降低了96.2%。
這一特性也使得SpikingBrain尤(you)其適合超長序(xu)列處理任務,如在(zai)法律和(he)醫(yi)學文(wen)檔分(fen)析(xi)、復雜多(duo)智能(neng)體模擬、高能(neng)粒子(zi)物理實驗、DNA序(xu)列分(fen)析(xi)、分(fen)子(zi)動力學軌跡等。
在能耗方面,該模型的平均乘加運算能耗相比傳統FP16和INT8運算,分別降低了97.7%和85.2%。
▲SpikingBrain-1.0技術報告
SpikingBrain-1.0共(gong)有(you)7B參(can)數量和76B參(can)數量兩個版(ban)本(ben)。9月(yue)3日(ri),7B版(ban)本(ben)的模型已在GitHub、魔(mo)搭等平臺開(kai)源。76B版(ban)本(ben)的模型暫(zan)未(wei)開(kai)源,但提供了體(ti)驗鏈接。
▲SpikingBrain-1.0體驗界面
開源地址:
//github.com/BICLab/SpikingBrain-7B
技術報告:
//github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf
體驗鏈接:
//controller-fold-injuries-thick.trycloudflare.com/
一、Transformer遇上效率瓶頸,從人類大腦找靈感
為什么需要新型非Transformer架構的大模型?打造SpikingBrain的聯合團隊認為,Transformer架構面臨一個固有缺點:訓練計算開(kai)銷隨序(xu)列長度呈平方級增長,推理時的顯(xian)存占用也隨序(xu)列長度線性增加,帶來海量資源消(xiao)耗。這限制(zhi)了模型處理超長序列(lie)(100萬個(ge)token以上的(de)(de)序列(lie))的(de)(de)能力。
Transformer架構本質上依賴“外生復雜性(xing)”,即通(tong)過堆疊(die)更多(duo)神(shen)經元和(he)更大(da)規模計算來提升智能水(shui)平(ping)。與(yu)此(ci)對(dui)比,人腦以極(ji)低(di)的(de)能耗(約(yue)為20W)實現了(le)高度(du)復雜的(de)智能,其神(shen)經元具有豐富(fu)的(de)內部動力學與(yu)多(duo)樣性。
這意味著大模型或許存在另一條“內生復雜性”的(de)發(fa)展路徑,通過充(chong)分(fen)利用生物(wu)神(shen)經網絡在神(shen)經元(yuan)和神(shen)經環(huan)路上(shang)的(de)結(jie)構和功能特性(xing),打造(zao)下一(yi)代模型架構。
低(di)(di)功耗(hao)脈沖神經網絡(SNN)方(fang)(fang)案(an),被學界認為是通往更通用AI系統的新(xin)一代(dai)低(di)(di)功耗(hao)類腦神經網絡方(fang)(fang)案(an)之一。其工作方(fang)(fang)式與大腦類似,只在需要的時候發送信(xin)號,因此功耗(hao)較低(di)(di)。
研(yan)究發現,復雜的(de)脈沖神(shen)經(jing)(jing)元(yuan)可(ke)以用幾個(ge)小神(shen)經(jing)(jing)元(yuan)組合來(lai)實現同(tong)樣(yang)的(de)效(xiao)果,這讓構建高效(xiao)的(de)類(lei)腦網絡成(cheng)為可(ke)能。
基于上述理論研究,SpikingBrain團隊在模型架構中集成了混合高(gao)效注意力、MoE模塊(kuai)和脈沖編碼(ma)三大核心組件。
1、混合高效注意力
注意(yi)力機(ji)(ji)制是大語言模(mo)型的(de)核心計算(suan)單(dan)元。SpikingBrain整合了不同注意(yi)力機(ji)(ji)制的(de)優勢,7B版本模(mo)型采用層間混合的(de)線性注意(yi)力與SWA,兼(jian)顧(gu)全局(ju)(ju)信息檢(jian)索(suo)和(he)局(ju)(ju)部依(yi)賴(lai)。
而更大規(gui)模的SpikingBrain-76B則(ze)使用層內并行混合,將線性、SWA與(yu)全量(liang)softmax注意(yi)力結合,同一(yi)層中并行運行多種注意(yi)力機制(zhi),可高(gao)效處理全局信息(xi)、局部依賴(lai)和長(chang)程依賴(lai)。
▲SpikingBrain整(zheng)體模型架構(gou)
2、混合專家模塊
SpikingBrain從Qwen2.5-7B-Base(稠密模(mo)型)擴(kuo)展而來。為了(le)在現有(you)稠密模(mo)型的(de)基(ji)礎上高效擴(kuo)展,得到稀疏的(de)混合專家(jia)模(mo)型,SpikingBrain團隊(dui)使用了(le)上采(cai)樣(yang)(Upcycling)技術(shu)。
這(zhe)一(yi)方法的核心是通過參數(shu)復制和輸(shu)出縮放,使擴展后(hou)的模型(xing)在初始(shi)狀態下與(yu)原模型(xing)保持一(yi)致(zhi),從(cong)而避免性(xing)能損失。
3、脈沖神經元
脈沖神(shen)(shen)經(jing)元(yuan)(yuan)是脈沖神(shen)(shen)經(jing)網絡的基本(ben)單元(yuan)(yuan)。工程(cheng)應用中(zhong)常見的LIF(Leaky Integrate-and-Fire)模型,能在一(yi)定(ding)程(cheng)度(du)上模擬生物神(shen)(shen)經(jing)元(yuan)(yuan)的核心特性。但LIF存在神(shen)(shen)經(jing)元(yuan)(yuan)過(guo)度(du)沉默(mo)或過(guo)度(du)激活問題(ti),從(cong)而影響模型精度(du)與能效的平衡。
為(wei)解決這些問題,SpikingBrain團隊提(ti)出了自適應閾值(zhi)脈(mo)沖神(shen)經元(Adaptive-threshold Spiking Neurons),可保(bao)持神(shen)經元適度激活,避免過度興奮或靜息(xi)。
二、3個環節完成模型轉換,全面適配國產GPU集群
在訓練(lian)過程中(zhong),SpikingBrain團隊將Qwen2.5-7B-Base轉(zhuan)換為類(lei)腦脈(mo)沖大模型,主要(yao)包含3個環(huan)節。
持續預訓練和長序列擴展中,模型使用了約150B tokens的數據,將序列長度從8K逐步擴展至128K。其(qi)訓(xun)練數(shu)據量僅(jin)占從頭訓(xun)練所需的2%,實現了高效模型轉(zhuan)換(huan)。
監督微調環節中,通過(guo)使用(yong)(yong)不同領域的(de)數據集(ji)以及由DeepSeek-R1蒸餾得到的(de)高質量推理數據集(ji),模型(xing)在通用(yong)(yong)知識、對話(hua)和推理等方面的(de)能力(li)逐步提升。
之后(hou),模型還(huan)需要(yao)經過脈沖(chong)化編碼。受生物神經系統啟發,SpikingBrain團隊提出將(jiang)大模型的(de)連續激活值轉(zhuan)換為整數脈沖(chong)序列的(de)策略。
在推理階段,整(zheng)數脈(mo)沖計數會被展開成(cheng)稀疏脈(mo)沖序列,以適配事件驅動(dong)計算(suan)。
SpikingBrain提供三(san)種編碼方式(shi):二(er)值(zhi)脈(mo)沖(chong)簡單低能(neng)耗;三(san)值(zhi)脈(mo)沖(chong)支持類似生物(wu)神經系統(tong)的興奮-抑制調控,減(jian)少時間步(bu)和脈(mo)沖(chong)總數;二(er)進制脈(mo)沖(chong)可在(zai)高計數場景下(xia)顯著降低計算量和能(neng)耗。
▲三種脈沖方案示意圖(tu)
上述脈沖(chong)化方案(an)可在(zai)GPU上兼容運行,但GPU無(wu)法完全利用脈沖(chong)信(xin)號“事(shi)件(jian)驅動(dong)、稀疏異步”的核(he)心(xin)優(you)勢。要完全釋(shi)放本方案(an)的低(di)能耗潛(qian)力(li),需要結合專用異步硬件(jian)(如類腦芯片、脈沖(chong)處理器)。
SpikingBrain仍然選擇了在國產沐曦GPU集群上進行訓練,沐曦軟件平臺通過MoE優化、計算通信并行、顯存優化、算子融合和(he)自動(dong)調優等手段實現適配。
這一適配(pei)過程(cheng)包括Triton適配(pei)、CUDA向MACA(沐曦(xi)兼容CUDA的(de)軟件棧)框(kuang)架遷移兩部(bu)分(fen)。這兩條路(lu)徑針(zhen)對模型(xing)內部(bu)不同算子進行優化,結合形成適用于沐曦(xi)GPU的(de)硬件適配(pei)方案。
▲沐曦平臺上的CUDA和Triton算子(zi)適配(pei)
在(zai)適配過程中(zhong),下游用(yong)戶可(ke)以在(zai)保持原(yuan)有編程習慣和接口調(diao)用(yong)方式的前(qian)提(ti)下使用(yong),無需對(dui)模型代碼進行(xing)大量修改。同時,平(ping)臺(tai)提(ti)供調(diao)試和性能(neng)分析工(gong)具,便(bian)于(yu)開發(fa)者觀察模型在(zai)硬件上的執行(xing)情況,并進行(xing)必要(yao)的微調(diao)和優化。
訓(xun)練大型(xing)(xing)語言模型(xing)(xing)通常超出單個(ge)(ge)GPU的顯(xian)存容量,因此,SpikingBrain團(tuan)隊結合數據并(bing)行(xing)、流(liu)水線并(bing)行(xing)、專(zhuan)家并(bing)行(xing)和(he)序列并(bing)行(xing)等分布(bu)式訓(xun)練技術,將計算和(he)存儲(chu)負載分散到多個(ge)(ge)GPU上。
三、恢復基座模型9成性能,集群連續運行2周未中斷
在下游任務評測中,SpikingBrain-7B在多個基準測試上恢復了基座模(mo)型Qwen2.5-7B約90%的(de)性能(neng),整體水平與Mistral-7B、Llama-3-8B等(deng)先進(jin)Transformer模型相(xiang)當,表明高效線性注意力在降(jiang)低推理復雜度的(de)同時仍能保持較強的(de)建模能力。
SpikingBrain-76B混合線性MoE模型幾乎完全恢復了基(ji)座模型性能。
經(jing)過(guo)三階段SFT對(dui)齊訓(xun)練后,SpikingBrain-76B在(zai)通(tong)(tong)用(yong)知識(shi)、長序列(lie)建模及指令跟隨能力(li)上,與同量級開源對(dui)話模型(xing)相當,同時保(bao)持預訓(xun)練獲得的通(tong)(tong)用(yong)能力(li),未出現過(guo)擬(ni)合現象,顯示了架構在(zai)對(dui)齊訓(xun)練中的穩定性和可(ke)擴展(zhan)性。
在長(chang)序列推(tui)理場景中,SpikingBrain-7B模型在100萬個token長(chang)度下TTFT(生(sheng)成第一個Token所需時間)相比Transformer架構(gou)加速達到26.5倍,400萬Token長(chang)度下加速超過100倍。
訓練(lian)性能(neng)方面,7B模型在128K序(xu)列長(chang)度(du)下的(de)訓練(lian)吞吐量為Qwen2.5-7B的(de)5.36倍(bei),這(zhe)與推理性能(neng)提(ti)升基本一致(zhi)。
同時在手機CPU端64K、128K、256K長度(du)下,SpikingBrain較Llama3.2的同規模模型推理速(su)度(du)分別提(ti)升4.04倍、7.52倍、15.39倍。
SpikingBrain-7B在訓練過程中的每(mei)秒每(mei)GPU處理(li)token量(liang)達到(dao)1558個(ge),模型FLOPs利(li)(li)用率(lv)達23.4%,顯示了較(jiao)高計(ji)算效率(lv)和資源利(li)(li)用率(lv)。集(ji)群在連續兩周運行期間未發生(sheng)(sheng)中斷,體(ti)現了國產硬件(jian)和軟件(jian)生(sheng)(sheng)態系統的可靠性(xing)和魯棒(bang)性(xing)。
脈(mo)沖(chong)統計顯示,7B版本模型實現了超過69.15%的(de)稀疏度,長序(xu)脈(mo)沖(chong)占比(bi)約(yue)1.85%,這為低(di)功耗的(de)類腦大模型運行提供有力支撐。
結合異步事件驅動硬件計算,平均乘加運算能耗相比FP16和INT8,分別(bie)實(shi)現97.7%和85.2%的能(neng)耗降低。這(zhe)表明,將脈沖驅動計算與(yu)量化相結合,能(neng)夠有(you)效大幅降低能(neng)耗開銷,同時做到精度損失(shi)可控(kong)。
四、一手體驗76B版本生成效果,在小球彈跳上翻車了
在官方試用(yong)網頁中(zhong),智東(dong)西對SpikingBrain-76B模型(xing)的能力進(jin)行(xing)了一手體驗。在這一網頁中(zhong),模型(xing)的最大生成長度(du)被限制為大約8000個token及以下,超過后(hou)會直(zhi)接(jie)中(zhong)止回答(da)。
▲SpikingBrain-76B模型的高級參數設置頁(ye)面(mian)
我們首先(xian)讓SpikingBrain-76B介紹(shao)一下“何為(wei)類腦脈沖大模型”,這主要是為(wei)了考察SpikingBrain-76B的理解與(yu)表(biao)達能力和(he)世界知識儲備(bei)。
由于(yu)使用了DeepSeek-R1蒸餾(liu)得(de)到的高(gao)質量推(tui)理(li)數(shu)據集(ji),SpikingBrain-76B的思維鏈(lian)風格與DeepSeek-R1頗為接近(jin),同樣擁(yong)有許多口語化表(biao)達(da)。
SpikingBrain-76B給出(chu)的(de)回(hui)答結構(gou)清晰,內容也基本正確。不過,它稱Transformer能效比要優于類腦脈沖大(da)模型,這(zhe)與學界的(de)主流觀點是相悖的(de)。
在(zai)小球彈(dan)跳這(zhe)一(yi)考驗模型編程與物理規律理解力的題目上,SpikingBrain-76B有點“翻(fan)車了(le)”。它打造的網頁十分原始(shi),小球也未(wei)能在(zai)六(liu)邊形內自然彈(dan)跳,而是卡在(zai)了(le)畫(hua)面正中(zhong)央。
我們還讓SpikingBrain-76B回答了9.8-9.11這樣的算術題。在(zai)2048個token的最(zui)大生(sheng)成長度(du)設定下(xia),模型直接提示思考長度(du)超過生(sheng)成限制(zhi)。
當最大(da)生成長度被設置為約8000個token時,SpikingBrain-76B通過列豎式給出了正(zheng)確回答。
中國(guo)科學院自動化(hua)研究所(suo)在(zai)網(wang)頁上提示道,模(mo)型在(zai)訪問高(gao)峰時(shi)反應較慢。在(zai)我們的實際體驗(yan)過(guo)程中,一輪對話往往要20秒左右(you)才能完成。
結語:大模型全棧國產自主可控再添進展
目前(qian),國內(nei)已有多(duo)家企業(ye)和(he)高校探索(suo)了非Transformer的(de)模型架構,除了中國科學院(yuan)自(zi)動化研究所本次發(fa)布(bu)的(de)SpikingBrain之外(wai),上海(hai)交通大學也曾打造一款腦啟(qi)發(fa)大語言模型,采(cai)用“信(xin)號(hao)全連接流動”機制模擬人腦的(de)語義(yi)編碼和(he)信(xin)號(hao)傳播方(fang)式。
這(zhe)類受大腦計算方式啟(qi)發(fa)的模型架構,在計算效率上與(yu)Transformer架構相比有(you)明顯優勢(shi),在與(yu)國產算力硬件結合后,有(you)望走(zou)出一條大模型國產自主(zhu)可控的新(xin)路徑。