
智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 云鵬
智東西(xi)9月(yue)1日報(bao)道(dao),昨日,美團發布(bu)了其首款(kuan)開源大模型(xing)LongCat-Flash,這是(shi)一款(kuan)擁有5600億個(ge)總參數的MoE(混合(he)專家)模型(xing)。
推理速度是這一模型最大的特點之一。美團稱,這一模型具備快捷連接架構,擴展了計算-通信重疊窗口,實現了每秒超過100個token的推理速度,理論每token輸出時間相比(bi)DeepSeek-V3降低近50%。
智(zhi)東西(xi)的(de)實(shi)測也印(yin)證了這點(dian):我(wo)們要求(qiu)其輸(shu)出(chu)(chu)大(da)約100個token的(de)內容,除去首token延時(shi)后,輸(shu)出(chu)(chu)速度確實(shi)在100 tokens/秒(miao)左右。
LongCat-Flash目前暫時不支持文(wen)件、圖(tu)像(xiang)等多模態內容(rong)的上(shang)傳。網頁端內,提供了聯網搜索功能,但深度思考功能顯(xian)示為“敬請期待”的狀態。
在今年5月的財報電話中,美團創始人兼CEO王興已經透露了LongCat模型的更多信息,他稱,“增強后的模型(指LongCat)現在可以在推理(li)和非(fei)推理(li)模(mo)式之(zhi)間(jian)無縫(feng)切換”,性能接近GPT-4o。王興還在電話會議中定調稱,美團在AI領域的戰略是主(zhu)動進攻,而不是被動(dong)防守,其(qi)AI戰略(lve)包含工(gong)作中的(de)(de)AI、產品中的(de)(de)AI和(he)自研(yan)大語(yu)言模(mo)型。
另據公眾號01 Founder爆料,經過01 Founder與多方信源的交叉確認,LongCat-Flash的訓練并非在英偉達GPU上完成,在其官方技術報告中,美團使用了“數萬個加速卡”的模糊表述,由于(yu)一些(xie)原因,該硬件廠商的具體(ti)名(ming)字(zi)不方便透露。不過(guo),美團對(dui)具體(ti)使用(yong)何種(zhong)GPU尚無官方信息(xi)放出(chu)。
根據美團龍貓團隊分享的技術報告,LongCat-Flash采用了創新的MoE架構,引入零計算專家,減少了在低(di)難度(du)token上浪費的計算資源(yuan),從而提升推理(li)效率。
與DeepSeek-V3.1、Kimi-K2、Qwen3 MoE-2507等頭部開源模型相比,LongCat-Flash在通用領域、編程等場景的能力還有一定差距,但在Agentic工(gong)具調用(yong)、指令遵循等場景中,LongCat-Flash達到了開源(yuan)模型SOTA的水準(zhun)。
這一模(mo)型已經上線Hugging Face、GitHub等(deng)開源平臺(tai),技(ji)術報告(gao)同步發(fa)布。同時(shi),美團也(ye)提供(gong)了LongCat-Flash模(mo)型的(de)網頁版體驗(yan)鏈(lian)接,智(zhi)東西第一時(shi)間(jian)對其(qi)能力進行了體驗(yan)。
Hugging Face地址:
huggingface.co/meituan-longcat
GitHub地址:
github.com/meituan-longcat/LongCat-Flash-Chat
技術報告鏈接:
github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf
網頁版:
longcat.ai/
一、銳評外賣大戰階段性戰況,但算不清小學數學
智東西(xi)對LongCat-Flash的數(shu)學、編(bian)程、搜索、常識等(deng)能力進行(xing)了體驗。LongCat-Flash介(jie)紹,自己(ji)的知識截止時間為2024年6月,在不(bu)開啟聯網的情(qing)況下,它對之后發生的事情(qing)并不(bu)了解。
當(dang)被問(wen)及騰訊元寶這一AI工具的(de)開發者是誰時,LongCat-Flash已經無法給(gei)出正確(que)答(da)案(an),它稱元寶是美團開發的(de)。元寶的(de)發布時間(jian)為2024年5月30號,剛好卡在其知(zhi)識(shi)截止時間(jian)的(de)邊界。
緊接著,我們讓LongCat-Flash完成聯網搜索,整合信息并輸出研報這一常見的工作流,使用的案例是最新的“外賣大戰”,要求LongCat-Flash搜索美(mei)團、阿里和(he)京東三家企業的最(zui)新財報,并對“外賣大戰”做一個階(jie)段性(xing)評(ping)估(gu)。
LongCat-Flash僅搜索了10個(ge)網頁,與其(qi)(qi)他大模(mo)型相(xiang)(xiang)比(bi)數量較少(shao)(shao)。同時,其(qi)(qi)信源構(gou)成較為單一(yi),主(zhu)要(yao)來自百家號,缺少(shao)(shao)對(dui)權威媒(mei)體、公(gong)司(si)(si)官(guan)(guan)網等信源的覆蓋,在明確要(yao)求其(qi)(qi)查詢公(gong)司(si)(si)官(guan)(guan)網后,也未能在引(yin)用(yong)鏈(lian)接中看(kan)到相(xiang)(xiang)關網頁。
其引用的財報數據準確,分析部分基本符合業內對阿里、美團、京東三家外賣大戰的主流觀點。LongCat-Flash的結論中更看好阿里,不過并未提出過多新見解。
在9.8-9.11這類大模型容易“翻車”的簡單算數(shu)上,LongCat-Flash未能幸免。它很快給(gei)出了答(da)(da)案(an),但結(jie)果明顯錯誤。可以看(kan)到,模型沒(mei)有自主驗證結(jie)果的準確性,更像是“拍腦門”給(gei)出了答(da)(da)案(an)。
在計算利息(xi)這類(lei)更為場(chang)景(jing)化的數(shu)學題中,LongCat-Flash能給出(chu)更為全面的分(fen)析(xi)和解題過(guo)程,并最終得出(chu)正確答案。
通用知識場景中,我們讓LongCat-Flash在未開啟聯網搜索(suo)的情況(kuang)下,解釋了(le)“為什么天(tian)空在白天(tian)是藍色的,而在日落時會變紅?”這(zhe)一現象(xiang)。
LongCat-Flash的(de)解(jie)(jie)釋分為三個部分,不僅提供了對白天(tian)、日落時天(tian)空顏(yan)色的(de)解(jie)(jie)釋,還(huan)補充了日出時顏(yan)色與前者(zhe)的(de)區別(bie)。其引用(yong)的(de)理論準確,還(huan)能(neng)用(yong)表(biao)格清(qing)晰(xi)呈(cheng)現,并主動提供了參考(kao)科普資(zi)料(liao)。
在(zai)編程場景(jing),我們讓(rang)LongCat-Flash打造一個以(yi)龍貓為主題的小游(you)戲。模型能按照要(yao)求在(zai)單一HTML網頁中(zhong)實現游(you)戲功(gong)能,但是游(you)戲機制(zhi)設計(ji)得不合理,導致可玩性一般(ban)。
二、采用新穎MoE架構,給專家合作搭建“捷徑”
技術報告(gao)中,美團分享了LongCat-Flash在模型架構設計和多階段訓練流水線的更(geng)多細節。
LongCat-Flash采用了一種新穎的(de)MoE架構(gou),這是模型實現較(jiao)高推理(li)效率的(de)核心。
這一架構(gou)的主要模塊如下:
1、零計算專家(zero-computation experts)
在下一個token預測(ce)任務中,本(ben)身(shen)就存(cun)在計算(suan)負(fu)載的(de)(de)差異性(xing),困難的(de)(de)token(例如推理(li)復雜或語境(jing)模(mo)糊的(de)(de)部(bu)分)需要更(geng)多算(suan)力才能(neng)預測(ce)準(zhun)確,簡單的(de)(de)token(如常見詞(ci)或模(mo)式化(hua)結構)幾(ji)乎不(bu)需要多少計算(suan)。
LongCat-Flash擁(yong)有一種動態算(suan)力(li)資(zi)源分(fen)配機制(zhi),會將部分(fen)相對簡單的token交給(gei)零計(ji)算(suan)專(zhuan)家(jia)處理。這些專(zhuan)家(jia)的特點是直接把輸入原樣輸出,不做任(ren)何計(ji)算(suan),因此不會額外增加計(ji)算(suan)成本。
每個token的激活專家數量會因上下文而異,模型因此能對重要token分配更多算力,對簡單token分(fen)配更少算力,從(cong)而在相同的(de)算力預算下(xia),獲(huo)得更好的(de)性(xing)能。
為了讓模型真正學會這種“因上下文而異”的計算分配,必須對零計算專家的平均使用比例進行細(xi)粒度(du)控制。否則,模型可能會過(guo)度(du)依賴普通專家,而忽視零計算專家,導致資源(yuan)利用效率(lv)低下。
LongCat-Flash給每個專家引入一個專家偏置項(bias),根據(ju)其近期使用情(qing)況動態調(diao)整路由(you)分數(shu)。這些(xie)偏置不影響語言模(mo)型(xing)的主(zhu)要(yao)訓(xun)(xun)練(lian)目標(biao),僅用于保(bao)持計算(suan)資源分布的均衡。同時,LongCat-Flash還通過負(fu)載均衡控(kong)制,確保(bao)了MoE模(mo)型(xing)的高(gao)效訓(xun)(xun)練(lian)。
2、快捷連接架構MoE(Shortcut-Connected MoE,ScMoE)
在(zai)大規模(mo)MoE模(mo)型中,通(tong)信開(kai)(kai)銷仍是主(zhu)要瓶(ping)頸(jing)。傳統(tong)的執行(xing)方式下,專家(jia)并行(xing)需要嚴格的順序流程:必(bi)須先(xian)完成一(yi)次全局通(tong)信,將token路由到對(dui)應(ying)的專家(jia),然(ran)后才(cai)能開(kai)(kai)始計算。這種通(tong)信延(yan)遲會導致設備(bei)利用率不足,從而限制整體系統(tong)吞吐量。
共享專(zhuan)家架構嘗試通過將(jiang)通信與(yu)單(dan)個(ge)(ge)專(zhuan)家的計算(suan)重疊來緩解(jie)上述問題,但由(you)于單(dan)個(ge)(ge)專(zhuan)家的計算(suan)窗口太小,效(xiao)率提升有限。
為突破這一限制,美團提出了快捷連接架構MoE,在層(ceng)與(yu)層(ceng)之間引入跨層(ceng)的(de)捷徑(Shortcut),重新(xin)排序執(zhi)行(xing)流程。這一創新(xin)使得前一層(ceng)的稠密計(ji)算能夠與當前MoE層(ceng)的分發/聚合(he)通信并行(xing)執(zhi)行(xing),形(xing)成比(bi)共(gong)享專家更大的重疊窗(chuang)口。
測試顯示,ScMoE與非ScMoE基線(xian)模型的訓練(lian)損(sun)失曲(qu)線(xian)幾乎相同,說明這種重(zhong)排不會損(sun)害模型性能。
同(tong)時,ScMoE帶(dai)來顯著的效(xiao)率(lv)提(ti)升,更大的重(zhong)疊(die)窗口使(shi)得前(qian)一層計算可以(yi)與當前(qian)MoE通(tong)信階(jie)段完(wan)全(quan)并行,提(ti)升訓(xun)練效(xiao)率(lv)。推理過程(cheng)中,ScMoE啟用單批次重(zhong)疊(die)流(liu)水線,使(shi)得理論每token輸(shu)出時間(jian)相比(bi)頭(tou)部模型(xing)(如(ru)DeepSeek-V3)降(jiang)低近50%。
同時,它還支持不同通(tong)(tong)信模式并(bing)行(xing):節(jie)(jie)點內的(de)張量并(bing)行(xing)通(tong)(tong)信(通(tong)(tong)過NVLink實現(xian))與(yu)節(jie)(jie)點間的(de)專家并(bing)行(xing)通(tong)(tong)信(通(tong)(tong)過RDMA實現(xian))可以完全重疊,最大化網(wang)絡(luo)利(li)用率。
3、可擴展的方差對齊設計
隨著模型規模的擴大,一些在小規模下表現良好的架構可能變得次優,導致模型性能不穩定。通過實驗和理論分析,LongCat-Flash團隊發現模塊內部的方差不匹配是(shi)造成這種問題的關鍵因素。
為此,他們提(ti)出了(le)針對(dui)MLA(Multi-head Latent Attention,多頭注意力)和(he)MoE模塊的(de)方差(cha)對(dui)齊(qi)方法,通過引入了(le)兩(liang)個(ge)尺度(du)修正(zheng)因子和(he)專(zhuan)家初始化的(de)方差(cha)補償,以提(ti)升模型可擴(kuo)展性和(he)穩(wen)定性。
三、模型從半規模版本擴展而來,Agent能力突出
在模型擴展(zhan)與訓練(lian)策略上,LongCat-Flash構(gou)建了一(yi)個完整的穩定(ding)性(xing)與擴展(zhan)性(xing)框架(jia)。
LongCat-Flash團(tuan)隊沒有直(zhi)接在(zai)(zai)數千億參(can)(can)數的模型上反復試錯,而(er)是采用了(le)“以(yi)小推大(da)”的策略:先在(zai)(zai)一(yi)個小規模的模型上系統地搜索學習率、初始化(hua)方(fang)差等參(can)(can)數,然后通過理(li)論推導的規則將這些最佳配(pei)置遷移到大(da)模型中。這種方(fang)法(fa)既節省了(le)大(da)量算(suan)力(li),又能保證超參(can)(can)數在(zai)(zai)大(da)模型中依然合適。
其次,在模型初始化上,團隊通(tong)過“模型增長(chang)”的方式(shi),讓訓練(lian)過程(cheng)更(geng)加平穩。該團隊先(xian)訓練了一個(ge)“半規模(half scale)”的模型,等它收斂(lian)到(dao)一定程(cheng)度后,再把它擴展成(cheng)完整的大(da)模型繼續(xu)訓練。
新的大模(mo)型雖然在(zai)最(zui)初會出現輕微(wei)的波動,但很(hen)快就(jiu)能進(jin)入穩定收斂狀態,最(zui)終表現也明顯優于(yu)完全隨(sui)機初始化(hua)的做法(fa)。
為了進一步保證(zheng)訓練(lian)過(guo)程的穩定性,LongCat-Flash還配備了一套多維度(du)的穩定性方案。
在路由層面,控制(zhi)了不同專家的(de)負載分布,避免出(chu)現有的(de)專家過度繁忙、有的(de)卻長(chang)期閑置的(de)情況(kuang)。
在激活層面,LongCat-Flash引(yin)入了類似“保(bao)險絲”的(de)機(ji)制,對異常大的(de)激活值施加輕微(wei)約束,從(cong)而(er)防止(zhi)訓練突然崩潰。
在(zai)優化器層(ceng)面,LongCat-Flash團(tuan)隊對(dui)Adam的參數做了細致調整,使(shi)其(qi)在(zai)大規模(mo)訓練場景下(xia)依然(ran)數值穩(wen)定。三(san)方面配合,使(shi)模(mo)型在(zai)長時間訓練中都(dou)能保持平穩(wen),不會出現不可恢復(fu)的損失(shi)峰值。
在(zai)訓(xun)練可(ke)靠性上,該(gai)團(tuan)隊還特(te)別(bie)強調了(le)可(ke)復現(xian)性和錯誤檢測。這種嚴(yan)格的精度控制不僅保證了(le)實(shi)驗可(ke)復現(xian),還能幫助(zhu)快速發現(xian)和定位所(suo)謂的“靜默數(shu)據(ju)損壞”(SDC),避免錯誤在(zai)大規(gui)模(mo)分布式系統中被掩蓋。
通過這(zhe)些設計(ji),LongCat-Flash不僅能(neng)在數萬張加速(su)卡上穩定訓(xun)練,還能(neng)保證訓(xun)練結果(guo)可控、可靠,真正實現(xian)了在超(chao)大規(gui)模模型上的穩健(jian)擴展。
在訓練流程上,模型(xing)采用多階段管線。首(shou)先,通過雙階段預訓練(lian)(lian)數據(ju)融合(he),逐步提升推理密集型(xing)數據(ju)(STEM知識與(yu)代(dai)碼(ma))的(de)比例(li),構建(jian)出更適合(he)后訓練(lian)(lian)的(de)基礎模(mo)型(xing)。
在中期訓(xun)練中,模型的上下文被擴(kuo)展(zhan)至128k tokens,并(bing)利用合成數據進(jin)一步增強推理與編程能力。
在后訓練階段,LongCat-Flash團隊針(zhen)對推理(li)、編(bian)程和代理(li)任(ren)務分別設計了數據與方法,尤其是提出多Agent合成框架,從信息(xi)處理(li)、工具復雜(za)度(du)、用戶交(jiao)互三方面生成高(gao)難(nan)度(du)任(ren)務,以鍛煉模(mo)型的Agent能(neng)力。
在訓練基礎設施方面,團隊(dui)進(jin)行了內核優化、分(fen)布(bu)式并(bing)行策略設計以及監控與容(rong)錯機(ji)制的開發,使得模型(xing)能在數萬張加速卡上穩(wen)定(ding)訓練。
結合計算與通信編排、推測解碼、KV緩存優化、量化與調度優化,模型在推理(li)中實現(xian)了每秒超100 tokens的吞吐,并將(jiang)成本控制在0.7美元(yuan)/百萬tokens(約合人民幣5元(yuan))。
LongCat-Flash團隊在(zai)(zai)30項(xiang)基準測(ce)試上評估了模(mo)(mo)型的能力,可(ke)以看(kan)到,Agent任務(wu)是這(zhe)一(yi)模(mo)(mo)型能力的“長(chang)板(ban)”,相較(jiao)DeepSeek-V3.1、Qwen3 MoE-2507和(he)Kimi-K2等國產(chan)開源有(you)明顯(xian)優(you)勢,但在(zai)(zai)編程、數學、推理等方(fang)面還(huan)有(you)提升(sheng)空(kong)間。
結語:主動進攻的美團,要打造AI原生產品
LongCat-Flash技術團隊透(tou)露,此次開源,他們旨在推動高效MoE架構、高質(zhi)量數據(ju)策略以(yi)及自主Agent模(mo)型的(de)相(xiang)關研究,促進(jin)社區在大(da)型語(yu)言模(mo)型領域(yu)的(de)創新(xin)。
財報電話中,美團(tuan)透(tou)露,已經在(zai)利用AI優化現有產(chan)品(pin),并打造全新的AI原生產(chan)品(pin),如(ru)AI運營助(zhu)(zhu)手(shou)等、消費者AI助(zhu)(zhu)手(shou)等。未來,美團(tuan)在(zai)大模型領域(yu)的進(jin)展(zhan),值得(de)持續關注。