
智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 心緣
智(zhi)東西9月12日報(bao)道(dao),今天(tian)凌晨(chen),阿里通義實驗(yan)室正式發布下一代基礎(chu)模(mo)型架(jia)構Qwen3-Next,并訓(xun)練了基于該架(jia)構的Qwen3-Next-80B-A3B-Base模(mo)型,該模(mo)型擁有800億(yi)個(ge)參數僅激活30億(yi)個(ge)參數。
Base模型在Qwen3預訓練數據的子集15T tokens上進行,僅需Qwen3-32B 9.3%的GPU計算資源,針對超過32k的上下文,推理吞吐量可達到Qwen3-32B的10倍以上。
同時,基于Base模型,阿里開源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思維模型(Thinking),模型(xing)支持(chi)原生262144個token上下文(wen)長度,可擴展至1010000個token。
其(qi)中(zhong),Qwen3-Next-80B-A3B-Instruct僅(jin)支持指(zhi)令(非思(si)考(kao))模(mo)式(shi),其(qi)輸出中(zhong)不(bu)生成<think></think>塊;Qwen3-Next-80B-A3B-Thinking僅(jin)支持思(si)考(kao)模(mo)式(shi),為了強(qiang)制模(mo)型進行思(si)考(kao),默認聊天模(mo)板自動包含<think>。
指令模(mo)型的(de)性能表現與參數規模(mo)更大的(de)Qwen3-235B-A22B-Instruct-2507相(xiang)當,思維模(mo)型優于(yu)谷歌閉源模(mo)型Gemini-2.5-Flash-Thinking。
▲指令模型測試基準
▲思維模型測試基準
在架構升級方面,相比阿里4月底的Qwen3 MoE模型,新增了混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的優化,以及提升推理效率的多Token預測(MTP)機制等。
新模型(xing)已在(zai)魔搭(da)社區和HuggingFace開源(yuan),開發者(zhe)們也(ye)可(ke)通過Qwen Chat免費體(ti)驗或阿(a)里云百煉、NVIDIA API Catalog體(ti)驗Qwen3-Next。
開發(fa)者在(zai)Qwen的X評論區稱(cheng)贊其新增的多Token預測(ce)(MTP)機制(zhi),稱(cheng)這是最令(ling)人印(yin)象深刻的部(bu)分。
Qwen Chat地址:
Hugging Face:
魔搭社區:
阿里(li)云百(bai)煉(lian)://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen3
一、指令模型接近235B旗艦模型,推理模型超Gemini-2.5
Qwen3-Next模型支持原生262144個token上下文長度,可擴展至1010000個token。
總的來看在性能方面,指令模型接近阿里參數規模235B的旗艦模型,思維模型表現優于Gemini-2.5-Flash-Thinking。
其基座模型為Qwen3-Next-80B-A3B-Base,僅使用1/10的Non-Embedding激活參數,在大多數基準測試中,性能表現與Qwen3-32B-Base相近。但其總訓練成本為Qwen3-32B-Base的10%不到,并且對于超過32K上下文的推理吞吐是Qwen3-32B的10倍以上。
得益于其新的混合模型架構,Qwen3-Next在推理效率方面,與Qwen3-32B相比,Qwen3-Next-80B-A3B在預填充(prefill)階段,在4k tokens的上下文長度下,吞吐量接近前者的7倍,當上下文長度超過32k時,吞吐提升達到10倍以上。
在解碼(decode)階段,該模型在4k上下文下實現近4倍(bei)的吞吐提升,在超過32k的長上下文場景中能保持10倍以上的吞吐優勢。
具體(ti)來看,其指令模型表(biao)現優于Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,并取得了(le)幾(ji)乎與(yu)參(can)數(shu)規模更大的(de)Qwen3-235B-A22B-Instruct-2507模型相近(jin)的(de)結果。
只有在面(mian)向大模(mo)型(xing)的綜合性(xing)評(ping)測基(ji)準、高難(nan)度數(shu)學(xue)推理基(ji)準AIME25中(zhong)(zhong),指(zhi)令模(mo)型(xing)的表(biao)現略遜色(se)于Qwen3-235B-A22B-Instruct-2507,在編(bian)程、復雜問答與長對話的評(ping)測中(zhong)(zhong)表(biao)現更(geng)好。
Qwen3-Next-80B-A3B-Instruct在(zai)RULER上所有長度的表現明顯優于層(ceng)數(shu)相(xiang)同、注意力層(ceng)數(shu)更(geng)多的Qwen3-30B-A3B-Instruct-2507,甚至在(zai)256k范圍內都超過(guo)了層(ceng)數(shu)更(geng)多的Qwen3-235B-A22B-Instruct-2507。
思維模(mo)型的(de)表現優于預訓練成本更高的(de)Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking,全(quan)面超過了谷(gu)歌的(de)閉源模(mo)型Gemini-2.5-Flash-Thinking,并(bing)在部(bu)分指標上接近阿里最新旗艦模(mo)型Qwen3-235B-A22B-Thinking-2507。
二、混合注意力、MoE、穩定優化、多Token預測加持
研究人員在博客中提到,Qwen3-Next是針對大模型在上下文長度和總(zong)參(can)數兩方面不斷擴展(Scaling)的未來趨勢而設計。
Qwen3-Next采用的是Qwen3 36T預訓練語料的一個均勻采樣子集,包含15T tokens。其訓練所消耗的GPU Hours不到Qwen3-30A-3B的80%;與Qwen3-32B相比,僅需9.3%的GPU計(ji)算(suan)資源,即可實現更優的模型性(xing)能。
這一模型結構相較其4月底推出的Qwen3的MoE模型,新增了多種新技術并進行了核心改進,包括混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的優化,以及提升推理效率的多Token預測(MTP)機制等。
混合注意力機制:用(yong)Gated DeltaNet(線性注(zhu)意力(li))和(he)Gated Attention(門控注(zhu)意力(li))的(de)組合替換(huan)標準注(zhu)意力(li),實現(xian)超長上下(xia)文長度的(de)有效上下(xia)文建模。
研究人員發現Gated DeltaNet相比常用的滑動窗口注意力(Sliding Window Attention)和Mamba2有更強的上下文學習能力, 并在3:1的混合比例下,即75%層使用Gated DeltaNet,25%層保留標準注意力,能一致超過(guo)超越單一架(jia)構,實現性能與(yu)效率的(de)雙重優化。
同時(shi)在保留的標準注意力(li)中,研(yan)究人員進一步引入多項增強設計,包(bao)括沿用先前工作的輸出門控機制,緩解注意力(li)中的低秩問(wen)題,將(jiang)單個注意力(li)頭(tou)(tou)維度從128擴展至256,僅對注意力(li)頭(tou)(tou)前25%的位置(zhi)維度添加旋轉位置(zhi)編碼,提高長度外推效果。
高稀疏度混合專家(MoE):在MoE層中實現極低的(de)激活(huo)比率(lv),大幅減少每個token的(de)FLOPs,同(tong)時保留模型容量(liang)。研究人(ren)員(yuan)的(de)實驗表(biao)明(ming),在使用全局負(fu)載均衡后,當(dang)激活(huo)專家固(gu)定時,持續增加(jia)專家總(zong)參數(shu)可帶來訓練loss的(de)穩定下降。
此前,Qwen3系列的MoE專家激(ji)活比(bi)約為(wei)1比(bi)16,Qwen3-Next實現了(le)1比(bi)50的激(ji)活比(bi)。
穩定性優化(hua):包括零中心化和(he)權重衰減(jian)layernorm等(deng)技術,以(yi)及(ji)其(qi)他(ta)增強穩(wen)定性以(yi)實現(xian)魯棒的(de)預訓(xun)練(lian)和(he)后訓(xun)練(lian)。研究人員發現(xian),注意力(li)輸出門控機制(zhi)能消除注意力(li)池(chi)與極大(da)激活(huo)等(deng)現(xian)象(xiang),保(bao)證模型各部分的(de)數(shu)值穩(wen)定。
多Token預測(MTP):提升(sheng)預訓練模(mo)型性能并(bing)加速推(tui)理(li)(li),Qwen3-Next特別優化(hua)了MTP多(duo)步推(tui)理(li)(li)性能,通過(guo)訓練推(tui)理(li)(li)一致的多(duo)步訓練,進一步提高了實用場景下(xia)的Speculative Decoding接(jie)受率(lv)。