
智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 李水青
智(zhi)東(dong)西7月(yue)15日消息,近日,“大模型六小虎”之一MiniMax新動(dong)向頻(pin)發。
昨日,據晚點報道,MiniMax接近完成近3億美元(折合人民幣約21.5億元)的新一輪融資,投后估值超(chao)過40億美元(折合人民幣(bi)約287億元(yuan)(yuan))。“大(da)模(mo)型(xing)六小虎”中,智(zhi)譜、百川智(zhi)能、月(yue)之暗面估值(zhi)均(jun)超(chao)200億元(yuan)(yuan),零(ling)一萬物、階躍星辰超(chao)100億元(yuan)(yuan)。
上個月,MiniMax前腳宣布啟動“發布周”,一口氣發了推理模型MiniMax-M1、視頻(pin)大模型海螺(luo)02、通用智能Agent MiniMax Agent、端到(dao)端視頻(pin)創(chuang)作Agent海螺(luo)視頻(pin)Agent、語音設(she)計工(gong)具;后腳外媒彭博社就爆料,MiniMax正(zheng)在籌備(bei)赴港(gang)上市。
MiniMax成立于2021年11月,去(qu)年3月獲得(de)6億(yi)美(mei)元(yuan)A輪融資(zi)(zi),當時(shi)估值(zhi)約(yue)為(wei)25億(yi)美(mei)元(yuan)(約(yue)合人民幣180億(yi)元(yuan)),該輪融資(zi)(zi)由(you)阿里巴巴集團領投,紅杉中國、高瓴資(zi)(zi)本參投。此前,騰訊、米(mi)哈游等公司也參與了MiniMax的(de)融資(zi)(zi)。
今日,MiniMax放出了其在7月10日(ri)的(de)M1全球技(ji)術閉門(men)會的(de)技(ji)術實(shi)錄,M1團(tuan)隊與香港科(ke)技(ji)大學、滑鐵盧大學、Anthropic、Hugging Face等技(ji)術人員(yuan),圍繞RL(強(qiang)化學習(xi))訓練、模型架構(gou)創新(xin)、長上下文展開探討,主要干貨信息如(ru)下:
1、針對有限上下文長度,RL能賦予模型新能力;
2、RL訓練可以讓模型獲得范圍廣闊的知識;
3、只在數學和代碼上進行RL訓練,模型更容易產生幻覺;
4、Latent reasoning(隱性推理)可能是讓模型用圖像進行思考的一個方向;
5、Reward Modeling(獎勵建模)、多智能體、AI自動化研究、非token空間推理是RL領域令人興奮的挑戰;
6、長上下文在Agent工作流中有巨大潛力;
7、混合架構將成為主流;
8、大模型領域,脫離硬件的純粹算法研究正逐漸失去關注度。
如今大(da)模(mo)(mo)型(xing)(xing)領域(yu)呈現出激烈的競爭態(tai)勢,DeepSeek等模(mo)(mo)型(xing)(xing)引發行業震動的同(tong)時(shi)使得(de)國(guo)產大(da)模(mo)(mo)型(xing)(xing)格局深度洗牌,大(da)模(mo)(mo)型(xing)(xing)六小虎紛紛調整(zheng)戰(zhan)略求生存(cun),在(zai)此背(bei)景下(xia),MiniMax得(de)到資本(ben)青(qing)睞(lai),拿下(xia)大(da)額融資、被曝(pu)沖刺(ci)IPO,其對(dui)于大(da)模(mo)(mo)型(xing)(xing)在(zai)長文本(ben)處(chu)理(li)能(neng)力(li)、低(di)成本(ben)訓練等方面的有哪(na)(na)些創新(xin)點?這次技(ji)術閉門會有哪(na)(na)些獨到見解能(neng)為業界提供(gong)參考?我們試圖從其精華整(zheng)理(li)中找(zhao)到答案。
一、揭秘M1背后閃電注意力機制,推理模型自我反思的關鍵是高效利用計算資源
今(jin)日放(fang)出的(de)技(ji)術(shu)閉(bi)門會實錄提到,MiniMax研究人員針對MiniMax-M1采用的(de)混合(he)線(xian)性注意力以及推理模型是否已(yi)經具備推理和自我反(fan)思能(neng)力進行了探討。
MiniMax-M1是其發布周最先更新的模型,作為全球首個開源大規模混合架構的推理模型,參數規模達到4560億,每個token激活459億參數,原生支持100萬上下文輸入以及業內最長的8萬token推理輸出,輸入長度與閉(bi)源模型(xing)谷(gu)歌Gemini 2.5 Pro一致,是(shi)DeepSeek-R1的8倍。此(ci)外,研(yan)究人(ren)員(yuan)訓練了兩個版(ban)本的MiniMax-M1模型(xing),其思考預算(suan)分別(bie)為40K和(he)80K。
MiniMax在標準基準測試集上的對比顯示,在復雜的軟件工(gong)(gong)程、工(gong)(gong)具(ju)使用和(he)長(chang)上下文任務方面,MiniMax-M1優于DeepSeek-R1和(he)Qwen3-235B等(deng)開源模(mo)型。
其博客提到,在M1的整個強化學習階段,研究人員使用512塊H800訓練了三周,租賃成本為53.74萬美金(折合人民幣約385.9萬元),相比(bi)其一(yi)開(kai)始(shi)的成(cheng)本預(yu)期(qi)少了一(yi)個數(shu)量級。
M1是基(ji)于MiniMax-Text-01模(mo)型(xing)開發(fa),采用了(le)混合專家(MoE)架構(gou)和(he)閃電注意力機制。
M1的(de)閃(shan)電注意力(li)機(ji)制(zhi)可以(yi)高效(xiao)擴展測試時計(ji)算(suan)。例如,與DeepSeek-R1相比(bi),M1在(zai)10萬個token的(de)生成長(chang)度下只(zhi)需消耗25%的(de)FLOP,使得M1適合于(yu)需要處(chu)理長(chang)輸(shu)入和廣泛(fan)思考的(de)復(fu)雜任務。
對于混合線性注意力會如何影響使用RL的推理模型的性能,技(ji)術(shu)探(tan)討會(hui)中(zhong)提到,在訓練過程中(zhong),當其擴展到可(ke)處理數(shu)萬token上下文長(chang)(chang)度的(de)(de)(de)模型時,遇(yu)到了RL訓練停滯不前,獎勵信(xin)號在僅幾(ji)百(bai)步后就(jiu)不再增長(chang)(chang)的(de)(de)(de)問(wen)題。這與線性注意力(li)架構在這種(zhong)規模下固(gu)有的(de)(de)(de)訓練不穩(wen)定性有關,會(hui)導致某些層激活值(zhi)爆(bao)炸等,并使模型在訓練和推理時的(de)(de)(de)行為出現嚴重錯位。
這使得其發現混合線性注意力的一個根本性權衡:效率極高,單位token的計算成本非常低,但通常需要生成更多的 token(即更長的推理路徑)才能達到與full attention模型相同的性能。其工作證明:通(tong)過(guo)適(shi)當規模(mo)的RL以及合適(shi)的推(tui)理(li)時算力,混(hun)合注意(yi)力模(mo)型能(neng)實(shi)現媲(pi)美Full Attention(全注意(yi)力)架構性能(neng)。
這對未來架構設計的一個關鍵啟示——評估方(fang)法的重要性。為(wei)了公平地比較(jiao)混合模型與其他(ta)模型,研(yan)究人員(yuan)應(ying)該基于(yu)在給定(ding)(ding)任(ren)務下、固定(ding)(ding)總(zong)計(ji)算預算內的(de)性能來進行評估,而(er)不僅(jin)僅(jin)是比較(jiao)固定(ding)(ding)輸出長(chang)度下的(de)效果。
被(bei)問及推(tui)理模型(xing)是(shi)否(fou)已經具備(bei)了System 2推(tui)理和(he)自我(wo)反思能力,研究人員稱,System 2推(tui)理和(he)自我(wo)反思,可以(yi)被(bei)理解(jie)為從大語言模型(xing)基本原理中涌現出(chu)的、可被(bei)觀測的模式。
首先其核(he)心驅動力(li),是(shi)有效利用更大的計算資源來(lai)獲(huo)得(de)更好性能(neng)的能(neng)力(li)。高級推理能(neng)力(li),是(shi)擴展這些(xie)資源后的直(zhi)接結果,而非其根本(ben)原因。本(ben)質上(shang),為模型提供(gong)更多的計算能(neng)力(li)去“思考”,使得(de)這些(xie)復雜(za)的模式得(de)以涌現(xian)。
其次,這(zhe)種高(gao)級(ji)推理可以被看作是一種自(zi)動化(hua)的(de)(de)Prompt Engineering。對于數學(xue)或編程等復(fu)雜任務(wu),模型學(xue)會了生成(cheng)自(zi)己的(de)(de)內部思考過程,這(zhe)實(shi)際上取(qu)代了人類提供詳盡、分步式(shi)指令(ling)的(de)(de)需要。
對于寫作(zuo)等任務,模(mo)(mo)型在思考過(guo)程中會先對問題進(jin)(jin)行(xing)(xing)分析(xi),并(bing)對寫作(zuo)步驟進(jin)(jin)行(xing)(xing)專業(ye)化拆解。它(ta)會獨立地執行(xing)(xing)諸(zhu)如規劃和(he)對問題進(jin)(jin)行(xing)(xing)更深層(ceng)次分析(xi)等操作(zuo)。這使得(de)模(mo)(mo)型能夠(gou)通(tong)過(guo)創(chuang)建(jian)詳細推理(li)路(lu)徑來“像專家一(yi)樣(yang)思考”。
因此System 2推理和自我反思,實質上是如何高效地利(li)用并擴展計(ji)算預算(Computation Budget),同時也是模型自動深化用戶問題(ti)的體現。
二、從MiniMax-M1到大模型產業核心議題:模型架構創新、RL訓練、長上下文應用
從MiniMax-M1出發,MiniMax團隊成(cheng)員與(yu)其(qi)(qi)他(ta)技術專家還探討(tao)(tao)了當下(xia)(xia)大模(mo)型行業的其(qi)(qi)他(ta)核心話(hua)題,如模(mo)型架構(gou)創新、RL訓練、長上(shang)下(xia)(xia)文應用等領域探討(tao)(tao)了當前的前沿話(hua)題,有以下(xia)(xia)8大核心要點:
1、RL訓練可增強有限上下文長度模型能力
首先需(xu)要定(ding)義(yi)模(mo)(mo)(mo)型(xing)的(de)基礎能(neng)力:對于(yu)給(gei)定(ding)上下文(wen)長度的(de)模(mo)(mo)(mo)型(xing),在一組(zu)特定(ding)問題上無(wu)限次嘗試下的(de)通過(guo)率(lv)(pass@k, k→∞)是(shi)多少,如(ru)果通過(guo)率(lv)為1,就表(biao)示這(zhe)個模(mo)(mo)(mo)型(xing)能(neng)解決這(zhe)類問題,通過(guo)率(lv)為0,則表(biao)示模(mo)(mo)(mo)型(xing)解決不了。
如果模型的生成長度,即模型思(si)考過(guo)程的長度無限,RL無法賦予模型新能(neng)力,所有能用自(zi)然語言表述的問題(ti),理論上(shang)模(mo)型(xing)都可以通過有限次的采樣嘗試(shi)來解決。
如(ru)果針對有限上下文(wen)長度,RL能賦予模(mo)型(xing)新能力。因為RL所做的是(shi)(shi)改變模型(xing)輸出(chu)的分布(bu),預(yu)訓練后(hou),模型(xing)可能需(xu)要至少10W tokens才能解(jie)決某個問(wen)題(ti),但經過RL微調后(hou),它可能只需(xu)要10K tokens。如果模型(xing)有限(xian)上下文長(chang)度是(shi)(shi)50K tokens,那么RL的確賦(fu)予了模型(xing)新能力(li)。
在(zai)有限(xian)上下(xia)文長(chang)度下(xia), pass@k是一(yi)個好的衡量(liang)指標。K的取值很(hen)重要,這取決于如何定(ding)(ding)義模型能力,如果定(ding)(ding)義是“模型至少有一(yi)次能解決這個問題(ti)”,那么應該用盡可能大的k來(lai)衡量(liang)pass@k;但如果定(ding)(ding)義是“模型能否(fou)在(zai)4次嘗試內解決問題(ti)”,那應該去衡量(liang)pass@4。
目前Reward(獎(jiang)勵)是RL scaling的核心瓶頸,特別是如何為那些不(bu)基于(yu)結(jie)果的(de)(de)(de)獎勵(Non-outcome-based Reward)進行建(jian)模,比如,人(ren)類(lei)可以從別人(ren)寫(xie)的(de)(de)(de)一段文(wen)字(zi)或反饋中(zhong)獲得正(zheng)面或負面的(de)(de)(de)感受,但目前(qian)并沒有(you)很好的(de)(de)(de)方法(fa)來對這種(zhong)主(zhu)觀感受進行建(jian)模。
2、預訓練的價值在于更多樣化的數據分布
原則上可以,只要有(you)足(zu)夠的信息(xi)源就可以用RL來(lai)替代任何過程。某種意義上,預訓練只是RL的一種特例,任何監督學習都可以被看作是一種特殊的強化學習。現階段,RL訓練階段的數據分布,要比預訓練數據的分布狹窄得多,這正是目前進行預訓練能帶來的最大收益——它讓模型(xing)獲得(de)了范圍遠為(wei)廣闊的知識。
但在當前階段,預訓練的價值在于可以在預訓練階段接觸到更多樣化的數據分布。目前RL研究的核心挑戰之一是如何(he)拓展至Reward清晰的(de)環(huan)境之外。獎勵建模(Reward Modeling)可能是一種解決方案,但更為通(tong)用的獎勵信號依然是行(xing)業在探索(suo)的方向。
3、只在數學和代碼上做RL訓練更易產生幻覺
關于通用推理,至少在今年二月左右,大多數RL數據都來自于數學或編程領域。事實上,只在(zai)數學和代碼(ma)上進行RL訓練,模(mo)型更容易(yi)產生幻(huan)覺(jue)。SimpleQA等事實性(xing)基準、MMLU等多學科問答基準上(shang)模型的性(xing)能(neng)都會顯(xian)著(zhu)下降。
因此研究人員做通用(yong)推理(li)數據(ju)(ju)集的(de)動機之(zhi)一,就是創建更多(duo)樣化的(de)RL訓練數據(ju)(ju)。WebInstruct-verified數據(ju)(ju)集旨在為所(suo)有領域(yu)構(gou)建更大規(gui)模的(de)RL訓練數據(ju)(ju),以便模型(xing)能夠在不(bu)同(tong)領域(yu)取得進步(bu),而不(bu)僅是數學和編(bian)程。
現(xian)在(zai)MiniMax嘗試(shi)進一步擴(kuo)大(da)(da)這個規(gui)模,之前,通(tong)過(guo)在(zai)預訓練(lian)數(shu)據集中(zhong)搜索(suo)可(ke)用的(de)RL數(shu)據來(lai)擴(kuo)大(da)(da)規(gui)模,其已經將其擴(kuo)展(zhan)到50萬量級,現(xian)在(zai)正嘗試(shi)通(tong)過(guo)檢索(suo)更(geng)大(da)(da)規(gui)模的(de)預訓練(lian)數(shu)據集,從中(zhong)獲取越來(lai)越多樣的(de)RL數(shu)據,并(bing)采用在(zai)Mid-training(中(zhong)期(qi)訓練(lian))進行RL的(de)范式,而(er)不僅僅是作為后(hou)訓練(lian)。
4、隱性推理是讓模型用圖像思考的可能方向
目前很多(duo)視(shi)(shi)覺(jue)(jue)推理范式(shi),核心大都(dou)集中在(zai)文本形(xing)式(shi)的(de)思維鏈上(shang)(shang)(shang),視(shi)(shi)覺(jue)(jue)部分固化為一(yi)個ViT(Vision Transformer)編碼器(qi),無法讓模型在(zai)編碼圖像上(shang)(shang)(shang)花費更多(duo)計(ji)算(suan)資源。像視(shi)(shi)覺(jue)(jue)語言模型Pixel Reasoner或其他研究,正試圖幫模型重(zhong)(zhong)新審視(shi)(shi)圖像的(de)特(te)定區域(yu),并對其進行(xing)重(zhong)(zhong)新編碼,從而在(zai)關鍵區域(yu)上(shang)(shang)(shang)投(tou)入更多(duo)算(suan)力。
但這并不是從底層提升模型能力(li)的方(fang)法,現(xian)階段更像(xiang)是權(quan)宜之計。因為現(xian)有的視(shi)覺(jue)編碼器太弱,無法很(hen)好處理高分辨率(lv)圖像(xiang),所以才(cai)嘗試用(yong)其他操(cao)作操(cao)縱圖像(xiang)表(biao)示,然后從輸入中重新(xin)調用(yong)并在此基礎上進行推理。現(xian)階段,重新(xin)調用(yong)幀或高亮(liang)顯(xian)示等工具,實際(ji)上都只是在增強感知能力(li)。
其他更復(fu)雜的(de)(de)圖(tu)像生成技(ji)術等(deng)工具(ju),能從根本(ben)上改變圖(tu)像,其已經超越了單純增強感知的(de)(de)范疇,比如(ru)在(zai)幾何問題中畫輔(fu)助線。這(zhe)種方法如(ru)果奏(zou)效,未來或成為“用圖(tu)像思(si)考”的(de)(de)更強大版本(ben)。
但仍需解決其根本的瓶頸問題:如何更(geng)好地編(bian)碼視覺像素,以及如何以更(geng)好的方式在(zai)(zai)抽象(xiang)潛(qian)在(zai)(zai)空(kong)間(Latent Space)中進行視覺推理。
Latent Reasoning(隱(yin)性推理)可能是一個方向。機器人或具身智能領域的視覺推理需要(yao)在(zai)空(kong)間中思考,在(zai)這些涉及空(kong)間感的場景下,很多推理過(guo)程是隱(yin)式(shi)的,無(wu)法被清(qing)晰(xi)地表述或言(yan)語化。
5、多智能體、AI自動化研究是RL領域挑戰
RL面臨挑戰之一是Reward Modeling,特別是如何超越那些結果容易被評估的環境;另一個可能很重要的領域是多智能(neng)體,多智能體目前更多受限于基礎設施,而非理論研究;另一個領域是AI自動化研究——讓模型自己訓練自己,這與AGI的定義相關,即當模型可以在沒有人類干預的情況下,自我訓練并自我提升;非token空(kong)間的推理也存在機會。
6、長上下文是Agent的破局點
長上下文在Agent工作流中有巨大潛力,Agent完成某個任務時,能將整個代碼庫、API參考文檔、歷史交互數據等等,全部一次性喂給它。這種任務不能分幾次調用來處理,因為智能體完成任務時掌握的關于這個項目的信息越多,產出的質量就越高。
研究人員有望從目前在(zai)大多數情況下,只能(neng)處理(li)相當孤立(li)任務的智能(neng)體(ti),發展到那些能(neng)夠管(guan)理(li)復(fu)雜(za)項目、同時保持(chi)完整上下文(wen)感(gan)知的智能(neng)體(ti)。
M1超長上(shang)下文(wen)模型(xing)(xing)的真(zhen)正價(jia)值在于解鎖了全新的企(qi)業級應用場(chang)景。例(li)(li)如(ru),法(fa)(fa)律行(xing)業客戶需(xu)要把文(wen)件(jian)一(yi)塊(kuai)一(yi)塊(kuai)地喂給(gei)大語言(yan)模型(xing)(xing),并用一(yi)些竅門來優化檢索(suo)和(he)上(shang)下文(wen)管理(li)。這樣問題(ti)在于,可(ke)能錯(cuo)過埋(mai)藏在某個隨(sui)機法(fa)(fa)律文(wen)件(jian)某一(yi)頁中(zhong)的關(guan)鍵細(xi)節。1M token的上(shang)下文(wen)窗口就可(ke)以一(yi)次性處理(li)整個案件(jian)歷史、所有相關(guan)判例(li)(li)以及所有其他信(xin)息源。
7、混合架構將成為主流
對比純線性注意力和Full Attention,混合注意力機制(Hybrid Attention)是最有前景的方案。純線性注意力機制有(you)很(hen)多根本性局限,因(yin)為它的狀態大小是固(gu)定的,因(yin)此,在處(chu)理長序列建(jian)模問題(ti)時表現不佳。
Full Attention雖(sui)然提供了靈活性,但(dan)其代價也(ye)顯(xian)而易見(jian):KV緩存大小會隨著序列長(chang)度(du)(du)線性增長(chang),并且訓練復(fu)雜(za)度(du)(du)也(ye)是平方(fang)級的(de)。當序列不斷變長(chang)時,高(gao)昂的(de)推(tui)理和(he)訓練復(fu)雜(za)度(du)(du)就會成為瓶(ping)頸。
混合架構將會成為模型設計的主流,因為隨著對大規模部署和低延遲需求的增長,人們會越來越關心推理效率和模型的推理能力。未(wei)來(lai)如何進一步拓展混合注意力(li)架構(gou)的(de)空間,研究人員(yuan)可(ke)能需(xu)要(yao)(yao)探索(suo)不是簡單(dan)地用(yong)固定的(de)比例來(lai)交錯堆疊Softmax注意力(li)和線性注意力(li)層,或許需(xu)要(yao)(yao)更多樣的(de)混合架構(gou)形式。
在大模型領域,脫離硬(ying)件的純粹算法研(yan)究(jiu)正逐漸失去關注度。如果一項技術無法(fa)規模化,或(huo)者不能被高效(xiao)地部署,那它就很難獲得關(guan)注、形成勢能。一個(ge)算法(fa)不僅要在(zai)理論上站(zhan)得住腳,還(huan)(huan)必須在(zai)硬件上——尤其是(shi)(shi)在(zai)GPU或(huo)TPU這類加(jia)速器上高效(xiao)運行。如今的算法(fa)研(yan)究者們還(huan)(huan)應該掌握一些底層的GPU編程(cheng)工(gong)具,這才是(shi)(shi)當今在(zai)大模型(xing)領(ling)域做算法(fa)研(yan)究的正(zheng)確方向。
混合架構目前的瓶頸在于基礎設施(shi)。混(hun)合模(mo)型的(de)有(you)效性(xing)在去年(nian)就已經得到(dao)了很(hen)好的(de)驗(yan)證(zheng),但沒有(you)公(gong)司(si)投入更多資金進行(xing)大規模(mo)驗(yan)證(zheng)。
8、混合架構推理速度對現實應用至關重要
在(zai)推理層面,隨(sui)著混(hun)合(he)注意力(li)架構越來越流行,為(wei)(wei)了(le)在(zai)SGLang或其(qi)他推理引擎中充分利(li)用(yong)緩存(cun)感知和緩存(cun)復用(yong)等特性(xing),研(yan)究人員需要為(wei)(wei)普通架構和混(hun)合(he)架構設計統一的(de)抽象層,這樣(yang)才(cai)能簡單地將(jiang)所有優化應用(yong)到混(hun)合(he)模型上。
此外當前MiniMax模型7+1層交(jiao)錯的(de)(de)(de)架(jia)構可能會(hui)帶來(lai)一些工程(cheng)挑戰(zhan),特別是在用計算(suan)圖優化(Graph Optimization)進行部署時,因為不(bu)同層的(de)(de)(de)計算(suan)和(he)內存訪問模式是不(bu)同的(de)(de)(de),這(zhe)會(hui)導致GPU利用率(lv)不(bu)平衡。可能需要用一些技(ji)術來(lai)解決它,比如批處理重疊(die)(Batch Overlapping)或者(zhe)更先進的(de)(de)(de)Pipeline策略。
從支持混合架構的技術層面來說,首先需要一個混合分配器(Hybrid Allocator),有助于管理混合架(jia)構的(de)(de)KV緩存。這(zhe)些狀(zhuang)態的(de)(de)生命(ming)周期與全注意力層的(de)(de)KV緩存并不同步,所以需要設(she)計(ji)如何(he)讓它與現有的(de)(de)緩存機制、預填充、解碼(ma)等環(huan)節協同工(gong)作。
其次,批處理重(zhong)疊(die)(Batch Overlapping)會很有幫助。采用了(le)混合架構后,如果能將(jiang)兩個微批(pi)次(Micro-batches)重疊起來處(chu)理,只要比(bi)例計算(suan)得當,理論上任意(yi)時刻都會有一個微批(pi)次在執(zhi)行計算(suan)密集型的Full Attention 操作,從而最大化GPU利(li)用率。
從生產部署的角度來看,混合架構(gou)的(de)推理速度對現實應用至關重(zhong)要。例如,有一個客戶,需要并發處(chu)理多個幾十萬token的(de)請求。但對于使(shi)用二次方復雜度注意力的(de)傳統模型,在這(zhe)種輸入大(da)小和(he)并發量下(xia),生成(cheng)速(su)度都會變得極慢。
結語:“大模型六小虎”發力
作(zuo)為MiniMax推(tui)出的(de)(de)首(shou)個推(tui)理模(mo)(mo)型(xing)(xing),MiniMax-M1是其在(zai)(zai)模(mo)(mo)型(xing)(xing)架構、算(suan)法創新上(shang)的(de)(de)最(zui)新探索(suo)。未來大語言(yan)模(mo)(mo)型(xing)(xing)在(zai)(zai)測試或推(tui)理階段(duan),往(wang)往(wang)需要動態增加計算(suan)資源或計算(suan)步驟來提升模(mo)(mo)型(xing)(xing)性能,尤其在(zai)(zai)Agent發展加速的(de)(de)當下(xia)(xia),模(mo)(mo)型(xing)(xing)需要進(jin)行(xing)數(shu)十到數(shu)百輪的(de)(de)推(tui)理,同時集成(cheng)來自不同來源的(de)(de)長上(shang)下(xia)(xia)文信息(xi),才能執行(xing)任(ren)務。MiniMax在(zai)(zai)M1上(shang)的(de)(de)技(ji)術探索(suo),對于推(tui)理模(mo)(mo)型(xing)(xing)能力、長上(shang)下(xia)(xia)文處理能力的(de)(de)突破或許(xu)均有可復用性。
與此同時,“大(da)模型(xing)六小虎”之一的(de)月之暗面也(ye)放(fang)出了其最新一代MoE架(jia)構基礎模型(xing)Kimi K2,總參數量(liang)達到1萬億(1T),在預(yu)訓(xun)練(lian)(lian)階(jie)段(duan)使用了“MuonClip”優(you)化器(qi)實現萬億參數模型(xing)的(de)訓(xun)練(lian)(lian)優(you)化。
可以看出,被DeepSeek沖擊的“大模(mo)型六小虎”現(xian)在正在卯足(zu)勁頭,競相(xiang)通過技術創(chuang)新開發更(geng)實用、更(geng)低成(cheng)本(ben)的模(mo)型。
來源:晚(wan)點、MiniMax