
智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 | ?漠影
最(zui)近(jin)幾周(zhou),國產(chan)開(kai)源模型迎來一波集中爆(bao)發,互聯網(wang)大廠(chang)和AI獨(du)角獸們紛(fen)紛(fen)甩(shuai)出自家的開(kai)源王炸,接力登頂全(quan)球(qiu)開(kai)源模型榜(bang)首(shou)。而就在(zai)本周(zhou),又(you)有(you)一款國產(chan)開(kai)源模型火爆(bao)全(quan)網(wang)。
這一模型來自素有“中國OpenAI”之稱的智譜,是其最新一代旗艦模型GLM-4.5。發(fa)布時機也(ye)十(shi)分湊巧——剛(gang)好(hao)卡在網傳的OpenAI的GPT-5發(fa)布之前,同(tong)樣主(zhu)打推理、編程、智(zhi)能體等能力(li)。
不過,智譜已經憑借開源搶占了先機,在國內外提前收獲了一波流量,官宣推文獲得77萬+閱讀,還獲得開源托管(guan)平臺HuggingFace CEO的轉發支持(chi)。
發(fa)布后不到48小時(shi),GLM-4.5已經(jing)沖上了HuggingFace趨(qu)勢榜第一名,成為全球最受關注的(de)開源模型之一,GLM-4.5-Air則位列第六(liu)。硅谷BenchmarK風投公(gong)司合伙人Bil Gurley發(fa)文稱:中國開源AI模型所產生的(de)組合效應非常強大,模型之間都可(ke)以互相改進(jin),新模型的(de)推出也更為容易。
值得注意(yi)的是(shi),在WAIC前后(hou),中國大模(mo)(mo)型的開源相繼“出(chu)圈”,月之暗面的K2、阿里的多款模(mo)(mo)型均有不(bu)俗表現,之后(hou)智譜GLM模(mo)(mo)型接力。就(jiu)在今(jin)天,Hugging-Face開源模(mo)(mo)型榜(bang)單(dan)前10名幾乎全是(shi)中國大模(mo)(mo)型,CNBC認為,中國企(qi)業正在研發的人工智能模(mo)(mo)型不(bu)僅智能化水平提升,使用成(cheng)本也持續降低(di)。
更有一位海外AI博主制作了一張形象的梗圖,形容當前AI競爭格局的演變:全球AI大模型現已分裂為以中國模型為代表的開源派,與美國模型為代表的閉源派。近期,繼DeepSeek、Qwen之后,Kimi、GLM等國產模型也相繼重磅開源,給中國開源模型再添猛將,仿佛形成了中國AI“開源四杰”,與國際上的GPT、Claude、Gemini、Grok組成的?“閉源四強”分庭抗禮。
GLM-4.5定位為融合推理、編碼和智能體能力(li)的智能體基座模型,在涵蓋推理、編程、智能體等場景的12項基準測試中,GLM4.5的綜合性能取得了全球開源模型(xing)SOTA(即排(pai)名第一(yi))、國產(chan)模型(xing)第一(yi)、全球模型(xing)第三的成績。
榜單之外,智譜還在真實場景中測試了模型的智能體編程能力,平行比較了Claude-4-Sonnet、Kimi-K2、Qwen3-Coder等模型。為確保評測透明度,智譜公布了上述測試中涉及的全部52道題目及Agent軌跡,供業界驗(yan)證復(fu)現。這點也獲得網友們(men)的贊許(xu)。
同時,智譜為模型提供了極具性價比的API定價,API調用價格低至輸入0.8元(yuan)/百(bai)萬(wan)tokens、輸出2元(yuan)/百(bai)萬(wan)tokens;高速(su)版最高可(ke)達100 tokens/秒。此(ci)外(wai),用戶也可(ke)在智譜清言和z.ai上免費使用滿血(xue)版的GLM-4.5。
近期,智東西已對(dui)GLM-4.5的多項(xiang)能力進行了深度體驗,這款(kuan)模型在實際生產(chan)場景中(zhong)的效用令人驚喜。
體驗鏈接:
//chatglm.cn
//chat.z.ai/
模型倉庫:
//huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
一、GLM-4.5一手實測:一句話打造完整數據庫,思考過程簡潔明晰
目(mu)前,已有(you)許多國內外網(wang)友上手體驗GLM-4.5模型,用(yong)它打造AI私(si)人(ren)健身教(jiao)練、生成網(wang)頁游戲(xi)、3D動畫等,其編程能(neng)力、完成長序列復雜任務的能(neng)力給人(ren)留(liu)下深刻印象。
這得益于GLM-4.5本次主打的智(zhi)能體能力(li)。相較于傳統的問答、摘要、翻譯等靜態任務,智能體任務對模型提出了更加嚴苛且立體(ti)的能力(li)要求。集中展現了(le)大(da)模型(xing)在感知(zhi)、記憶(yi)、規(gui)劃、執(zhi)行等方面的關鍵(jian)要素,也為后續(xu)多維能力提供(gong)了(le)基礎。
智能體往往面向開放式環境,需要模型具備持續感知、長期規(gui)劃與(yu)自我修正能力。同時,智能體任務是一種復合流程,不僅涉及語言處理能力,還要求模型統籌調用工具、執行代碼、操控接口,甚至進行多輪交互協作,真正考驗模型的綜合調度能力。由此可見,智能體任務不僅是一種普通的任務形態,也可以說是一種“壓力測(ce)試”。
全棧開發便是一種典型的智能體任務。為測試相關能力,智東西向GLM-4.5提出了一項較為完整的開發任務——使用PHP+MySQL打造一個具有增刪改查功能中英雙語的術語庫。這項任務的難點之一在于,模(mo)型(xing)需(xu)要自行規劃項目的(de)框架(jia)、明晰功能(neng)需(xu)求、數據庫(ku)具體(ti)設(she)計等元素(su),如真正的(de)工(gong)程師一般全面(mian)思考、解決(jue)問題(ti)。
智東西也曾將類似的題目交給其他模型,不過,許多模型都無法對(dui)項目(mu)框架(jia)進行合理規劃,甚至選擇在一個網頁文件中開發所有功能。因此,最終交付的結果無法部署在生產場景,更別(bie)提(ti)進(jin)一步修改、擴展了。
令(ling)人驚喜的(de)(de)是(shi),GLM-4.5交(jiao)付的(de)(de)結果較為(wei)完整,實現(xian)了(le)既(ji)定的(de)(de)功(gong)能,并且速度較快(kuai),2分鐘左右便(bian)完成了(le)3個核心頁(ye)面的(de)(de)開發(fa),最終(zhong)部署的(de)(de)效果如下:
這一結果或許得益于GML-4.5正式開始生成代碼前清晰的思考過程:它(ta)準確(que)地判斷(duan)了(le)項目性(xing)質,也(ye)明白應該生成哪(na)些文件,這為后續的開發提(ti)供了明確的指引。思(si)考(kao)過程也(ye)不拖泥帶水,看上(shang)去簡潔清(qing)晰。
▲部分(fen)對話記錄://chat.z.ai/s/50e0d240-2034-407b-a1b3-94248dd5f449
智(zhi)譜的官方Demo則展示了GLM-4.5的更多能力(li),例如,它(ta)可以根據(ju)用戶需(xu)求,準確地復刻YouTube、谷歌、B站等(deng)網站的UI界面,可用于Demo展示等(deng)需(xu)求。
▲對話(hua)記錄://chat.z.ai/s/01079de2-a76d-41ee-b6ee-262ea36c4df7
或(huo)是打造一個讓用戶自主設計迷宮,系統查找路(lu)徑的(de)網頁。
▲對話(hua)記錄//chat.z.ai/s/94bd1761-d1a8-41c9-a2f4-5dacd0af88e9
這種全棧能(neng)力(li)不(bu)僅能(neng)用(yong)于實(shi)際生產場景,拿(na)來整(zheng)活兒(er)也是不(bu)錯的(de)。智(zhi)譜官方(fang)打造(zao)了一(yi)個量子功德箱,能(neng)實(shi)際互動,并將數據保(bao)存到后臺。
不過,GML-4.5開發上述項目的過程或許更值得深入探討。翻看智能體的執行軌跡,可以看到,在與開發工具結合后,GLM-4.5可以更為(wei)端到端地完成任務。它先是(shi)創造了待辦清單,然后逐步完成任務,總結開(kai)發進(jin)展,并在用戶提出修(xiu)改意(yi)見時,進(jin)行(xing)全面的核查(cha)和調試。
▲對話記錄://chat.z.ai/s/1914383a-52ac-48b7-9e92-fa105be60f3e
GLM-4.5還在PPT制作這一場景展現出不(bu)錯的(de)能力。它可以按照用戶指定的(de)頁(ye)數(shu)、內容等打(da)造(zao)完(wan)整、美觀的(de)PPT,并結合搜索工具(ju)豐富PPT的(de)視覺體驗。例如,下圖中,GLM-4.5為傳奇短跑(pao)運(yun)動員博爾特打(da)造(zao)了一份職業生涯回(hui)顧PPT。
▲對(dui)話記錄://chat.z.ai/s/544d9ac2-e373-4abc-819b-41fa6f293263
我們已經在(zai)上述(shu)多個案例中直觀感受到(dao)了(le)GLM-4.5的能力(li)。那么,這款模型(xing)背后(hou)究竟依靠哪些(xie)技(ji)術(shu)創新,才能實現(xian)如(ru)此(ci)表(biao)現(xian)?對此(ci),智譜(pu)在(zai)同期(qi)發(fa)布的技(ji)術(shu)博客(ke)中給(gei)出了(le)答案。
二、參數效率實現突破,兼容多款編程智能體
GLM-4.5在訓練流程整(zheng)體(ti)分三步走(zou),從底層架構、任務選擇到(dao)優(you)化策略,每(mei)一階段逐步推(tui)動模型能力提升。
首先在(zai)預訓練階段,GLM-4.5系列模型借鑒(jian)了DeepSeek-V3的(de)MoE架構(gou),不(bu)過在(zai)注意力(li)機制方面仍然使用(yong)結合(he)部分旋轉位置編(bian)碼(ma)(Partial RoPE)的(de)分組查詢(xun)注意力(li)(Grouped-Query Attention)。
這一機制從ChatGLM2沿用至今,能規(gui)避多頭(tou)潛在注意力(MLA)對張量并行(xing)處理帶來的挑(tiao)戰。智譜還配置了較多的注(zhu)意力頭,因為該(gai)團隊(dui)發現,增加注(zhu)意力頭能(neng)(neng)在推理(li)基準(zhun)測試中顯著(zhu)提升(sheng)模型(xing)性能(neng)(neng)。
GLM-4.5和GLM-4.5-Air均擁有MTP(多token預測)層,讓模型在一次前向計算中,同時預測多個后續token。實測證明,這一機制可顯(xian)著加速推理過程。
進(jin)入(ru)中期(qi)訓(xun)練階段后,智譜開(kai)始(shi)針對更復雜、更實用的任務進(jin)行專項優化(hua),重點強化(hua)模(mo)型在代碼和(he)推(tui)理(li)方面(mian)的能力。
例如,GLM-4.5針對代碼庫場景進行了專門優化,學(xue)習了跨文件(jian)之間的(de)依賴關系;整合了GitHub上的issues和PR,進一(yi)步(bu)提(ti)升軟件工程能(neng)力(li);并將訓練序列長度擴展至32K,從而具備了處理大型代碼庫的能力。這正是第(di)一部分案例(li)中(zhong),GLM-4.5能(neng)夠自行查驗和修改代碼(ma)的能(neng)力來源之(zhi)一。
到了后訓練階段,GLM-4.5全面引入了強(qiang)化學習(xi),并圍繞(rao)高級(ji)數(shu)學編程推理(li)能(neng)(neng)力(li)、復(fu)雜agentic任務(wu)和(he)通(tong)用能(neng)(neng)力(li)這(zhe)三(san)大關鍵領域,展開系(xi)統性優化。
GLM-4.5在(zai)后訓練(lian)階(jie)段(duan)的(de)(de)強(qiang)化學(xue)習(xi)部(bu)分(fen)是按照不同任務需求有側重地展開(kai)的(de)(de)。針對(dui)推理任務,訓練(lian)時引入了按難度(du)(du)遞進的(de)(de)課程學(xue)習(xi)策(ce)略,還用(yong)動(dong)態采樣溫度(du)(du)來(lai)控制(zhi)探索(suo)強(qiang)度(du)(du),并通(tong)過基于token 級熵的(de)(de)PPO自(zi)適(shi)應裁(cai)剪機(ji)制(zhi),提(ti)升策(ce)略更新的(de)(de)穩定性。
當模型面對的是網頁搜索、代碼生成這類任務時,訓練方式轉向了更具agentic特征的RL。數據不僅來(lai)源于自動流程,還引入了人類參與(yu),以(yi)構建更真實的復(fu)雜多步交互場景。
編程任務(wu)則用GitHub 上(shang)的真實PR和(he)issues來作為(wei)標準(zhun),訓練中(zhong)結合準(zhun)確率獎勵和(he)格式懲罰(fa),引導模型學(xue)會(hui)規范、可靠地行動(dong)。
在更通用的實際應用場景里,比如工具調用和長文檔推理,GLM-4.5又采用了不同策略來補強。函數調用任務中,使用的是雙軌策(ce)略:一部(bu)分是(shi)基于規則(ze)的逐步強(qiang)化學習,確(que)保工(gong)具(ju)調(diao)用準(zhun)確(que)性;另一部(bu)分則(ze)是(shi)通過獎(jiang)勵(li)最終任務完(wan)成效果的方式,引導模(mo)型學會自主規劃與調(diao)用工(gong)具(ju)。
同時,為(wei)了(le)讓(rang)模(mo)型更(geng)好地理(li)解和利用長文本(ben),智譜也安排了(le)一個專門的長上下文RL階段,讓(rang)GLM-4.5在處理(li)大(da)規模(mo)文檔(dang)時具備更(geng)強的推(tui)理(li)能力。
總體(ti)來看(kan),GLM-4.5的(de)(de)(de)整個訓練(lian)過程(cheng)是高度工程(cheng)化的(de)(de)(de):架(jia)構上(shang)通過MoE提升計算效(xiao)率,訓練(lian)流程(cheng)中針(zhen)對(dui)關(guan)鍵任(ren)務進行能(neng)(neng)力(li)注入,強化學(xue)習階段進一步拉高模型的(de)(de)(de)推(tui)理上(shang)限和(he)實用表現,最終實現推(tui)理、編碼和(he)智能(neng)(neng)體(ti)能(neng)(neng)力(li)的(de)(de)(de)原(yuan)生(sheng)融(rong)合(he)。
值得注意的是,GLM-4.5還(huan)展現出更(geng)高的參(can)數(shu)效率,參數(shu)量(liang)為DeepSeek-R1 的 1/2、Kimi-K2的 1/3,但在(zai)多項(xiang)標(biao)準基準測試(shi)中(zhong)表(biao)現得更為出色(se)。在(zai)衡量(liang)模(mo)(mo)型編程能力的SWE-bench Verified榜單(dan)上(shang),GLM-4.5系列位于(yu)性能/參數(shu)比帕累(lei)托前(qian)沿(yan),表(biao)明在(zai)相同規模(mo)(mo)下GLM-4.5系列實現了(le)最佳性能。
高(gao)參數效(xiao)率代表了模型架(jia)構和訓練策略(lve)的有效(xiao)性(xing),即在更(geng)少的參數下(xia)學到了更(geng)多(duo)、更(geng)有用的能力,這也(ye)意(yi)味著,在同(tong)等算力預(yu)算下(xia),GLM-4.5能實現更(geng)高(gao)的性(xing)價比。
結語:開源大模型突圍,智能體賽道迎來“平替”時代?
當(dang)前,以智能體(ti)為(wei)標(biao)簽的(de)AI產(chan)品層(ceng)出不窮,數量龐雜,卻鮮少有產(chan)品能真正獲得用戶的(de)長(chang)期使用和(he)信(xin)賴。這在一(yi)定程度上(shang)也是所有AI產(chan)品的(de)共性問題,要解決這一(yi)問題,除了進一(yi)步打(da)磨用戶體(ti)驗之外,底層(ceng)模型能力(li)的(de)提升也至關重要。
隨著(zhu)Claude、GPT等海外大模型(xing)(xing)的(de)獲取(qu)越來越困難且價格愈發昂(ang)貴,國產開源模型(xing)(xing)正為開發者提供更高效的(de)本(ben)土化解決方案。