智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 云鵬

智東西6月30日消息,百度正式開源文心大模型4.5系列模型!

此次(ci)百(bai)度一口氣開(kai)源(yuan)了10款模(mo)型(xing),涵蓋47B、3B激活參數的混合專家(jia)(MoE)模(mo)型(xing),0.3B參數的稠(chou)密型(xing)模(mo)型(xing)等(deng),并實現預訓練權重和推理代碼的完全開(kai)源(yuan)。

李彥宏出手!百度大模型終于開源

▲Hugging Face上(shang)的文(wen)心大模(mo)型(xing)4.5系列模(mo)型(xing)開源列表

目(mu)前(qian),文心大(da)模型4.5開源系(xi)列已可在(zai)飛槳星河社區、Hugging Face等(deng)平臺(tai)(tai)下載部(bu)署使(shi)用,同(tong)時開源模型API服務也可在(zai)百度智能(neng)云(yun)千帆(fan)大(da)模型平臺(tai)(tai)使(shi)用。

自(zi)此,百(bai)度成為國內繼騰訊、阿里、字(zi)節之后(hou)的又一家開源大(da)廠,這也(ye)是百(bai)度面(mian)向(xiang)大(da)模型進入應用爆發黃金時(shi)期的最新舉措。

早在今年(nian)2月,百度就已預告了(le)文心大模(mo)型4.5系列(lie)(lie)(lie)的(de)推出計劃,并(bing)明確將于(yu)6月30日(ri)起(qi)正式開(kai)源。不(bu)過百度這次的(de)開(kai)源列(lie)(lie)(lie)表沒有其升級(ji)版文心大模(mo)型4.5 Turbo系列(lie)(lie)(lie)。

Hugging Face:

飛(fei)槳星河社區://aistudio.baidu.com/modelsoverview

GitHub://github.com/PaddlePaddle/ERNIE

技術報告:

一、開發者熱議,點名文心大模型4.5 Turbo開源

Reddit上的開發者認為,百度此次開源的模型中小參數的版本對內存受限的配置是不錯的選擇,他還認為300B可(ke)以和DeepSeek V3 671B戰(zhan)斗(dou)(dou),21B可(ke)以與阿(a)里Qwen 30B戰(zhan)斗(dou)(dou)。

李彥宏出手!百度大模型終于開源

也有開發者指出,百度此次開源的模型中,28B模型在基礎文(wen)本能力(li)上增加了(le)視覺(jue)功能很酷。

李彥宏出手!百度大模型終于開源

開發者也在期待百(bai)度文(wen)心大模型4.5 Turbo的開源(yuan)

李彥宏出手!百度大模型終于開源

二、原生多模態基礎大模型,多項評測超Qwen3、DeepSeek-V3

文心大模型4.5于3月16日發布,是百度自研新一代原生多(duo)模態(tai)基礎大模型(xing),在多(duo)個測(ce)試集上的測(ce)評表現已經超過GPT-4o。

其圖(tu)片理解涵蓋照片、電(dian)影截圖(tu)、網(wang)絡梗圖(tu)、漫(man)畫、圖(tu)標(biao)等(deng)多種形(xing)態,也能理解音視頻中(zhong)的場景、畫面、人物等(deng)特征,并且在(zai)生成名人、物品等(deng)方面更具(ju)真實性。

李彥宏出手!百度大模型終于開源

▲文(wen)心4.5系列模型(xing)與Qwen3、DeepSeek-V3基準測試比較

百度官方公眾號提到,文心4.5系列模型均使用飛槳深度學習框架進行高效訓練、推理和部署。在大語言模型的預訓練中,模型FLOPs利用率(MFU)達到47%。實驗結果顯示,該系列模型在多個文本和多模態基準測試中達到SOTA水平,在指令遵循、世界知識記憶、視覺理解和多模態推理任務上效果突出。模型權重按照Apache 2.0協議開源,支持開展學術研究和產業應用。此外,基于飛槳提供開源的產業級開發套件,廣泛兼容多種芯片,降低后訓練和部署門檻。

對于原生多模態大模型,3月初,百度創始人、CEO李彥宏在人民網發表的署名文章就提到:“原生多模態大模型,打破之前先訓練單模態模型再拼接的方式,通過統一架構實現文本、圖像、音頻、視頻等多模態數據的?原生級融(rong)合,實現(xian)對復雜世界(jie)的統一理解,這(zhe)是邁向(xiang)通用(yong)人工(gong)智(zhi)能(AGI)的重要(yao)一步。”

三、文心大模型4.5背后,三大關鍵創新

文心大模型(xing)4.5系列(lie)背后的關鍵(jian)技術創新包括(kuo):

1、多模態異構MoE預訓練:其模型基于文(wen)本(ben)和視覺模態進行聯合訓練,可捕捉多(duo)模態信(xin)息的(de)細微差別,并提升文(wen)本(ben)理(li)解與(yu)生(sheng)成、圖像理(li)解以(yi)及(ji)跨模態推理(li)等(deng)任務的(de)性能。

為了(le)(le)實(shi)現這一(yi)目(mu)標(biao)(biao),避免一(yi)種(zhong)模(mo)態(tai)阻(zu)礙另一(yi)種(zhong)模(mo)態(tai)的學習(xi),百(bai)度研究人員設計(ji)了(le)(le)一(yi)種(zhong)異構(gou)MoE結構(gou),并引(yin)入了(le)(le)模(mo)態(tai)隔離路由,采用了(le)(le)路由器正交損(sun)失和多模(mo)態(tai)標(biao)(biao)記平衡損(sun)失。這些架構(gou)選擇可以(yi)確(que)保兩種(zhong)模(mo)態(tai)都得到有(you)效(xiao)表示(shi),從而在訓練過(guo)程(cheng)中實(shi)現相互強(qiang)化。

李彥宏出手!百度大模型終于開源

2、可擴展、高效(xiao)的(de)基礎設施:百度提(ti)出異構混(hun)合并行和分層負載均衡(heng)策略,以實(shi)現(xian)ERNIE 4.5模型的高效(xiao)訓(xun)練(lian)。研究人員(yuan)通(tong)過(guo)采用節(jie)點內專家并行、內存高效(xiao)的流水線(xian)調度、FP8混(hun)合精度訓(xun)練(lian)和細(xi)粒(li)度重計(ji)算方法,實(shi)現(xian)了預訓(xun)練(lian)吞吐量提(ti)升。

在推理(li)(li)方(fang)面(mian),研究人(ren)員提出(chu)多(duo)專家(jia)并(bing)行(xing)協作方(fang)法(fa)和卷積碼量化算法(fa),以實現(xian)4位/2位無(wu)損量化。此外(wai)還引(yin)入具有動(dong)態角色切換(huan)的PD分解,提升ERNIE 4.5 MoE模型的推理(li)(li)性能(neng)。基于PaddlePaddle構建的ERNIE 4.5可(ke)在各(ge)種硬件平臺上提供(gong)高(gao)性能(neng)推理(li)(li)。

3、針對特(te)定模態的后訓練:為了(le)滿足實際(ji)應用(yong)的多樣化需求(qiu),百度針(zhen)對(dui)特定模態對(dui)預訓練模型(xing)的變體進行了(le)微調。其大模型(xing)針(zhen)對(dui)通用(yong)語(yu)言理解和生成進行了(le)優化。

VLM專(zhuan)注(zhu)于視覺(jue)語(yu)言理解,并支持思考和非思考模式(shi),每個模型都結合使用了監督微調(SFT)、直接偏好(hao)優化(DPO)或統一偏好(hao)優化(UPO)的改進強化學習方法進行后訓練。

在視(shi)覺-語(yu)言(yan)模型的(de)微調階段,視(shi)覺與語(yu)言(yan)的(de)深度融合對(dui)模型在理(li)解、推(tui)理(li)和(he)生成等復雜任(ren)務中的(de)表現起著決定性(xing)的(de)作(zuo)用。為了(le)提升模型在多模態(tai)任(ren)務上的(de)泛化(hua)能(neng)力(li)和(he)適應性(xing),研究人員(yuan)圍繞(rao)圖像(xiang)理(li)解、任(ren)務定向微調和(he)多模態(tai)思路(lu)推(tui)理(li)三大核(he)心能(neng)力(li),進行(xing)了(le)系統性(xing)的(de)數據(ju)構(gou)建和(he)訓練策略(lve)優化(hua)。此外(wai),其利用可驗證獎勵(li)強化(hua)學習(xi)(RLVR)進一步提升模型對(dui)齊和(he)性(xing)能(neng)。

結語:全球大模型產業競爭加劇,百度擁抱開源

針對百(bai)度此次開源(yuan),南加州大學計算機(ji)科學副教授、三星年(nian)度人(ren)工智能研究員Sean Ren在接(jie)受外媒采訪時提到(dao):“每當一個(ge)大型(xing)實驗(yan)室開源(yuan)一個(ge)強大的(de)模型(xing)時,它(ta)都會提高(gao)整個(ge)行業的(de)標準(zhun)。百(bai)度的(de)舉動給OpenAI和Anthropic等閉(bi)源(yuan)模型(xing)的(de)提供商帶來了壓力,迫使它(ta)們證明API和高(gao)價的(de)合理(li)性(xing)。”

作為(wei)(wei)國(guo)內最先入局大(da)(da)模(mo)型研發的(de)巨頭之一(yi),百度已經形成了(le)文(wen)心(xin)大(da)(da)模(mo)型4.0 Turbo、性能強勁(jing)的(de)輕量模(mo)型ERNIE Speed Pro和ERNIE Lite Pro到(dao)當下的(de)文(wen)心(xin)大(da)(da)模(mo)型4.5、文(wen)心(xin)大(da)(da)模(mo)型X1,以及(ji)升級版文(wen)心(xin)大(da)(da)模(mo)型4.5 Turbo等模(mo)型系列,其模(mo)型數(shu)量穩(wen)步(bu)遞(di)增(zeng),模(mo)型類型愈發多元。到(dao)2024年(nian),文(wen)心(xin)大(da)(da)模(mo)型的(de)日均調用量達到(dao)16.5億,而2023年(nian)同期這一(yi)數(shu)字僅為(wei)(wei)5000萬次(ci),增(zeng)長達到(dao)33倍。

Sean Ren認為(wei)雖然大多數消費者并不關心模型代(dai)碼是否開源,但(dan)他們確實在意更低的(de)成本、更好的(de)性能以及(ji)對其語言或地區的(de)支持。這些(xie)好處通常(chang)來自(zi)于開源模型,它為(wei)開發人員(yuan)和研究人員(yuan)提(ti)供了(le)更大的(de)自(zi)由度(du),可以更快地進行(xing)迭(die)代(dai)、定制(zhi)和部署。”