
智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 李水青
昨晚,DeepSeek再度開創歷史!
智東西9月18日報道(dao),9月17日,由DeepSeek團隊(dui)共同完(wan)成(cheng)、梁文鋒擔(dan)任通(tong)訊(xun)作(zuo)者的(de)DeepSeek-R1推理模型研究論(lun)文,登上了國際權威期(qi)刊《自(zi)然(Nature)》的(de)封面(mian)。
DeepSeek-R1論文首次公開了僅(jin)靠(kao)強化學(xue)習(xi),就能激發大模型推(tui)理(li)能力(li)的重要研究成果,啟發全球AI研究者;這一模型還成為全球最受歡迎的(de)開源推(tui)理(li)模型,Hugging Face下(xia)載量超1090萬次。此番獲得(de)《自(zi)然》的認證,可謂是(shi)實至名(ming)歸。
與此同時,DeepSeek-R1也是全球首個經過同行評審的主流大語言模型。《自然》在社論中高度評價道:幾乎所有主流的大模型都還沒有經過獨立同行評審,這一空白(bai)“終于被DeepSeek打破”。
《自然》認為,在AI行業中,未經證實的說法和炒作已經“司空見慣”,而DeepSeek所做的一切,都是“邁向透明度和可重復性的可喜一步”。
▲《自然》雜(za)志封(feng)面標題:自助——強化學習教(jiao)會大模型自我改(gai)進
發表在《自然》雜(za)志(zhi)的新版(ban)DeepSeek-R1論文,與(yu)今年(nian)1月未經(jing)同行(xing)評審的初版(ban)有較大(da)差(cha)異(yi),披(pi)露了(le)更多模型(xing)訓練的細節,并正面(mian)回應了(le)模型(xing)發布(bu)之初的蒸餾質疑。
▲發表(biao)在《自然(ran)》雜志(zhi)的(de)DeepSeek-R1論文
在長達64頁的同行評審文件中,DeepSeek介紹,DeepSeek-V3 Base(DeepSeek-R1的基座模型)使用的數據全部來自互聯網,雖然可能包含GPT-4生成的結果,但絕非有意而為之,更沒有專門的蒸餾環節。
DeepSeek也在(zai)補(bu)充(chong)材料中提(ti)(ti)供(gong)了訓(xun)練過程中減輕數(shu)(shu)據污染的詳細流(liu)程,以證明模型并未在(zai)訓(xun)練數(shu)(shu)據中有意包含基準測試,從而提(ti)(ti)升模型表現。
此外,DeepSeek對DeepSeek-R1的安全性進行了全面評估,證明其安全性(xing)領先同(tong)期發(fa)布的(de)前沿模(mo)型(xing)。
《自然》雜志認為,隨著(zhu)AI技術(shu)日漸普及,大模型廠商們無法驗證(zheng)的(de)宣傳(chuan)可能(neng)對社會帶來(lai)真(zhen)實風險。依靠獨(du)立(li)研究人員(yuan)進行(xing)的(de)同(tong)行(xing)評審,是抑(yi)制AI行(xing)業(ye)過度炒作(zuo)的(de)一種(zhong)有效方式。
論文鏈接:
//www.nature.com/articles/s41586-025-09422-z#code-availability
同行評(ping)審報告(gao):
//www.nature.com/articles/s41586-025-09422-z#MOESM2
補充材料:
//static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM1_ESM.pdf
一、新版論文披露多個重要信息,R1安全性獲全面評估
在了解新版(ban)論(lun)文的變化(hua)前,我(wo)們有必要(yao)先回(hui)顧下DeepSeek-R1論(lun)文的核心內(nei)容。
DeepSeek-R1的研究出發點,是當時困擾AI業內的一個重大問題。眾所周知,推理能提升大語言模型的能力,但讓模型在后訓練階段通過數據學習思維鏈軌跡,嚴(yan)重依賴人(ren)工標注,限(xian)制了可(ke)擴展性。
DeepSeek嘗試通過強化學習,讓模型(xing)自我演化發(fa)展出推理能力(li)。在DeepSeek-V3 Base的基(ji)礎上(shang),DeepSeek使用GRPO作為強化學習框架(jia),僅使用最(zui)終(zhong)預測結(jie)果與真(zhen)實答案的正確性(xing)作為獎勵信號,未對推理過程(cheng)施加限制(zhi),最(zui)終(zhong)構建出DeepSeek-R1-Zero。
DeepSeek-R1-Zero通過強化(hua)學習成功掌握了(le)改進的推理策略,傾向于生成更長的回(hui)(hui)答,每個回(hui)(hui)答中包含驗證(zheng)、反(fan)思和探索備選方案。
▲DeepSeek-R1-Zero答題正確(que)率隨著推理長(chang)度提升,模(mo)型訓練中總體(ti)回答長(chang)度也不(bu)斷提升
DeepSeek在DeepSeek-R1-Zero的基礎上,采用多階段訓練結合RL、拒絕采樣和監督微調,開發出DeepSeek-R1,使模型既具備強推理能(neng)力,又能(neng)更好貼(tie)合(he)人類偏(pian)好。此外,團隊還蒸餾(liu)出(chu)小型模型并公(gong)開發布,為研究社區提供了(le)可用(yong)資(zi)源,推動思(si)維鏈(lian)推理(li)模型的發展(zhan)與應用(yong)。
除了上述主要科研成果(guo)外,在最新(xin)(xin)版的(de)論文(wen)和其他材(cai)料中(zhong),DeepSeek新(xin)(xin)增了不(bu)少補(bu)充(chong)信息,讓外界更深(shen)入地了解到(dao)模型訓(xun)練和運(yun)作(zuo)的(de)細節。
基準測試數據污染是一個極為敏(min)感(gan)的(de)問題——如果廠商在訓練(lian)時有(you)(you)意或(huo)無意包含了基準測試和相(xiang)關答案(an),就(jiu)很有(you)(you)可(ke)能(neng)導(dao)致(zhi)模型在相(xiang)關測試上的(de)得分異常偏(pian)高,影響基準測試評分的(de)公(gong)正性。
DeepSeek透露,為了防止基準測試數據污染,其已對DeepSeek-R1的預訓練和后訓練數據都實施了全面的去污染措施。以數學領域為例,僅在預訓練數據中,DeepSeek的去污染流程就識別并刪(shan)除了約(yue)六百萬條潛(qian)在文本(ben)。
在后訓練階段,數學相關的數據均來自2023年之前的競賽,并采用與預訓練相同的過濾策略,確保訓練數據與評測數據完全不重疊。這些措施保證了模型評測結果能夠真實反映其解決問題的能力,而非對測試數據的記憶。
不過,DeepSeek也承認這種去(qu)污(wu)染方法(fa)無法(fa)完全(quan)防止對測試(shi)集(ji)的改寫,因此在2024年之前(qian)發布的部分基準測試(shi)仍可能存在污(wu)染問題。
DeepSeek還為DeepSeek-R1新增了一份全面的安全報告。報告提到,DeepSeek-R1在服務部署中引入了外部(bu)風險控(kong)制系統,不僅可以基于(yu)關鍵詞匹配(pei)識別不安全(quan)對話,還(huan)使(shi)(shi)用DeepSeek-V3直接(jie)進行風險審查(cha),判斷是否應拒絕響應。DeepSeek建(jian)議開發者在使(shi)(shi)用DeepSeek-R1時(shi),部署類似(si)的風險控制系統(tong)。
在公開安全基準測試和內部安全研究中,DeepSeek-R1在(zai)大多(duo)數基(ji)準上超(chao)過(guo)了Claude-3.7-Sonnet、GPT-4o等前沿模型。開源部署版本的安全(quan)性雖不(bu)及(ji)具備外部風險(xian)控制(zhi)系統的版本,但仍擁有中等水平的安全(quan)保障。
DeepSeek-R1發布之初,曾有傳聞稱該模型(xing)使用(yong)了OpenAI的模型(xing)進行蒸(zheng)餾(liu),這也出現在審稿人的提問中。
對此,DeepSeek做出了正面回應,稱DeepSeek-V3-Base的預訓練數據全部來源于網絡,反映自然數據分布,“可能包含由先進模型(如GPT-4)生成的內容”,但DeepSeek-V3-Base并(bing)沒(mei)有(you)引(yin)入在合(he)成數據集上進(jin)行大規模監督蒸餾的“冷卻”階(jie)段。
DeepSeek-V3-Base的數據截止時間為2024年7月,當(dang)時尚未發布(bu)任何公開的先進(jin)推理模型,這(zhe)進(jin)一步降低了從現有推理模型中無意蒸(zheng)餾的可能性。
更重要的是,DeepSeek-R1論文的核心貢獻,也就是R1-Zero,不涉及從先進模型進行蒸餾。其強化學習(RL)組件是獨立訓練的,不依(yi)賴于GPT-4或(huo)其他類(lei)似能力模型的輸出(chu)或(huo)指導。
二、R1論文開創大模型科研新范式,《自然》盛贊其填補空白
在(zai)社論(lun)中,《自然》詳細地分析了DeepSeek-R1經(jing)歷完整(zheng)同行評(ping)審流程,并(bing)登上期刊(kan)的價值。
大模型正(zheng)在迅速改變人類獲(huo)取知識的(de)方式,然(ran)而,目前最(zui)主流的(de)大模型都沒(mei)有在研究期刊中經歷過獨立的(de)同行評審,這是一(yi)個嚴(yan)重的(de)空白。
同行評審出版物有(you)助(zhu)于闡明大模型的工作原(yuan)理,也有(you)助(zhu)于業(ye)內評估大模型的表現是否與廠商宣(xuan)傳的一致。
DeepSeek改變了這一現(xian)狀。DeepSeek在(zai)今年2月(yue)14日將(jiang)DeepSeek-R1論文提交至《自然(ran)》,而(er)直到7月(yue)17日才被接(jie)收,9月(yue)17日正(zheng)式發(fa)布(bu)。
在(zai)這(zhe)一過程(cheng)中,有8位外部專家參(can)與了同行評審(shen),對這(zhe)項工作(zuo)的原創性、方法和(he)魯棒性進行了評估。在最(zui)終發布(bu)的版(ban)本(ben)中,審稿報告與作者回復都被一(yi)并披露。
智東西也深入研讀了DeepSeek-R1論(lun)文的審稿意見與作者回復。這(zhe)份文件長達(da)64頁,接近論(lun)文本身(shen)篇幅的3倍。
▲DeepSeek同行評審材料封(feng)面
8位審稿人(ren)共(gong)提出上百條具體意(yi)見,既包括對單詞單復數等細節(jie)的(de)修改,也涵蓋(gai)對論文中將AI“擬人(ren)化(hua)”的(de)警示,以及(ji)對數據污染(ran)和模型(xing)安全性問題的(de)關注。
例如,在(zai)下方(fang)修改意見中,審稿人敏銳(rui)地捕捉到了“將DeepSeek-R1-Zero開源”這(zhe)一表述的(de)模糊性,并提醒DeepSeek,“開源”這(zhe)一概念的(de)界定仍(reng)存爭議,在(zai)使(shi)用(yong)相關表述時需要格外注意。
這位審(shen)稿(gao)人還要(yao)求DeepSeek在論文中(zhong)附(fu)上SFT和RL數據的鏈接,而不(bu)僅僅是提(ti)供數據樣本。
▲一位審(shen)稿人的部(bu)分(fen)修改意見
DeepSeek認真回應了審稿人提出的每(mei)一個(ge)問題,前文(wen)提到的多個(ge)章節與補充(chong)信息,正是在審稿人的建(jian)議下新增的。
雖然(ran)DeepSeek也曾在(zai)今年1月發(fa)布(bu)DeepSeek-R1的技(ji)術報告(gao),但《自然(ran)》認為,此類技(ji)術文(wen)檔與(yu)實際情況之(zhi)間的差距可能(neng)很大(da)。
相比之(zhi)下(xia),在同行(xing)評審中,外部專家(jia)并不是被動接(jie)收信息,而是能夠在獨(du)立第三方(編輯)的主持和管(guan)理下(xia),通過協作提出問題,并要求(qiu)論文(wen)作者補充信息。
同行評審能夠提升論文的清晰度,并確保作者對其主張作出合理的論證。這一流程并不一定會對文章內容帶來重大修改,但卻能增強研究的可信度。對(dui)AI開發者而(er)言,這意(yi)味(wei)著他們(men)的工作會更為扎實,并更具說服力。
結語:DeepSeek開源模式或成行業典范
作為國(guo)產開(kai)源 AI 模(mo)型走向世界的(de)代表,DeepSeek-R1在(zai)全球開(kai)源社(she)區擁(yong)有(you)極高的(de)口碑。而在(zai)本次登(deng)上(shang)《自然》雜志封面(mian)后,DeepSeek又補充了這一模(mo)型的(de)更多(duo)信息,為開(kai)源社(she)區提供了科研參考(kao)、模(mo)型復現思路以及應用支持。
《自然》雜志(zhi)呼吁(yu)更多的(de)AI公司將其(qi)模型提交給同行(xing)進行(xing)評審,確保其(qi)聲明(ming)經(jing)過驗證和澄(cheng)清。在這一背(bei)景下,DeepSeek的(de)開源模式不(bu)僅展(zhan)示(shi)了國(guo)產AI的(de)技術實(shi)力,也(ye)有(you)望成為(wei)全球AI行(xing)業在科(ke)研透(tou)明(ming)度方(fang)面的(de)參考典范。