智東西(公眾號:zhidxcom
作者?| 程茜
編輯?|?漠影

智東西7月9日消息,今日,昆侖萬維重磅開源多模態推理模型Skywork-R1V 3.0,這是其迄今最強多模態推理模型,參數規模為38B,在多個多模態推理基準測試中取得了開源最佳(SOTA)性能。

Skywork-R1V 3.0在不到15秒的時間里(li),深入(ru)分析了下面這道高考物(wu)理(li)選擇題并給出正(zheng)確答案。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

面對這道題,模型需要綜合調用物理基礎概念、多模態理解能力,最后的結果顯示,Skywork-R1V 3.0推理速度相比上一代提升6倍,解題思維鏈從4000 token降低至700 token。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

從基準測試來看,Skywork-R1V 3.0在權威基準測試MMMU中的表現已經接近人類專家水平,并超過超過Claude-3.7-Sonnet 和GPT-4.5等閉源模型

這一多(duo)模態(tai)推(tui)理模型的核(he)心亮點可以(yi)用跨(kua)模態(tai)推(tui)理、跨(kua)學科泛化兩個關鍵詞概括,既能解數學、物理題,還能完(wan)成地(di)理、歷史、人文領域任務,同時完(wan)成從文本到視覺的推(tui)理。

其作為昆(kun)侖萬維多(duo)模(mo)態模(mo)型體系的關鍵(jian)節點與(yu)核心基石,正是昆(kun)侖萬維探索通用人工智能邁出(chu)的重要一步。

昆侖(lun)萬(wan)維(wei)已全面開源(yuan)Skywork-R1V 3.0的所(suo)有資源(yuan)。

Hugging Face//huggingface.co/Skywork/Skywork-R1V3-38B

GitHub://github.com/SkyworkAI/Skywork-R1V

技(ji)術報告://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf

一、專業術語秒懂,還能結合圖表對應分析,輔助診斷、看梗圖樣樣全能

作(zuo)為多模態推(tui)(tui)理模型,Skywork-R1V 3.0不僅(jin)可以(yi)勝(sheng)任數學、物理等傳(chuan)統理工科推(tui)(tui)理任務(wu),還能應對地理、歷史、人文、設計等跨(kua)學科任務(wu)。

話不多說,先(xian)來一睹Skywork-R1V 3.0在各項實操任務中的真(zhen)實水平。

第(di)一(yi)大難(nan)關是解物理(li)(li)、數學(xue)難(nan)題。可(ke)以看到下面的物理(li)(li)題目中,模型(xing)不僅需要對英文(wen)題目進行分(fen)析(xi),還(huan)要識別“unit ramp”等(deng)專業術語,并結(jie)合(he)圖表上給出的信(xin)息進行解答(da),綜(zong)合(he)調用多(duo)項(xiang)能力才能得(de)(de)出答(da)案,值得(de)(de)一(yi)提的是,即使(shi)推理(li)(li)鏈路很長,模型(xing)也沒(mei)有丟(diu)失(shi)圖表中的關鍵(jian)信(xin)息。

題目:Consider applying a unit ramp voltage source to a series RL circuit as shown in <image 1>. Compute the voltages?$$v_R (t$$?with zero initial condition for L = 0.1H;

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

Skywork-R1V 3.0識別出(chu)了圖表中(zhong)unit ramp代表線性上升的輸入電壓(ya),調用物(wu)理(li)公式等(deng)進行推(tui)導,并在得出(chu)結(jie)論后進行了反向推(tui)理(li)驗證,確認結(jie)果滿(man)足電路平衡關系。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

第二大難關是(shi)跨學科能力,從(cong)醫學相關的(de)實例證明,Skywork-R1V 3.0能根據患(huan)者的(de)醫療影像提取關鍵信(xin)息,輔助診斷。

題目:這位64歲的男性有20年的肝硬化病史,圖像顯示的是增強后的動脈期影像,最可能的診斷是?

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

Skywork-R1V 3.0綜合分析了20年肝硬化病史64歲男性患者的病史、動脈影像特點以及肝細胞癌的表現,在列出可能鑒別診斷的情況下,還針對影像特征進行了具體解釋。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

多(duo)模態推理還有一大更為直觀(guan)的應用(yong)場景,如逛博(bo)物館(guan)等,用(yong)戶想要了解某(mou)一件(jian)展品需要專業(ye)解說(shuo)、在網上查閱大量資料(liao)。

題目:請仔細觀察下方圖上的音樂家俑,并結合歷史背景和視覺細節,使用中文回答以下問題:

1)圖中這位女性音樂家在做什么?演奏的是什么樂器?

2)結合其服飾(如條紋長裙、高腰褶皺、雙髻發髻)、妝容(白粉面龐、細眉等)及跪坐姿態,她可能屬于哪個朝代,來自什么社會階層或擔任何種職能?

3)請聯系“墓葬明器”的概念,分析為何墓主要將這些音樂家俑陪葬?

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

Skywork-R1V 3.0在看到下圖(tu)中“音(yin)樂家俑”后,就可以快(kuai)速給出(chu)他們在做(zuo)什么、術語說明朝代、來(lai)自(zi)什么社(she)會階層(ceng)、為(wei)什么要(yao)陪葬等信息。這些內容(rong)需要(yao)模(mo)型細致分析圖(tu)片(pian)上(shang)的隱藏信息,并結合(he)對(dui)特定歷史朝代、社(she)會制度的深(shen)入了解,才能得出(chu)正確(que)結論。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

第三大(da)難關是真實世界(jie)中(zhong)的(de)(de)復雜推理難題。用戶日常生活面對(dui)的(de)(de)場(chang)景往往都(dou)包含多元(yuan)化的(de)(de)復雜信(xin)息(xi)(xi),如對(dui)各地(di)地(di)理特征、人文等(deng)需(xu)要極度熟悉的(de)(de)“地(di)理定位(wei)(wei)挑戰”,Skywork-R1V 3.0可以憑借下方(fang)圖片的(de)(de)信(xin)息(xi)(xi),準確給出其所(suo)處(chu)位(wei)(wei)置。

你正在參加一個地理定位挑戰。根據提供的圖像:

仔細分析圖像中的線索(包括建筑風格、標識牌、植被、地形等);按照步驟思考這個地點最可能位于哪個大洲、國家以及城市,并說明原因;根據你的分析估計大致的緯度和經度。

請務必認真推理并給出證據, 你的最終答案中必須包含以下五行信息: continent: [大洲名稱], country: [國家名稱], city: [城市名稱], lat: [小數形式的緯度], lng: [小數形式的經度]

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

從(cong)模型的(de)分(fen)析(xi)過(guo)程可以看出,Skywork-R1V 3.0識(shi)別了圖片中商(shang)鋪的(de)文(wen)字、建筑風格、地形、人流密度(du)等,綜合調用了語言理解(jie)、空(kong)間記憶和知識(shi)推理多(duo)個(ge)能力模塊,最終鎖定目標。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

最后,Skywork-R1V 3.0還能理解網絡上的(de)熱梗,結合圖(tu)片內(nei)容分析梗圖(tu)中詞語的(de)雙關含義給(gei)出解釋。

題目:解釋這個meme
昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

昆侖萬維Skywork-R1V研發團隊提到,Skywork-R1V 3.0在跨模態、跨學科方面的能力,使其在醫療、教育領域都展現出更為廣泛的應用潛力。如醫療領域,其能綜合醫學影像、病歷文本、病人對話進行更準確的診斷建議,教育領域的個性化學習和智能輔導等。

二、多項評測表現超Claude、GPT,加速實現大模型學習最終目標

從基準測試結果來看,Skywork-R1V 3.0的表現也毫不遜色,已經在多個維度超過同類開源模型和主流閉源模型

在2025年高考數學新一卷上,Skywork-R1V 3.0取得了142分的成績,接近Gemini 2.5 Pro等多款閉源模型,成績如下:

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

多(duo)學科基準(zhun)測試中,Skywork-R1V 3.0表現(xian)逼近人類(lei)專家水平(ping)。

大規模多(duo)學科多(duo)模態理解(jie)和推(tui)理基準測(ce)試(shi)MMMU中,Skywork-R1V 3.0的基準測(ce)試(shi)成績為(wei)76.0分(fen),人類(lei)專(zhuan)家平均分(fen)數為(wei)76.2分(fen),其表現(xian)超過Claude-3.7-Sonnet 和GPT-4.5等(deng)閉源模型。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

視覺(jue)推理(li)相關(guan)的EMMA-Mini(CoT)、中小學知識點測評集MMK12中,該模(mo)型表現均超(chao)過規模(mo)參(can)數更大的Qwen2.5-VL-72B-Instruct、InternVL3-78B等開(kai)源模(mo)型。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

尤其在物(wu)理(li)和邏輯推理(li)領域,Skywork-R1V 3.0相(xiang)比于上一代模(mo)(mo)型(xing)性能顯著提升。多模(mo)(mo)態大(da)模(mo)(mo)型(xing)物(wu)理(li)推理(li)能力測(ce)試PhyX、數(shu)學能力數(shu)據集MMK12中,其均超過Claude 3.7 Sonnet、GPT-4.5、Gemini 2 Flash等(deng)主流閉(bi)源模(mo)(mo)型(xing),Qwen 2.5等(deng)開源模(mo)(mo)型(xing)。

在(zai)理(li)解物理(li)基礎概念和圖文結合的復雜(za)物理(li)問題方面(mian),該模(mo)(mo)型在(zai)多模(mo)(mo)態大模(mo)(mo)型物理(li)推理(li)能(neng)力測(ce)試集PhyX-MC-Text-Minimal和SeePhys,表(biao)現超谷(gu)歌(ge)、OpenAI旗下(xia)模(mo)(mo)型。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

邏輯推理能力上,其多模態邏輯一致性、條件推理和跨模態因果建模方面優勢顯著。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

綜(zong)合來看,Skywork-R1V 3.0已經基于文本推理遷(qian)移融合視覺(jue)推理,實現(xian)跨模(mo)態(tai)推理、跨學(xue)(xue)科泛化,而(er)這正是昆侖(lun)萬維(wei)加速實現(xian)大模(mo)型表征(zheng)學(xue)(xue)習(xi)最(zui)終目標的(de)關鍵一步(bu)。

當下關于AI表征有一(yi)大討論,人類觀測到(dao)的(de)圖像(xiang)、文本(ben)等(deng)多(duo)模態數(shu)(shu)據(ju)是同一(yi)客觀真實Z的(de)不同投(tou)(tou)射(she),而大模型表征學習目標,就是逼近對“Z”的(de)統一(yi)、深層理解。昆侖萬維Skywork-R1V研發團(tuan)隊通(tong)過(guo)一(yi)個簡單的(de)例子進行了說明,以我們看到(dao)“蘋果”為(wei)例,其包(bao)含顏色、形狀視(shi)覺投(tou)(tou)影,光滑度、重(zhong)量(liang)等(deng)觸覺投(tou)(tou)影,甜、酸等(deng)味覺投(tou)(tou)影,綜(zong)合所有模態數(shu)(shu)據(ju),才(cai)能幫助用戶理解“蘋果”的(de)整體(ti)概(gai)念(nian),而不是僅停留(liu)在單一(yi)的(de)“視(shi)覺”或“味覺”認(ren)知上。

在此基礎上(shang),模型對(dui)于(yu)多模態信息的(de)(de)深入理解、推理就至關重要(yao),其對(dui)于(yu)模型完(wan)整(zheng)理解客(ke)觀(guan)世界(jie)的(de)(de)關鍵作用也不言而喻。

三、冷啟動+GRPO強化學習,低成本、高效率激發推理潛能

與此同(tong)時,突(tu)破模(mo)型在單一(yi)維(wei)(wei)度的局(ju)限性(xing),構(gou)建(jian)更(geng)全(quan)面、更(geng)貼近人類認知推理(li)過程(cheng)的多模(mo)態推理(li)模(mo)型,也對昆侖萬(wan)維(wei)(wei)的研究團隊(dui)提出了更(geng)大挑戰(zhan)。

昆侖萬維Skywork-R1V研發團隊提到,Skywork-R1V 3.0在跨模態推理、跨學科泛化能力提升的背后有兩大關鍵,一是其跨模態融合機制更加精巧、有效,二是依靠強化學習方法實現了泛化推理能力媲美甚至超越部分閉源巨型模型。

具體來看,昆侖萬維研發團隊在強(qiang)化學習GRPO策略、關鍵熵驅動的模型(xing)判(pan)別機(ji)制(zhi)、連接器微調與多學科知(zhi)識矯正的綜合作用下(xia),實現(xian)了(le)模型(xing)推理性能(neng)、推理效率的雙重提升。

Skywork-R1V 3.0基于其上(shang)一代(dai)模型Skywork-R1V 2.0蒸餾數據進(jin)行“冷啟動”,隨(sui)后引入強(qiang)化(hua)學(xue)習(xi)算法(fa)GRPO深度激發模型的推理(li)潛(qian)能,實(shi)現推理(li)能力(li)在圖像和文本模態之間的遷移(yi),提(ti)升(sheng)其跨(kua)模態、多學(xue)科(ke)場景下的理(li)解與分(fen)析表現。最后,其通過約1.2萬(wan)條監督微(wei)調樣本和1.3萬(wan)條強(qiang)化(hua)學(xue)習(xi)樣本就進(jin)行了(le)訓練。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

為了(le)(le)增強(qiang)模型推(tui)理(li)能力的(de)泛化性,研究人員采用了(le)(le)關鍵熵驅動的(de)模型判別機制,通過監(jian)測模型在進入推(tui)理(li)關鍵節(jie)點(例如“Wait…”、“Alternatively…”)時輸出熵的(de)變化。

這(zhe)背(bei)后的(de)考量(liang)在于,研(yan)究(jiu)人員(yuan)發現具備(bei)(bei)推理(li)能力的(de)模(mo)型會在這(zhe)些(xie)位(wei)置輸出更高不(bu)確(que)(que)定性(xing),僅模(mo)仿推理(li)語(yu)氣的(de)模(mo)型則輸出低熵、確(que)(que)定性(xing)內容(rong),基于此(ci)其提出確(que)(que)定性(xing)檢查點,篩選出了(le)具備(bei)(bei)推理(li)能力的(de)權重版本。

Skywork-R1V 3.0的(de)能力層層深入(ru),其通過基于1萬(wan)條高質量、多學科、多模(mo)態樣本對連(lian)接器(qi)定向再(zai)訓練,優化不同(tong)領域知識的(de)融合(he),具備了跨(kua)學科推理能力。

與(yu)此(ci)同(tong)時,昆侖萬(wan)維還針(zhen)對跨模(mo)態連接器(qi)進行專門精(jing)細微調,使視覺(jue)模(mo)態提供的細節信息能夠在整個推(tui)(tui)理(li)鏈條中持(chi)(chi)續(xu)保持(chi)(chi)清晰(xi)且穩定的貢獻(xian),保證保持(chi)(chi)了Skywork-R1V 3.0在深度推(tui)(tui)理(li)場景(jing)下視覺(jue)感知的準確(que)性和穩定性,以(yi)應對多模(mo)態模(mo)型推(tui)(tui)理(li)鏈條過長時,視覺(jue)信息被淡化(hua)出現幻覺(jue)的風險。

不同于從頭大規(gui)模(mo)(mo)預(yu)訓(xun)練(lian)(lian)增強多模(mo)(mo)態推(tui)理能(neng)力的(de)技術路線(xian),昆侖萬維將重點放到了模(mo)(mo)型的(de)后訓(xun)練(lian)(lian)階(jie)段,其通過(guo)精巧的(de)強化學習策略以低成本(ben)激發(fa)模(mo)(mo)型本(ben)身潛在的(de)推(tui)理能(neng)力,實現性能(neng)飛躍(yue)研發團隊提到,后訓練階段的(de)強化(hua)學習(xi)可(ke)以(yi)針對性地激活和深化(hua)大(da)規模(mo)預訓練的(de)潛(qian)在能力,同時(shi)這種小(xiao)規模(mo)、高(gao)質量數據驅動(dong)的(de)強化(hua)學習(xi)更經(jing)濟高(gao)效(xiao),可(ke)更適合快速迭代并精準地調(diao)控模(mo)型能力。

Skywork-R1V 3.0正是昆侖萬維在(zai)探(tan)索(suo)AGI過程中,提出的(de)一條更(geng)低成本、更(geng)高效率地激發多(duo)模態模型推(tui)理潛能的(de)有(you)效路徑。

結語:以推理能力為主線,挖掘多模態模型應用潛力

多模(mo)態推理(li)模(mo)型的(de)應(ying)用潛力顯(xian)現,其可以同(tong)時接收文本、圖像、音頻等多種模(mo)態輸(shu)入,并將其轉化為統(tong)一(yi)的(de)語義表示(shi),能挖(wa)掘不同(tong)模(mo)態數(shu)據間的(de)潛在(zai)聯系(xi),結合(he)多源信息進行(xing)(xing)動態決策等,都使其成為當下AI行(xing)(xing)業探索通用人工智能的(de)一(yi)個關鍵里(li)程碑。

率先看到這一技(ji)術發展趨(qu)勢的(de)(de)昆(kun)侖萬維,自2025年起(qi)就已經(jing)陸續開(kai)源涵蓋(gai)推理、獎(jiang)勵(li)模(mo)型(xing)(xing)、SWE、空間智(zhi)能、視頻生成等多(duo)個SOTA模(mo)型(xing)(xing),到最新(xin)的(de)(de)R1V 3.0,如今(jin)其圍繞著多(duo)模(mo)態模(mo)型(xing)(xing)推理的(de)(de)技(ji)術體(ti)系已經(jing)成型(xing)(xing),其技(ji)術探(tan)索正通過(guo)開(kai)源開(kai)放的(de)(de)策略(lve)進一步加(jia)速AI理解復(fu)雜人類(lei)意圖、實現應用的(de)(de)規模(mo)化落地(di)。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

關于(yu)更多昆侖萬維開源(yuan)模型,可(ke)查看其HuggingFace主(zhu)頁:
//huggingface.co/Skywork