智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 心緣

智東西3月25日(ri)報道,昨(zuo)天(tian),阿里云通義千問開(kai)源(yuan)更(geng)小尺(chi)寸的視(shi)覺(jue)理解模型Qwen2.5-VL-32B-Instruct。與(yu)昨(zuo)夜的發布時間幾(ji)乎前后腳(jiao)。

Qwen2.5-VL-32B-Instruct的優勢主要集中(zhong)于三(san)個(ge)方(fang)面:研究人(ren)員調整了輸出(chu)風格,使其回(hui)答詳細(xi)、格式規范且更符合人(ren)類偏好;在數學推理(li)能力方(fang)面,可應對復雜(za)數學問題;在圖像解析、內容識(shi)別、視覺邏輯推導等任務中(zhong)更準確并具備細(xi)粒度分析能力。

該模(mo)型(xing)是在1月底開源的視覺(jue)模(mo)型(xing)Qwen2.5-VL系列(lie)的基礎上,研(yan)究人員(yuan)基于強化學(xue)習持續優化的模(mo)型(xing),新(xin)模(mo)型(xing)使用Apache 2.0協議開源。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

科技博(bo)主(zhu)Simon?Willison在博(bo)客中提(ti)到(dao),32B參(can)數正迅速成為其(qi)(qi)最喜歡的模型大小(xiao),既(ji)能達到(dao)可媲美GPT-4級別的能力,又(you)小(xiao)到(dao)可以在其(qi)(qi)64GB內存(cun)的Mac上(shang)使用,并(bing)且(qie)仍有足夠的RAM來運行其(qi)(qi)他(ta)如火狐瀏(liu)覽器(Firefox)和軟件(jian)開發工具Visual Studio Code等內存(cun)占用較(jiao)大的應用程序。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

GitHub地址://github.com/QwenLM/Qwen2.5-VL

Hugging Face地址://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct

一、一張圖就能輸出地理特征、地形地貌,幾何難題也能勝任

Simon?Willison嘗(chang)試了Qwen2.5-VL-32B-Instruct的圖片理解能力,他上傳了一張圖片讓模(mo)型識別。Qwen2.5-VL-32B-Instruct給(gei)出(chu)了圖片中包(bao)含的地理特(te)征、分顏色區域、深(shen)度等值線(xian)、保護區等諸多要素。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

官方博客中展示(shi)了Qwen2.5-VL-32B-Instruct在細(xi)粒度圖像理解和數學推理方面的實際表現。

第一個提示詞是:“我開著大貨車在這條路上行駛,現在已經12點了,我能在13點之前到達110公里以外的地方嗎?”模型需要在(zai)理解用戶需求的基礎上,補充圖(tu)片上對車輛限速的背景信息再得出結論。

可以看到(dao),Qwen2.5-VL-32B-Instruct先(xian)將題(ti)目(mu)和(he)圖片中的信息進行了(le)匯總,然后(hou)進行逐步分析解答。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

第二個問題是數學推理,提示詞為:“如圖所示,直線AB和CD在O點相交,OD平分∠AOE,∠BOC=50.0,然后∠EOB=()”這道題重點考察的(de)是模型夠準確理解幾(ji)何圖形(xing)的(de)基本概念,以及(ji)相(xiang)關角(jiao)之間的(de)位置關系,如對(dui)頂角(jiao)、角(jiao)平分線等概念在圖形(xing)中的(de)體現。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

第三個提示詞是:“侏羅紀蜘蛛網是一種非常有規律的蜘蛛網,如圖,它是由無數個正方形環繞而成的,且最外邊第一個正方形A_{1}B_{1}C_{1}D_{1}的面積為a_{1}=1,分別取正方形A_{1}B_{1}C_{1}D_{1}各邊的三等分點A_{2},B_{2},C_{2},D_{2},作第二個正方形A_{2}B_{2}C_{2}D_{2},且正方形A_{2}B_{2}C_{2}D_{2}的面積為a_{2},\ldots \ldots ,依次類推,第n個正方形A_{n}B_{n}C_{n}D_{n}的面積為a_{n}.?$求{a_{n}}的通項公式”

這道(dao)題(ti)(ti)綜合考查(cha)了幾何(he)圖形分析、歸納推(tui)理、數學運算以及(ji)數列知識運用(yong)等多方面的能力。在Qwen2.5-VL-32B-Instruct的解題(ti)(ti)過程中(zhong),其(qi)首先(xian)羅(luo)列了解題(ti)(ti)文章的基本思路,然后進行分步驟解答。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

最后一個是(shi)對精(jing)細圖(tu)片的(de)理解(jie),Qwen2.5-VL-32B-Instruct通過(guo)圖(tu)片中的(de)鍋底、分格設計、配菜、氛圍等識別出這是(shi)四川(chuan)麻辣火(huo)鍋,并附(fu)上了(le)(le)簡介。在(zai)用(yong)戶詢問這為什么是(shi)四川(chuan)火(huo)鍋時,其對上述關鍵要素進行(xing)了(le)(le)詳(xiang)細引用(yong)給(gei)出答案(an)。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

二、多項測試超過72B前代模型,純文本能力整體優于GPT-4o mini

多項基準測(ce)試中,Qwen2.5-VL-32B-Instruct的表現超過了Mistral-Small-3.1-24B和Gemma-3-27B-IT,以及參數規模(mo)(mo)更大的Qwen2-VL-72B-Instruct模(mo)(mo)型。

在強調復雜任務(wu)多步驟推理的MMMU、MMMU-Pro和MathVista中,Qwen2.5-VL-32B-Instruct表現優(you)于Mistral-Small-3.1-24B、Gemma-3-27B-IT、Qwen2-VL-72B-Instruct。

同時,注重主(zhu)觀用(yong)戶體驗評估的MM-MT-Bench基準測試中(zhong),該模型相較于(yu)其前代Qwen2-VL-72B-Instruct表現更好(hao)。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

純文本能力方面,Qwen2.5-VL-32B-Instruct是(shi)同規模模型中(zhong)整體表現(xian)最好(hao)的。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

結語:下一步將聚焦長且有效的視覺推理

相比于Qwen2.5-VL系列模型,基(ji)于快思考模式(shi),Qwen2.5-VL-32B在強(qiang)化學習框架下優化了主觀體驗和數學推理能力。

阿里云通(tong)義(yi)千問(wen)的研究團隊(dui)下(xia)一步研究將聚焦于長且有效(xiao)的推理過(guo)程,以突破視覺(jue)(jue)模型在(zai)處理高度復雜、多步驟視覺(jue)(jue)推理任務中(zhong)的邊界。