智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 云鵬

智(zhi)東(dong)西(xi)8月15日消息(xi),今日晚間,阿(a)里宣布推出首個開源多(duo)模態深度(du)研究(jiu)智(zhi)能(neng)體(Deep Research Agent)——WebWatcher。

市(shi)面上的(de)深(shen)度研究(jiu)工具(ju)層出不(bu)窮,但(dan)大多只能(neng)(neng)圍繞(rao)文字進(jin)行(xing)搜索。WebWatcher的(de)核心創新點在于配備了增(zeng)強的(de)視覺語言推理能(neng)(neng)力,能(neng)(neng)夠(gou)圖文結合思考并調用(yong)多種工具(ju),從(cong)而使研究(jiu)結果(guo)更深(shen)入。

比如,當用(yong)(yong)(yong)(yong)戶(hu)要分析一張圖(tu)片里的信息,WebWatcher能調用(yong)(yong)(yong)(yong) “圖(tu)片搜索(suo)” 找相關圖(tu)和說明,用(yong)(yong)(yong)(yong) “OCR” 提取圖(tu)片里的文字(zi),用(yong)(yong)(yong)(yong) “文字(zi)搜索(suo)” 查背(bei)景知識,用(yong)(yong)(yong)(yong) “網(wang)頁(ye)訪問” 看具(ju)體網(wang)頁(ye)內容,用(yong)(yong)(yong)(yong) “代碼工具(ju)” 算數據等。

剛剛!阿里推出首個開源多模態深度研究Agent,四大VQA基準測試趕超GPT-4o

▲WebWatcher運行案例

實驗(yan)結果(guo)表明,WebWatcher在四個具(ju)有挑戰(zhan)性(xing)的(de)VQA(視覺問(wen)答)基準(zhun)測試中全(quan)面領先于主流的(de)開(kai)閉源多模態大(da)模型:

其(qi)在Humanity’s Last Exam(HLE)-VL(復雜推理(li))、BrowseComp-VL(信(xin)息檢索)、LiveVQA(知識(shi)整合)和MMSearch(聚(ju)合類信(xin)息尋優)等任務測(ce)試中均獲得高分,超越GPT-4o、Gemini2.5-flash、Qwen2.5-VL-72B、Claude 3.7等模型。

剛剛!阿里推出首個開源多模態深度研究Agent,四大VQA基準測試趕超GPT-4o

▲WebWatcher測評成績

WebWatcher的(de)技術方案覆蓋了從數據構建到訓練優化的(de)完整鏈路,核心目標是(shi)讓多模態Agent在高(gao)難(nan)度(du)多模態深度(du)研究任務中具備靈活推理和多工具協(xie)作能力。整個方法包(bao)含三(san)大環節:

1、多(duo)模態高難度數據生成:構建具備(bei)復雜推理鏈和信息模糊化的訓練數據;

2、高質量推理軌(gui)跡構建(jian)與后訓練:生成貼(tie)近真實多工具交(jiao)互的(de)推理軌(gui)跡,并(bing)通過監督微調(SFT)完成初步能力對齊。然(ran)后利用GRPO在復雜任務環境(jing)中進(jin)一步提升模型的(de)決策能力與泛化(hua)性;

3、高難度基準評測:構建并使用BrowseComp-VL對模型的多模態深(shen)度推理能力進行驗證。

為了(le)更好地評估WebWatcher的(de)(de)能力,阿里提(ti)出了(le)BrowseComp-VL,它(ta)是(shi)BrowseComp在(zai)視(shi)覺-語(yu)言任(ren)務(wu)上(shang)的(de)(de)擴展版本,設計目標是(shi)逼近人(ren)類專家的(de)(de)跨模(mo)態研究(jiu)任(ren)務(wu)難度。

GitHub地址:
//github.com/Alibaba-NLP/WebAgent
論文地址 :
//arxiv.org/abs/2508.05748

剛剛!阿里推出首個開源多模態深度研究Agent,四大VQA基準測試趕超GPT-4o

▲論文頁面截圖

結語:突破視覺語言,向深度搜索Agent邁進

自2025年(nian)1月推(tui)出WebWalker多Agent框(kuang)架之后(hou),阿里(li)(li)在過(guo)去近八(ba)個月里(li)(li)加速(su)迭代(dai),陸(lu)續推(tui)出了(le)原生Agent搜索(suo)模型WebDancer、可執行極(ji)復雜信(xin)息搜索(suo)的Agent搜索(suo)模型WebSailor、面向信(xin)息檢索(suo)Agent的數據合成方法(fa)WebShaper,向通用(yong)搜索(suo)Agent不斷邁進。

本次,阿里最新(xin)(xin)推出的多模態(tai)深(shen)度研究智能體(ti)WebWatcher,進一步突破(po)視(shi)覺語言(yan)深(shen)度研究Agent的新(xin)(xin)前(qian)沿,其構建的BrowseComp-VL基準、自動化軌跡(ji)生成與訓練(lian)流程,為解決復(fu)雜多模態(tai)信息檢(jian)索(suo)任務(wu)奠定基礎,也為未(wei)來多模態(tai)深(shen)度研究Agent發(fa)展提供方向。