▲頭圖由AI生成

智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影

智東西9月17日報道,今天凌晨,阿里巴巴開源了其首個深度研究Agent模型:通義DeepResearch

在Humanity’s Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等權威Agent評測集中,通義DeepResearch模型憑借3B激活參數,性能超越基于OpenAI o3DeepSeek V3.1Claude-4-Sonnet等(deng)旗艦模型的ReAct Agent(推理(li)-行(xing)動智能體)。

阿里開源「深度研究」王炸Agent,登頂開源Agent模型榜首

▲基準測試成績排名

阿里開源「深度研究」王炸Agent,登頂開源Agent模型榜首

▲基準測試分數

目(mu)前,通義DeepResearch的(de)模(mo)型、框架和(he)方案已在(zai)Github、Hugging Face和(he)魔(mo)搭社(she)區全面開(kai)源,開(kai)發者和(he)用戶(hu)可自行下載模(mo)型與(yu)代碼。

阿里開源「深度研究」王炸Agent,登頂開源Agent模型榜首

下載(zai)地址(zhi):

Github:

//github.com/Alibaba-NLP/DeepResearch

Hugging Face:

//huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

魔搭社區:

//modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

深度研(yan)究作為近一年的AI研(yan)究熱點,吸(xi)引(yin)了谷(gu)歌、OpenAI、Anthropic等眾多主流(liu)企業(ye)投入研(yan)發(fa)。

深度研究研發的現有方法大多采用“單窗口、線性累加”的信息(xi)(xi)處(chu)理模式,在(zai)處(chu)理長周期任務時,Agent易(yi)遭遇“認(ren)知空間窒息(xi)(xi)”與“不可逆的噪聲污染”,導致推理能(neng)力降低,難以完成復雜研究任務。

據介紹,為解決這些問題,阿里通義團隊構建了一套合成數據驅動的完整訓練鏈路,覆蓋預訓(xun)練(lian)(lian)與后(hou)訓(xun)練(lian)(lian)階段。

該鏈路以Qwen3-30B-A3B模型為基礎進行優化,設計了RL算法驗證與真實訓練模塊,涵蓋真實與虛擬環境(jing),并借助異步強化(hua)學(xue)習算法(fa)及自動化(hua)數據(ju)策展(zhan)流程,有效提升(sheng)了模型的迭代速度與泛化(hua)能力。

在推理階段,通義團隊還設計了ReAct基于自研IterResearch的Heavy兩種模式。ReAct用于精準評估模型(xing)的(de)基礎內在能(neng)力,Heavy則通過test-time scaling策(ce)略,充分挖掘(jue)模型(xing)的(de)性能(neng)上限,確保(bao)在長任務中也能(neng)實現高質量推(tui)理。

結語:阿里進一步補全開源布局

今年以來,阿里已陸續(xu)開(kai)源(yuan)(yuan)WebWalker、WebDancer和WebSailor等多款檢(jian)索和推理(li)智(zhi)能體,且均取得開(kai)源(yuan)(yuan)SOTA成績。通義DeepResearch的開(kai)源(yuan)(yuan),進一步(bu)豐富了阿里在AI智(zhi)能體領(ling)域(yu)的開(kai)源(yuan)(yuan)布局。

通(tong)義DeepResearch的開源為深(shen)度研(yan)(yan)究Agent賽道(dao)提(ti)(ti)供了“輕(qing)量化高性(xing)能(neng)”的新(xin)選擇,也為全(quan)球(qiu)開發者攻克長周(zhou)期復(fu)雜研(yan)(yan)究任務提(ti)(ti)供了關(guan)鍵工具支撐。