
▲頭圖由AI生成
智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影
智東西9月17日報道,今天凌晨,阿里巴巴開源了其首個深度研究Agent模型:通義DeepResearch。
在Humanity’s Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等權威Agent評測集中,通義DeepResearch模型憑借3B激活參數,性能超越基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等(deng)旗艦模型的ReAct Agent(推理(li)-行(xing)動智能體)。
▲基準測試成績排名
▲基準測試分數
目(mu)前,通義DeepResearch的(de)模(mo)型、框架和(he)方案已在(zai)Github、Hugging Face和(he)魔(mo)搭社(she)區全面開(kai)源,開(kai)發者和(he)用戶(hu)可自行下載模(mo)型與(yu)代碼。
下載(zai)地址(zhi):
Github:
//github.com/Alibaba-NLP/DeepResearch
Hugging Face:
//huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
魔搭社區:
//modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B
深度研(yan)究作為近一年的AI研(yan)究熱點,吸(xi)引(yin)了谷(gu)歌、OpenAI、Anthropic等眾多主流(liu)企業(ye)投入研(yan)發(fa)。
深度研究研發的現有方法大多采用“單窗口、線性累加”的信息(xi)(xi)處(chu)理模式,在(zai)處(chu)理長周期任務時,Agent易(yi)遭遇“認(ren)知空間窒息(xi)(xi)”與“不可逆的噪聲污染”,導致推理能(neng)力降低,難以完成復雜研究任務。
據介紹,為解決這些問題,阿里通義團隊構建了一套合成數據驅動的完整訓練鏈路,覆蓋預訓(xun)練(lian)(lian)與后(hou)訓(xun)練(lian)(lian)階段。
該鏈路以Qwen3-30B-A3B模型為基礎進行優化,設計了RL算法驗證與真實訓練模塊,涵蓋真實與虛擬環境(jing),并借助異步強化(hua)學(xue)習算法(fa)及自動化(hua)數據(ju)策展(zhan)流程,有效提升(sheng)了模型的迭代速度與泛化(hua)能力。
在推理階段,通義團隊還設計了ReAct和基于自研IterResearch的Heavy兩種模式。ReAct用于精準評估模型(xing)的(de)基礎內在能(neng)力,Heavy則通過test-time scaling策(ce)略,充分挖掘(jue)模型(xing)的(de)性能(neng)上限,確保(bao)在長任務中也能(neng)實現高質量推(tui)理。
結語:阿里進一步補全開源布局
今年以來,阿里已陸續(xu)開(kai)源(yuan)(yuan)WebWalker、WebDancer和WebSailor等多款檢(jian)索和推理(li)智(zhi)能體,且均取得開(kai)源(yuan)(yuan)SOTA成績。通義DeepResearch的開(kai)源(yuan)(yuan),進一步(bu)豐富了阿里在AI智(zhi)能體領(ling)域(yu)的開(kai)源(yuan)(yuan)布局。
通(tong)義DeepResearch的開源為深(shen)度研(yan)(yan)究Agent賽道(dao)提(ti)(ti)供了“輕(qing)量化高性(xing)能(neng)”的新(xin)選擇,也為全(quan)球(qiu)開發者攻克長周(zhou)期復(fu)雜研(yan)(yan)究任務提(ti)(ti)供了關(guan)鍵工具支撐。