智東西(公眾號:zhidxcom)
編譯 |? 程茜
編輯 |? 云鵬

智東西9月5日(ri)消(xiao)息,9月4日(ri),字節(jie)Seed發布了原生GUI智能體UI-TARS-2,其可以(yi)自(zi)主操作電腦、手機完成搜(sou)(sou)索、創建(jian)網頁、搜(sou)(sou)集新(xin)聞(wen)、創建(jian)查詢(xun)工具、玩小(xiao)游戲等諸多任務,相關論文在9月2日(ri)發表于arXiv預(yu)印(yin)本(ben)平臺。

在GUI基準測試中,UI-TARS-2多項測試中超過了OpenAI和Claude Agent,同時其玩15款小游戲的水平已經達到人類水平的60%

字節跳動放出的Demo中,UI-TARS-2一口子完成了搜索字節跳動Seed 1.6新聞并部署網頁的任務。這一提示詞是“搜索關于字節跳動Seed1.6模型的新聞,然后以現代風格編寫一個網頁并部署”。

UI-TARS-2會先分解這一需求,包括(kuo)搜索(suo)模型相關新聞、便攜現代風格網(wang)頁、部(bu)署網(wang)頁三個(ge)任務(wu)。首先其通過LinkReader搜索(suo)了新聞,了解模型的核(he)心(xin)特征,然后為網(wang)頁創建項目(mu)目(mu)錄、選擇(ze)合適的設計方法、規劃網(wang)頁結構,創建成(cheng)功后還(huan)會自主檢查各項功能(neng)是(shi)否可(ke)以(yi)運行(xing)。

字節多模態Agent又進化!多項性能超OpenAI,玩游戲趕上人類水平

在技術報告中,研究人員提到針對GUI智能體在數據可擴展性、多輪強化學習(RL)、僅GUI操作的局限性以及環境穩定性方面的挑戰,其提出了系統化訓練方法:包含用(yong)于可擴展數(shu)(shu)據生成的(de)數(shu)(shu)據飛(fei)輪(lun)、穩定的(de)多(duo)輪(lun)RL框架、集成文件系(xi)統(tong)和終端(duan)的(de)混合GUI環境、用(yong)于大規模(mo)部署的(de)統(tong)一(yi)沙盒(he)平臺(tai)

論文(wen)地(di)址://arxiv.org/abs/2509.02544

Demo地址(zhi)://seed-tars.com/showcase/ui-tars-2/

一、拆解需求、使用搜索、創建網頁,都能一氣呵成

字節(jie)放出的(de)幾個Demo中,包含了UI-TARS-2創建(jian)重量單位(wei)轉換查詢工(gong)具、創建(jian)字符(fu)計數工(gong)具、為音樂老(lao)師創建(jian)演示網頁(ye)、比(bi)較數字大(da)小等任務。

首(shou)先(xian)是實現重量單位轉換查詢。

提示詞:編寫一個能夠將重量從一種單位轉換為另一種單位的函數。若原始單位是千克、目標單位是克,且待轉換的數值為瑪蒂爾德·塞尼耶(Mathilde Seigner)獲得凱撒獎(César Award)提名的次數加1,那么最終結果會是多少?

同(tong)樣,UI-TARS-2會先分解需求,找到瑪蒂(di)爾(er)德·塞尼(ni)耶(ye)獲(huo)得凱撒獎提名(ming)的次數,其通過多(duo)渠道驗證(zheng)確認(ren)有(you)3次,然后開始(shi)創建(jian)包含用于轉(zhuan)換重量單位函數的Python文件。

字節多模態Agent又進化!多項性能超OpenAI,玩游戲趕上人類水平

其次是Hugging Face數據集字符字數。

提示詞:請在Hugging Face上搜索熱門數據集,下載排名第一的數據集,并計算整個數據集中的字符總數。

拆解完(wan)任務后(hou),UI-TARS-2會(hui)打開谷歌瀏(liu)覽器,然(ran)后(hou)搜索(suo)查找熱門數據(ju)集(ji)。

字節多模態Agent又進化!多項性能超OpenAI,玩游戲趕上人類水平

第三個提示詞是“我是一名高中音樂理論教師,正在準備一門關于基礎音樂理論的課程,用于解釋音樂名稱、音階名稱、大調音階、八度分布和物理頻率等知識。請幫助我收集足夠的信息,設計出充實且權威的課程內容,并配上演示動畫,最后將它們輸出為網頁”。

UI-TARS-2會(hui)使用(yong)搜索工具(ju)查找(zhao)這(zhe)些需要(yao)解釋的知識(shi),然后(hou)為網(wang)頁規劃(hua)目錄、創(chuang)建。

字節多模態Agent又進化!多項性能超OpenAI,玩游戲趕上人類水平

第四個是使用Jupyter比(bi)較數(shu)字。

提示詞:使用Jupyter計算9.11和9.9哪個更大?

拆解(jie)任務后(hou),UI-TARS-2會創建用(yong)于比較兩個數字的Python腳(jiao)本,然后(hou)使用(yong)Jupyter來運行它(ta),最后(hou)給出(chu)了9.9比9.11大的正確答案。

字節多模態Agent又進化!多項性能超OpenAI,玩游戲趕上人類水平

二、玩游戲水平達到人類60%,多項測試超OpenAI、Claude

實證評估表明,UI-TARS-2相(xiang)較(jiao)于其上一代智能(neng)體UI-TARS-1.5,在基于GUI的(de)交互(hu)和游戲環境(jing)中(zhong)均表現出色

在GUI基準(zhun)測(ce)(ce)試(shi)中,該模型在真(zhen)實網站(zhan)上(shang)進(jin)行(xing)通用Web智能體(ti)的(de)在線推理與評(ping)估(gu)測(ce)(ce)試(shi)集(ji)Online-Mind2Web上(shang)達(da)(da)到88.2分,在真(zhen)實計算機環境中對多模態智能體(ti)進(jin)行(xing)開放式任務評(ping)測(ce)(ce)的(de)可(ke)擴展(zhan)基準(zhun)平臺OSWorld上(shang)達(da)(da)到47.5分,在面(mian)向Windows的(de)可(ke)復現(xian)、可(ke)擴展(zhan)的(de)多模態計算機智能體(ti)基準(zhun)平臺WindowsAgentArena上(shang)達(da)(da)到50.6分,在面(mian)向移動設備的(de)可(ke)擴展(zhan)、可(ke)復現(xian)的(de)自主智能體(ti)評(ping)測(ce)(ce)基準(zhun)AndroidWorld上(shang)達(da)(da)到73.3分,并在多項測(ce)(ce)試(shi)中超越(yue)了(le)Claude和(he)OpenAI Agent等。

字節多模態Agent又進化!多項性能超OpenAI,玩游戲趕上人類水平

在游戲環境中,UI-TARS-2在15款游戲套件中的平均歸一化得分為59.8分,約相當于人類水平的60%,分別比OpenAI CUA和Claude Computer Use等智能體高出2.4倍和2.8倍。

字節多模態Agent又進化!多項性能超OpenAI,玩游戲趕上人類水平

在(zai)開(kai)源游戲(xi)基準LMGame-Bench上,UI-TARS-2展現(xian)了其在(zai)長(chang)時程游戲(xi)推理方面的魯棒性。

此外,研究人員通過(guo)GUI-SDK擴(kuo)展(zhan)了智能體(ti)功能,使(shi)其能夠與終端和外部工具等(deng)系統級(ji)資源集成。

通過這一擴展,UI-TARS-2在長時程信息搜索基準測試中表(biao)現出色,并在軟件(jian)工程任務Terminal Bench上達到45.3分。

這些結果表明,研(yan)究人員為GUI Agent開發的(de)訓練(lian)方法,包括(kuo)多(duo)輪強化(hua)學習優化(hua)和可擴(kuo)展的(de)rollout基礎設(she)施(shi),能(neng)夠有效地遷(qian)移到其(qi)他(ta)交(jiao)互領(ling)域(yu),從而(er)擴(kuo)展Agent的(de)適用性。

三、針對GUI智能體痛點,提出四大支柱系統方法論

GUI智能體的傳(chuan)統(tong)方法通(tong)常采用模塊化管道(dao),分(fen)別設計感知、規(gui)劃、記憶和(he)行動等組件,但其嚴(yan)重(zhong)依賴專家啟發式方法和(he)任務特定(ding)規(gui)則,導致系統(tong)脆弱且難以(yi)擴(kuo)展。

在此(ci)基礎上,字節Seed團隊提(ti)出了一(yi)種基于四大支柱的系統方法論:

首先,為緩解數據稀缺問題,研究人員設計了一個可擴(kuo)展的(de)數據(ju)飛輪,通過持續預訓練、監督微調、拒絕采樣和多輪強化學習(xi)協同(tong)進化模型及(ji)其訓練語料庫。該框架(jia)提供(gong)持續流入的(de)多樣化、高質量(liang)軌跡,并(bing)確保模型和數據在自我強化的(de)循環中(zhong)迭代(dai)改進。

其次,為克服可擴展多輪強化學習的困難,研究人員設計了一個訓練框架,在長時程(cheng)環境(jing)下穩定優(you)化,這(zhe)包(bao)括具有(you)狀態環境(jing)的(de)狀態異步展開以(yi)保留(liu)上(shang)下文(wen)、流式更(geng)新以(yi)避免長尾軌跡造成的(de)瓶頸,以(yi)及增(zeng)強型(xing)近(jin)端策略優(you)化,結(jie)合獎勵塑形、自適應優(you)勢(shi)估計(ji)和值預(yu)訓練。

第三,為了超越純GUI交互的限制,研究人員構建了一個以GUI為中心(xin)的混合環境,通過增(zeng)加屏(ping)幕操作(zuo)與(yu)文件系(xi)統(tong)、終端和其他外部工(gong)(gong)具等互(hu)補資(zi)源的訪問,使智能(neng)體能(neng)夠解決更廣泛的實際工(gong)(gong)作(zuo)流程。

第四,為了支持大規模訓練和評估,研究人員建立了一個統一的沙盒(he)平臺,從用于GUI交互的(de)云(yun)虛擬機到基于瀏(liu)覽器的(de)游(you)戲沙盒(he)能(neng)夠協調異(yi)構環境,使其(qi)在一致的(de)API下運行。該(gai)平(ping)臺(tai)經過設計以確保可重復(fu)性(xing)、穩定(ding)性(xing)和高吞(tun)吐(tu)量,使其(qi)能(neng)夠可靠地運行數百(bai)萬(wan)次交互式部署。

結語:UI-TARS-2實現多場景均衡性能

UI-TARS-2通過結合多輪強化(hua)學(xue)習、監督微調、拒絕采樣和(he)(he)持續預訓練(lian)的(de)迭代流程進(jin)行訓練(lian),從(cong)而實(shi)現在異構領(ling)域(yu)持續改(gai)進(jin)。研(yan)究人員在論文中(zhong)提到,他們的(de)實(shi)驗表明,雖(sui)然領(ling)域(yu)特定的(de)變(bian)體(ti)可以在單個基準測試(shi)中(zhong)取得峰(feng)值分(fen)數,但UI-TARS-2在單一統一系統中(zhong)實(shi)現了跨GUI、瀏(liu)覽器、移動和(he)(he)游戲任務的(de)平衡且具有競(jing)爭力的(de)性能。

除了基準(zhun)測(ce)試(shi)結果(guo)外,他們(men)還針對(dui)訓(xun)(xun)練動態(tai)和(he)交互擴展進(jin)(jin)行了分析,為多輪(lun)智(zhi)能(neng)體強(qiang)化學習提供思路,證明(ming)模型在多樣化環境(jing)中進(jin)(jin)行訓(xun)(xun)練能(neng)夠促進(jin)(jin)參數共享和(he)能(neng)力遷移,從而產生融合圖形交互與更復雜推(tui)理(li)和(he)決策能(neng)力的混合技能(neng)。他們(men)認為,UI-TARS-2代(dai)表了對(dui)更強(qiang)大、可靠和(he)多功能(neng)計算機使用Agent的邁進(jin)(jin)。