
智東西(公眾號:zhidxcom)
編譯 | 程茜
編輯 | 云鵬
智東西8月14日消息,本周二,一篇來自香港大學XLANG Lab 、月之暗面等多家機構聯合署名的論文在arXiv發表,提出了一個用于構建和擴展的CUA(計算機使用Agent)開源框架OpenCUA,這(zhe)一框架開源意味著用戶可以高效(xiao)、低(di)門(men)檻(jian)開發(fa)自主操作電(dian)腦(nao)的Agent。
香港大學計算機科學助理教授Tao Yu(余濤)為項目負責人,月之暗面、斯坦福大學、滑鐵盧大學、卡內基梅隆大學的研究人員參與,月之暗(an)面創始人(ren)、CEO楊植麟在(zai)作者(zhe)名單之列。
研(yan)究人員開源OpenCUA的(de)原因是(shi),目前(qian)CUA系統的(de)關鍵細(xi)節仍然處于閉源狀態(tai),為了擴展其(qi)輔助(zhu)用(yong)戶執行相應決策的(de)應用(yong)能力(li),研(yan)究人員需要訪問開源CUA框(kuang)架來研(yan)究其(qi)能力(li)、局限性和風(feng)險。
在此基礎上,研究人員提出了這一用于擴展CUA數據和基礎模型的綜合開源框架。
該框架包括:無縫捕獲人類計算機使用演示的注釋基礎設施;第一個跨越3個操作系統以及超200個應用程序和網站的大規模計算機使用任務數據集AgentNet;一個可擴展的(de)、能將演示轉換為具有反(fan)思性(xing)長(chang)思維(wei)鏈推理(li)“狀態-動作”對(dui)的(de)工作流程。
該模(mo)型(xing)是(shi)基于Kimi-VL-A3B、Qwen2-VL-7B、Qwen2.5-VL-7B和(he)Qwen2.5-VL-32B進(jin)行監督微調(SFT),獲得了OpenCUA模(mo)型(xing)變(bian)體:OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B和(he)OpenCUA-2.5-32B。
其中旗艦模型OpenCUA-32B在CUA基準測試OSWorld-Verified上的平均(jun)成功率達到34.8%,達到開源模型新的SOTA,甚至超越了(le)OpenAI CUA(GPT-4o)。
論文(wen)地(di)址://arxiv.org/pdf/2508.09123
OpenCUA主頁(工具、模型、數據集)://opencua.xlang.ai
一、查天氣、做PPT任務軌跡清晰明了,表現超OpenAI、Kimi、Qwen多個模型
研究人員在項(xiang)目主頁展示了OpenCUA使用計算機(ji)執行的任務軌跡。
在VScode中安(an)裝擴展的任務(wu)軌跡:
查詢英國曼(man)徹斯特(te)天(tian)氣預(yu)報(bao)的任務軌跡:
制作PPT的(de)任務軌跡:
在基礎測(ce)試驗(yan)證上,CUA基準(zhun)測(ce)試OSWorld-Verify中,OpenCUA-32B的(de)表(biao)現(xian)優(you)于Qwen、Kimi、OpenAI、Claude等開源(yuan)及閉源(yuan)模(mo)型,在部分(fen)(fen)任務表(biao)現(xian)上,獲得的(de)分(fen)(fen)數低于Claude?3.7?Sonnet、Claude?4?Sonnet。
在離線部署方面,研究人(ren)員(yuan)構建(jian)了計算機離線使用(yong)的Agent評估(gu)基準AgentNetBench,由從AgentNet數據集中選出的100個代表性任務組成,涵蓋(gai)Windows和macOS平臺以及不同的領域。
其中(zhong)每(mei)項任務都經(jing)過研究(jiu)人員(yuan)手動審查,以細(xi)化目標并(bing)刪除多余作,且由(you)于計算機使(shi)用任務中(zhong)有(you)效作固有(you)的多樣(yang)性,研究(jiu)人員(yuan)在每(mei)個步驟中(zhong)都手動提供了(le)多個有(you)效操作選(xuan)項。
OpenCUA-7B、OpenCUA-32B的平均分數均優于(yu)OpenAI、Qwen等模(mo)型。
GUI定(ding)位能力也就是模(mo)型面對圖形化界面(GUI),去識別按鈕、菜單、輸(shu)入框等視覺元素的(de)能力。其中研究人員(yuan)采用了OSWorld-G、Screenspot-V2、Screenspot-Pro三個基準,OpenCUA-2.5-72B的(de)每(mei)個測(ce)試表現都遠超(chao)其他(ta)模(mo)型。
二、簡化數據收集流程,發布22.5K計算機使用任務數據集
對于該(gai)框架的(de)具體實現方面,包含了如何收集高(gao)(gao)質量(liang)計算機使(shi)用Agent數(shu)據、形成數(shu)據集、高(gao)(gao)效擴(kuo)展等。
首先,高效、準確的注釋對于收集高質量的計算機使用Agent數據至關重要,但現有的工具不支持非技術用戶自然、跨平臺的任務記錄,因此研究人員開發了用戶友好的注釋工具AgentNet Tool,該工具(ju)可(ke)以(yi)簡化計算(suan)機(ji)使用演示的收(shou)集和(he)驗證(zheng),在(zai)注釋(shi)者的個人計算(suan)機(ji)上運行并在(zai)后(hou)臺(tai)記錄(lu)演示。
AgentNet Tool可捕獲跨(kua)Windows、macOS和(he)Ubuntu三(san)大操作系統的用戶交互,能(neng)記錄(lu)屏(ping)幕視(shi)頻、鼠(shu)標(biao)、鍵盤事件和(he)元數(shu)據,從(cong)而(er)擴展收集真實世(shi)界的計算機使用演示(shi)。
其次,AgentNet Method可以(yi)將(jiang)原始(shi)的用戶演示處(chu)理成(cheng)干凈(jing)的、可學習的狀(zhuang)態-動(dong)作(zuo)軌跡(ji),由此產生的軌跡(ji)包(bao)括內心獨白式(shi)的思想和行動(dong)歷史,使其適合視覺語言模型訓練(lian)。
這些處理后的數據被整理到AgentNet數據集和AgentNetBench中(zhong)。該(gai)(gai)數(shu)據集涵蓋了100多個(ge)應用程序和(he)200多個(ge)網站的各種(zhong)開放領域任(ren)(ren)務。該(gai)(gai)基準測試提(ti)供(gong)任(ren)(ren)務指(zhi)令、步驟(zou)歷史記錄和(he)每個(ge)步驟(zou)的多個(ge)黃(huang)金標準作,以實現高效(xiao)離線評估。
該數(shu)據集包含22.5K人工標注的(de)計算機使(shi)用任(ren)務(wu),包括Windows的(de)12K、macOS的(de)5K和(he)Ubuntu系統(tong)的(de)5K。這些任(ren)務(wu)涵(han)蓋140多(duo)個應(ying)(ying)用程序(xu)(xu)和(he)190個網站(zhan),通常(chang)涉(she)及多(duo)應(ying)(ying)用程序(xu)(xu)工作流程、專(zhuan)業工具和(he)不常(chang)見的(de)功能。
其(qi)研(yan)究論文提到,與(yu)以(yi)往的GUI數(shu)據(ju)集相比,AgentNet是(shi)第一個真實、復雜、多(duo)(duo)樣、多(duo)(duo)模態的桌面(mian)軌跡級數(shu)據(ju)集。
▲OpenCUA的基本框架
最后,OpenCUA能使用反思性思維鏈推理、多圖像歷史和混合域數據在數據集上進行訓練,它們(men)可以在跨作系統的真(zhen)實桌面環境中執行,以執行計算機使用任務。
值得一(yi)提(ti)的(de)是,高Pass@N性能也表明OpenCUA-7B具(ju)有強大的(de)測(ce)試(shi)時間擴展潛力(li)。Pass@N是評估生成式模型(xing)在代(dai)碼生成、程序合成、推理(li)任(ren)務(wu)中性能的(de)重要指標,用(yong)于衡量模型(xing)在多次嘗試(shi)內生成正(zheng)確結果的(de)概率。
▲OpenCUA的Pass@N性能
結語:OpenCUA為計算機使用Agent規模化鋪路
計算機使用Agent是一(yi)種(zhong)能夠通過與計算機圖形用戶界面(GUI)交互(hu)來自動執行數(shu)字(zi)任務的智能體,但(dan)由于(yu)數(shu)據(ju)稀缺、人工采(cai)集(ji)成高、難以私(si)有化部(bu)署等(deng)痛點,使得其走向規模化應用落地有諸多(duo)瓶頸。
此(ci)次,OpenCUA在開源模型基礎(chu)上進行監督微調(diao)獲得(de)模型變體,降低(di)了(le)計算機使用(yong)(yong)Agent的(de)數據(ju)(ju)獲取成(cheng)本,并形成(cheng)了(le)跨三(san)個操(cao)作系統、上百個應用(yong)(yong)和網頁的(de)數據(ju)(ju)集,對于其進一步調(diao)用(yong)(yong)多種工(gong)具、理解用(yong)(yong)戶需(xu)求、高效任(ren)務執(zhi)行等方面將提(ti)供助力。
最新評論