
智東西(公眾號:zhidxcom)
作者 | 中國AI算力大會
6月26日(ri),首屆2025中國AI算力大會(hui)在(zai)北(bei)京隆重舉(ju)行(xing)。實(shi)在(zai)智能合伙人、核心算法負(fu)責人歐陽小剛在(zai)大會(hui)主(zhu)會(hui)場以《實(shi)在(zai)Agent智能體(ti)技術(shu)與(yu)端側應(ying)用探(tan)索》為主(zhu)題(ti)發表演講。
歐(ou)陽(yang)小剛(gang)指出,“大模型和智能體的結合(he),正在推動企業(ye)工作方式從‘以(yi)(yi)人為中(zhong)心、AI輔助(zhu)(zhu)’向‘以(yi)(yi)AI為中(zhong)心、人類輔助(zhu)(zhu)’的深(shen)刻轉變。”
相較于早期AI只能在有限(xian)流程(cheng)內完成部分替代,如今以大模型為(wei)核心的(de)(de)智(zhi)能體正逐步具備跨域、多步驟(zou)的(de)(de)動態任(ren)務處理(li)能力,為(wei)企業帶來(lai)了(le)深刻的(de)(de)流程(cheng)重塑和提質增(zeng)效的(de)(de)機(ji)會。
演講(jiang)中,歐(ou)陽(yang)小剛圍繞企業級智能體能力(li)(li)體系的(de)構建、端側算力(li)(li)部署的(de)探索、產品架構設計及客戶案例分享等方面,展開(kai)了深入講(jiang)述。
以下為歐陽小剛的演講實錄:
大家(jia)下午好,我(wo)是(shi)實在智能(neng)核心算法部的(de)負責(ze)人歐(ou)陽小剛(gang)。今天在座的(de)各(ge)位專家(jia)多聚焦于(yu)算力(li)以及(ji)底(di)層(ceng)硬件方向,我(wo)們公司(si)則(ze)更關注大模型和智能(neng)體在應用層(ceng)的(de)落地,以及(ji)在落地過程中(zhong)與算力(li)結合過程中(zhong)的(de)探索與思考。
隨著(zhu)大模型(xing)和人工(gong)智能技術的(de)發(fa)(fa)展(zhan),企業(ye)端或辦公端的(de)工(gong)作方式正在發(fa)(fa)生(sheng)顯著(zhu)變化(hua)。
過(guo)去以人為中(zhong)心,AI更多承擔輔助工具的(de)角(jiao)色,幫助實現部分(fen)工作的(de)自動(dong)化或(huo)效率提升,例(li)如OCR、NLP等技術輔助,完成部分(fen)信息抽取和流程自動(dong)化。
如(ru)今(jin),隨著大模型在意圖理解、邏輯(ji)推理等方面能力的(de)持續(xu)增強,以及(ji)智(zhi)能體(agent)概念的(de)快速(su)發展,工作(zuo)模式正在向“以AI為(wei)中心、人類輔助(zhu)”轉變。
一、從有限域到無限域,通用智能體架構讓大腦與手腳“融合”
傳統(tong)軟件(jian)大(da)多只能完成預定義、有(you)限域的(de)任(ren)務,比如財務、物(wu)流中的(de)標準(zhun)化操(cao)作。但(dan)是現在企業的(de)需求往往是跨(kua)(kua)域的(de)、動(dong)態的(de),甚至不可預知(zhi)的(de),要求AI能在一(yi)個(ge)流程結束(shu)后(hou)自動(dong)銜接下(xia)一(yi)個(ge)環(huan)節,實現跨(kua)(kua)系統(tong)、跨(kua)(kua)業務模塊的(de)協(xie)同(tong)聯動(dong)。
那(nei)么,通(tong)用智能(neng)(neng)體(ti)該(gai)如何適應(ying)(ying)當下的這種改變呢?或者說,通(tong)用智能(neng)(neng)體(ti)應(ying)(ying)該(gai)具備什么樣的能(neng)(neng)力,擁有哪些特(te)性(xing)?
這(zhe)種情況下,我們(men)就(jiu)需(xu)要(yao)一個既具(ju)備泛化能力(li),又(you)能在垂直行業場景中擁有足夠操作能力(li)的智能體,也就(jiu)是(shi)說,既要(yao)有“大腦(nao)”能力(li),也要(yao)有“手腳(jiao)”能力(li)。
大腦主要是(shi)大模(mo)型提供的(de)(de)意圖理解、推理規劃(hua)能(neng)力,手腳(jiao)則是(shi)底層(ceng)的(de)(de)RPA、MCP、A2A等能(neng)力,保證(zheng)真正把規劃(hua)轉成(cheng)可(ke)執行的(de)(de)動(dong)作。
大模(mo)型本(ben)身在(zai)(zai)通用(yong)層(ceng)面存(cun)在(zai)(zai)一定的(de)(de)能力瓶頸,所以(yi)通用(yong)智能體需要在(zai)(zai)任務理解上掌握(wo)足(zu)夠多(duo)的(de)(de)領(ling)域知識和行業Know-How,以(yi)此來保證執(zhi)行模(mo)塊可以(yi)覆(fu)蓋到PC端、網頁端、手(shou)機端,甚至各類(lei)定制化軟件系統(tong)。
因此,實在(zai)智(zhi)(zhi)能的(de)目標是打造一個具(ju)備泛化能力且操作完備的(de)企業(ye)級通用智(zhi)(zhi)能體。
在(zai)這樣(yang)的(de)(de)背(bei)景下,我(wo)們提出的(de)(de)實在(zai)Agent,就是一個面向(xiang)流程自動化的(de)(de)通用(yong)智能(neng)體(ti)產(chan)品。這是一款(kuan)能(neng)夠自主規劃流程,并(bing)能(neng)夠模擬(ni)人(ren)類在(zai)電腦、手(shou)機等系統(tong)中自動工作的(de)(de)通用(yong)智能(neng)體(ti)和軟件機器人(ren)。
和目前大家看到的Manus、Browser User等產品相比(bi),我們的方案在整體架(jia)構上做了更(geng)深度的融合,不(bu)僅(jin)僅(jin)是(shi)云端控制,而是(shi)具備本地深度接(jie)入(ru)、執行以(yi)及可持續優(you)化能力(li)。
二、多層次算力與流程閉環:打造企業可控的自動化智能體
具體來(lai)看,實在Agent的(de)底層架構分成幾個層次。第一層是(shi)基礎算(suan)力(li),包括私有化集群、云端(duan)算(suan)力(li)資源、端(duan)側算(suan)力(li)資源,都(dou)在企業不同部署需求下發(fa)揮作用(yong)。
第二層是算(suan)法層,除了垂(chui)直(zhi)領域大(da)模(mo)型和多模(mo)態大(da)模(mo)型以外(wai),也(ye)考慮在端側引入大(da)模(mo)型加(jia)專家小(xiao)模(mo)型的混合(he)部(bu)署(shu),保證本地可控(kong)性、降低推(tui)理延遲,同時節省算(suan)力成本。
再往上是數據層(ceng)和知識(shi)層(ceng),包(bao)括企業自有的(de)知識(shi)、外部(bu)的(de)公共知識(shi),通過(guo)能(neng)力(li)層(ceng),比如RAG、屏(ping)幕理解(jie)、多模態(tai)理解(jie)、軟件操作能(neng)力(li),形成可執行的(de)流程閉(bi)環。
在場景層,目前我們聚焦在四大主要方向:流程辦理、知(zhi)識問答(da)、數據(ju)分析、文(wen)檔處理。
比(bi)如流程辦理,不(bu)只是一個業(ye)(ye)務(wu)系統的自(zi)動化(hua),而(er)是可(ke)(ke)以跨(kua)越(yue)多個業(ye)(ye)務(wu)模(mo)塊,實現系統間的信息(xi)流轉(zhuan)和(he)自(zi)動化(hua)接管。知(zhi)識(shi)問(wen)答則(ze)通過RAG技術,讓(rang)大(da)模(mo)型結合(he)企業(ye)(ye)自(zi)有知(zhi)識(shi)庫,形成(cheng)真正(zheng)可(ke)(ke)用的問(wen)答助手。數據分(fen)析(xi)里,支持跨(kua)系統信息(xi)整合(he)、結構化(hua)輸出。文檔(dang)處理方面(mian),則(ze)從文檔(dang)解析(xi)、抽取(qu)到自(zi)動審核,都(dou)做了深度(du)集成(cheng)。
在應用端,該智能體兼容OA、ERP、CRM、WMS這些(xie)企業核心(xin)軟(ruan)件系(xi)統(tong)。
此外(wai),實在Agent包括(kuo)兩種形態:一是API-Agent工作流模(mo)式(shi)(shi),將(jiang)大模(mo)型(xing)、知識庫、文檔(dang)能力與RPA能力組合;二是UI-Agent模(mo)式(shi)(shi),可通過一句話指令(ling)生成可執行工作流,由(you)RPA組件自(zi)動(dong)完(wan)成操作。
三、核心模型與產品能力:支撐智能體可持續演進
核心技術層面,我們重點訓練了專屬的TARS大模(mo)型(xing),在步(bu)驟(zou)拆解(jie)、組件(jian)映射上(shang),相(xiang)比GPT-4o、DeepSeek-R1、Qwen2.5-72B等在多(duo)個指標上(shang)超越,并且支持私有化部署。
第(di)二是TARS-VL多模態大模型(xing),它針對GUI界面和屏幕語義的(de)理解,做(zuo)了大規(gui)模訓(xun)練,包括元素定位、狀(zhuang)態判(pan)定、異常識別,在Mind2Web、ScreenSpot等(deng)標準數據集上(shang)取得較為顯著的(de)成績(ji),且提升GUI理解能力大約3個(ge)百(bai)分點。
第三,除外(wai)對兩個模型的強化以外(wai),在落(luo)地過(guo)程(cheng)中,我們還結合(he)超過(guo)1000款企業常用軟件、上萬種業務場景(jing)做了(le)預(yu)訓練(lian),形成一個包含流(liu)程(cheng)操作(zuo)、數(shu)據(ju)采集、狀(zhuang)態識別等能力的知識庫和(he)指(zhi)令(ling)體系。
這樣(yang)即使面對陌生的軟件環境,也能快(kuai)速適配并遷移操作策略(lve),降低未知(zhi)適配的成本。
在(zai)產品特性(xing)方面,實在(zai)Agent支持一句(ju)話生成(cheng)流程,用戶不需要專業技能(neng)就能(neng)使(shi)用,具(ju)備極簡易用性(xing)。
它打通了(le)AI與RPA工作流(liu)的整(zheng)合,能真正跨系統(tong)完成數據流(liu)轉,本地(di)RPA流(liu)程(cheng)也支持一鍵跳轉到流(liu)程(cheng)可視化(hua)編輯界面,方(fang)便后(hou)期優(you)化(hua)。并(bing)且其還內置了(le)大量工具和模(mo)板(ban),包括(kuo)網(wang)頁(ye)抓取、IPD文檔處理、網(wang)絡搜索、流(liu)程(cheng)市場,方(fang)便企業快速復用(yong)并(bing)減少重復開發。
我們也(ye)建(jian)設了(le)一個智慧中心,能(neng)對智能(neng)體、知識庫、工具進行上下架管理,并提供(gong)數據(ju)可(ke)視化分(fen)析,未來也(ye)能(neng)接入企業自(zi)研或者外部采購(gou)的(de)大模(mo)型,靈活地按需配置。
四、跨端探索與端側優化:讓智能體觸達真實業務場景
智能體的能力(li)需要算力(li)的支(zhi)持(chi),無論(lun)是(shi)私有(you)化(hua)算力(li)集群、云端資(zi)源,還是(shi)端側硬件,都必須形成協同。
特別是在(zai)端側部署方(fang)面(mian),客戶普遍(bian)要求數(shu)據安全可控,需要通過(guo)模(mo)型(xing)量化、裁剪及大模(mo)型(xing)和(he)小模(mo)型(xing)的混合部署方(fang)案,兼(jian)顧性(xing)能和(he)成本。此外,在(zai)算法層面(mian)可采用輕量模(mo)型(xing)預處理(li),結合大模(mo)型(xing)完成復(fu)雜推(tui)理(li),降低算力占用并優化執行效(xiao)率。
實在智能還建設(she)了(le)數字員工運營平臺,將已執(zhi)行過(guo)的流程和任(ren)務規(gui)劃(hua)經驗(yan)沉淀為(wei)長期記憶,供后(hou)續(xu)(xu)智能體(ti)規(gui)劃(hua)調(diao)用,實現持(chi)續(xu)(xu)優(you)化。
在(zai)算力和(he)需(xu)求雙向驅動的(de)架構(gou)里,我們規劃的(de)是服(fu)務(wu)端管理與下發(fa)、端側執行、以(yi)及通過數(shu)字員工(gong)運營(ying)平臺形成可持續優化(hua)的(de)反饋回(hui)路。
在前(qian)后端系(xi)統聯調和部(bu)署加速方面,實在Agent也做了多種探索。
在PC端,我們(men)與惠普基(ji)于(yu)ZBook系列AI PC產品,共同打造了一套適合企(qi)業場景的端側智能(neng)體(ti)解(jie)決(jue)方案(an)。考慮到(dao)PC端相(xiang)較一體(ti)機或工作站的算力限(xian)制,我們(men)在方案(an)中(zhong)引入(ru)本地小(xiao)型知識庫,以及大模型與小(xiao)模型混合部署方案(an),用于(yu)屏幕識別與頁面處理。
歐陽小剛提到與惠普聯(lian)合打(da)造的Z系列數字(zi)員(yuan)工(gong)一體機(ji),搭載實在智能的企業大腦服務,開箱30分鐘完成部署,核心業務與數據全程本地(di)處理。
Z系列(lie)數字員工一(yi)體機基(ji)于(yu)HP Z8 Fury G5工作站,得益于(yu)四(si)塊NVIDIA? RTX 5880 Ada的強大算力(li),輕(qing)松支持部(bu)門級與(yu)企業級的AI部(bu)署方案(an)。
例如,在頁(ye)面(mian)理解上(shang),將傳統CNN訓(xun)練的(de)目標(biao)(biao)檢測能(neng)力(li)和OCR能(neng)力(li),與多模態大模型(xing)進行(xing)任務路由,通過OCR或目標(biao)(biao)檢測對頁(ye)面(mian)進行(xing)預(yu)處理,再交由大模型(xing)做深入識別(bie),從而加(jia)快整(zheng)體推理過程并降低(di)對高性能(neng)顯存(cun)的(de)占用(yong)。
在手機(ji)端(duan),我們也(ye)打造了“實在手機(ji)Agent”,包含兩種(zhong)形態。一(yi)(yi)種(zhong)是通(tong)過手機(ji)遠程控制(zhi)PC端(duan)或云(yun)端(duan)的智能體(ti)體(ti)系,實現任務下發和狀(zhuang)態監控,方便企業移動辦公;另一(yi)(yi)種(zhong)則在手機(ji)本地運行輕量化智能體(ti),通(tong)過語(yu)音或觸控下發指令,完成(cheng)信息采(cai)集、自動化任務處理等場景。
舉例來說(shuo),一(yi)(yi)個場景(jing)是通過智能體收集全網熱(re)點(dian)信息并匯總成報告(gao),另(ling)一(yi)(yi)個是為經(jing)常出差人員提供的生(sheng)活助理(li)功能,支持在12306等平臺通過語音操作完成電子發票申請和開票流程。
此(ci)外,我(wo)們(men)還在(zai)探索(suo)基于(yu)云(yun)手機的批(pi)量運行(xing)方案,對于(yu)需要(yao)大(da)規模并行(xing)操作的企業任(ren)務,例如多店鋪的銷售(shou)數據采集(ji)(ji)或評論抓取,實在(zai)Agent可以在(zai)云(yun)手機環境(jing)中實現大(da)規模智能(neng)體并行(xing)調(diao)度,完成信息收集(ji)(ji)、匯總、分析等全流程能(neng)力。
車機(ji)端(duan)的(de)(de)探(tan)索也在(zai)持(chi)續推進,雖然目(mu)前仍處于早(zao)期階段,但(dan)我們嘗試通(tong)(tong)過(guo)視(shi)覺理(li)解(jie)和(he)模型調度來實現對車載第三(san)方(fang)(fang)應用(yong)的(de)(de)操作,因為車機(ji)自帶(dai)的(de)(de)軟(ruan)件通(tong)(tong)常可以(yi)被控制,但(dan)第三(san)方(fang)(fang)軟(ruan)件缺乏可用(yong)接(jie)口,需要通(tong)(tong)過(guo)純視(shi)覺的(de)(de)方(fang)(fang)式(shi)實現元素(su)定位和(he)功能(neng)觸發。這一原理(li)與(yu)PC端(duan)和(he)手機(ji)端(duan)的(de)(de)智能(neng)體能(neng)力邏輯是一致的(de)(de)。
在整體(ti)應(ying)用場景(jing)和客戶案例方(fang)面,目前我們落地(di)較多的(de)(de)(de)領域(yu)包括審(shen)核審(shen)計、數(shu)據挖掘(jue)研判、智(zhi)能問答等。比如在與某商業地(di)產企業合(he)作的(de)(de)(de)案例中,采用API Agent的(de)(de)(de)工作流(liu)模(mo)式,打造(zao)了一個超級助理,整合(he)知識查詢、數(shu)據分析和多智(zhi)能體(ti)協同,實現從智(zhi)能問數(shu)到多模(mo)型治理的(de)(de)(de)端(duan)到端(duan)流(liu)程(cheng),顯著優化分析效率。
舉個具(ju)體(ti)例子(zi),超級(ji)助(zhu)理可以針對“米(mi)村拌(ban)飯”這樣的企業進行洞察(cha)分(fen)析,先理解分(fen)析需求,然(ran)后(hou)篩選(xuan)合適(shi)的能力(li)模(mo)塊,規劃并執行分(fen)析步驟,形成洞察(cha)報告(gao)。
另(ling)一個案(an)例是與浙(zhe)江(jiang)菜(cai)鳥(niao)物流(liu)合作,圍繞人才補(bu)貼申(shen)請審(shen)核、智(zhi)能(neng)偏倉(cang)預(yu)警等業務流(liu)程,結合智(zhi)能(neng)體與RPA能(neng)力(li)打造數字員工方案(an),實現大幅度節省人工人天的投入,提高整體審(shen)核效(xiao)率和準確性。
客戶對引入(ru)數字員工后的ROI評估(gu)非常明確:就是原本需要多少人力(li)和時間完(wan)(wan)成(cheng)(cheng)的任(ren)務,現在(zai)通過(guo)智能體自動完(wan)(wan)成(cheng)(cheng),直接節約人力(li)資源成(cheng)(cheng)本,達到提質增效的目標。
最后簡要介紹一(yi)下(xia)公司情況。實(shi)在智(zhi)能成立于2018年,總部(bu)位(wei)于杭州,在北京、上海、廣州、深(shen)圳、日本東京、馬來西亞吉隆坡等地(di)均設(she)有(you)分支(zhi)機構(gou)。服(fu)務客戶主要涵蓋(gai)央(yang)國企、世(shi)界500強企業,在金融、制造、政務、電(dian)商(shang)等領(ling)域均有(you)大量落地(di)案例(li)。
我們的(de)(de)愿景是,“讓智能體成為企業可信賴、可控、可持續優(you)化(hua)的(de)(de)數字員工。”
謝謝大家。
以上是歐陽小剛演講內容的完整整理。