智東西AI前瞻(公眾號:zhidxcomAI)
編譯 | 江宇
編輯 | 漠影

智東西AI前瞻(zhan)6月(yue)14日消息,The Browser Company推出新產品Dia,是(shi)一款AI驅動的網(wang)絡瀏覽(lan)器(qi),旨在簡化(hua)用(yong)戶(hu)日常(chang)互聯網(wang)任務,增強用(yong)戶(hu)的瀏覽(lan)體驗(yan)。

它圍繞著,The Browser Company所稱的“市場上最個性化AI的深度集成”而構建 。

與此前主打界面革新的Arc瀏覽器不同,Dia將重心從瀏覽器外觀轉向“操作邏輯”,即不再引導用戶如何瀏覽網頁,而是讓AI介入用戶的每一步操作,從搜索信息、整理筆記、寫郵件到網購比價,Dia都允許用戶直接通過AI對話來執行任務

這(zhe)不再是瀏覽器集成AI插件,而(er)是一種“以對(dui)話(hua)為入口”的與(yu)用戶交(jiao)互的全新邏輯(ji)。

真正的AI瀏覽器來了!Dia測試版上線,可跨頁面識別內容,自動跟進執行操作

▲Dia可(ke)一次引用多個選項卡。

當前測(ce)試版(ban)本(ben)僅支持(chi)macOS平(ping)臺。

The Browser Company成立(li)于(yu)2019年,總部(bu)位(wei)于(yu)紐約,其創始(shi)團隊(dui)由CEO Josh Miller和(he)CTO Hursh?Agrawal領銜,并由多位(wei)來自Chrome、Instagram、Tesla和(he)Medium的(de)工程師和(he)產品背景(jing)人員組(zu)成。

一、Dia讓AI參與到用戶的上網行為中去

The Browser Company的上一款(kuan)產品Arc曾嘗試以垂直選(xuan)項卡、“空間”功能等方式重構瀏覽器的界(jie)面,試圖引(yin)導(dao)用戶進入“更(geng)美、更(geng)有秩序”的瀏覽方式。

但CEO Josh Miller承認(ren),“Arc的創新過(guo)于超前,大多數人根本沒有(you)上(shang)手(shou)”。

相比之下,Dia完全拋棄了這些界面層的創新,回歸類似于Chrome的傳統瀏覽器布局,但(dan)其操作方式將徹底(di)不同。

用戶可隨時在右側對話欄與AI助手交談,讓其(qi)識別網頁內容、跨(kua)頁面(mian)調用歷史記(ji)錄,甚(shen)至(zhi)執行復雜任(ren)務(wu)。

真正的AI瀏覽器來了!Dia測試版上線,可跨頁面識別內容,自動跟進執行操作

▲使用Dia找(zhao)到論文后,可在右側(ce)對話框提出問題(ti)。

根(gen)據官網介紹,Dia參與了(le)用戶瀏覽網頁過程中的多個環節,成為實際操(cao)作中的輔助工具。例如:

  • 在寫作(zuo)時,Dia可直接在輸(shu)入框中提供文字建議,幫(bang)助用戶(hu)潤色郵件(jian)、總結會議紀要、推薦(jian)用詞(ci)與句式(shi);

  • 在學習或網購時,它能結合用戶的瀏覽軌跡和內容偏好,自動完成比價、分析評論,并給出替代商品建議;

  • 在處理日常事務時,Dia支持一鍵生成待辦事項、翻譯網頁內容或將網頁信息提煉成筆記,減少手動跳轉與復制

這背(bei)后主要依賴的(de)是OpenAI的(de)GPT-4.0模型,但(dan)Dia的(de)實現方式(shi)并不(bu)是簡單地在瀏覽器中放置一個(ge)“對話框窗口”,讓用(yong)戶手動(dong)提問(wen)、復制網頁再去ChatGPT聊天。

Dia的關鍵區別在于它把AI當作用戶操作網頁時的“代理人”。AI不僅能看到用戶正在瀏覽的頁面,還能理解頁面上的內容,主動識別用戶的需求,并直接參與到任務執行中,比如提取表格信息、自動填寫表單、生成摘要等。

換句話說,Dia不是讓用戶“和AI對話”,而是讓AI參與用戶在網頁上的行為,并幫用戶完成任務。

二、Dia構建的是“分布式助手系統”,而非單體模型

目前主流瀏覽器引入AI大致有(you)兩種(zhong)方式:一是Google的Gemini in Chrome路線,在已有的瀏覽器架構里,添加AI功能點,用戶仍然按傳統方式瀏覽網頁,AI只是額外工具二是Perplexity、OpenAI桌面端和The Browser Company的路線,瀏覽器將AI作為核心交互入口,用戶通過自然語言輸入與AI直接對話,AI自動識別網頁內容、主動執行任務,讓AI成為“操作代理”。

Dia并不試圖自己訓練大模型,而是構建了“Routing System+Skill System”兩大技術框架來調用不同(tong)AI能力:

  • 任務分配系統(Routing):為用戶的問題精準分配模型與任務路徑用戶說“我想買件外套”,Dia會調用具備上下文和瀏覽記錄的“購物助手”模型,識別來源、篩選偏好,而不是套用一個通用問答式聊天機器人。
  • 技能模塊系統(Skill):針對不同任務構建小型AI插(cha)件,例如用于寫郵件、總結網頁、分析代碼的模塊,會讀取用戶歷史數據,自動匹配語境、語氣或代碼風格。

真正的AI瀏覽器來了!Dia測試版上線,可跨頁面識別內容,自動跟進執行操作

三、瀏覽器是AI最理想的入口,意圖+數據+頁面接入三位一體

Dia之所以瀏覽器場景切入AI,而不是另起一個獨立應用,主要基于三點考慮:

1、用戶意圖最(zui)集(ji)中(zhong)的地(di)方(fang)是瀏覽器的地(di)址(zhi)欄

每(mei)次用戶(hu)按下“新建標簽頁(ye)”(CMD+T),輸(shu)入(ru)(ru)的(de)第一(yi)句話(hua)就是用戶(hu)當下的(de)需(xu)求表(biao)達。Dia把這個搜索欄變成AI的(de)入(ru)(ru)口,掌(zhang)握了用戶(hu)最自(zi)然(ran)、清晰的(de)需(xu)求表(biao)達。

2、瀏覽器擁(yong)有最(zui)完整的“上(shang)下(xia)文記(ji)憶”

Dia知道用(yong)戶打開了哪(na)些網頁、在(zai)哪(na)些平臺登錄、看了什么(me)內容、停留了多久。Dia可利用(yong)這些行為(wei)軌跡,來理解(jie)用(yong)戶的真實意圖并回以(yi)更貼近需求(qiu)的響應(ying)。

3、瀏覽(lan)器具備(bei)天然(ran)的“隱性權限”能力

通過網(wang)站(zhan)Cookie,Dia不僅能“看到”網(wang)頁,還可以以用(yong)戶(hu)的身(shen)份執(zhi)行操作:預(yu)訂餐廳、填寫(xie)表(biao)格、提交資料……雖然(ran)出于隱私考慮(lv),當(dang)前(qian)版本尚未全面(mian)開放這類操作,但The Browser Company已在內(nei)部驗(yan)證(zheng)了其可行性。

這是目前大多數AI聊天助(zhu)手尚不(bu)具備的能力。

Dia能“看到一切”,自然也帶來了巨大的隱私壓力。它(ta)可以讀(du)取用戶在網頁中輸入(ru)過(guo)的(de)任(ren)何內容,哪怕是社(she)保號、銀行卡號,理論上也能被AI引用。

The Browser Company對此(ci)承諾,Dia的(de)數據默認(ren)加密(mi)存儲在本(ben)地,云(yun)端處理只停留(liu)“幾毫秒”;涉及(ji)財務、健康等敏感信息的(de)交(jiao)互也設有(you)安全閾值,不會被(bei)輕易調用(yong)。

真正的AI瀏覽器來了!Dia測試版上線,可跨頁面識別內容,自動跟進執行操作

▲Dia的(de)隱私設置。

結語:這不僅是瀏覽器競爭,更是AI“入口之爭”

The Browser Company已累計融資約1.28億美元,2024年3月(yue)完(wan)成5000萬美元(yuan)A輪融資,估(gu)值(zhi)達5.5億(yi)美元(yuan)。

其投資(zi)方(fang)包(bao)括Pace Capital、LinkedIn前CEO Jeff?Weiner、Figma創始人(ren)Dylan?Field、Notion聯合創始人(ren)等(deng)科技大(da)佬。

The Browser Company的目標,是將Dia打造為“用戶與AI關系的起點”。換句話說,該公司的競爭焦點超出瀏覽器范疇,而是爭取成為那個最早理解用戶、陪伴用戶建立使用習慣的AI應用程序。

一旦用(yong)戶在Dia中建立了(le)長期語境(jing)、操作(zuo)習(xi)慣和信任關系,他(ta)們就更(geng)難遷移到其(qi)他(ta)AI應用(yong)程(cheng)序。Miller將其(qi)比作(zuo)Spotify和Apple Music的差異,即使(shi)Apple生態體驗(yan)更(geng)好,很多人仍(reng)不愿換掉(diao)Spotify,因為它(ta)理解用(yong)戶的音樂口味(wei)。

未(wei)來的(de)AI也是一樣。而Dia爭(zheng)取(qu)的(de),正是這個(ge)先發關系。

來源:The Verge、engadget、diabrowser.com