智東西AI前瞻(公眾號:zhidxcomAI)
作者 | 江宇
編輯 | 漠影

智東西AI前瞻7月29日報道,今日,豆包App宣布“視覺推理能力”全面升級,正式上線圖像分析的深度思考模式

用戶只需拍攝或上傳一張圖片,即可在“深度思考”模式下使用放大、裁剪、圖搜等功能,結合邊看圖邊發問的交互方(fang)式,實現更高精(jing)度的圖片語義理(li)(li)解和推理(li)(li)能力(li)。

這(zhe)一(yi)升級不僅支持(chi)識別圖中物體,更進一(yi)步延伸到(dao)對圖像背后場景(jing)的理解(jie)判(pan)斷。

一、拍圖就能提問,豆包開啟“邊看圖邊思考”新交互

在本次升級中,豆包(bao)新增的“深度思(si)考”模式,支持用戶圍繞圖片本身進行(xing)自由提問。

無論是拍攝街景、上傳老照片,還是記錄物件,都可以直接向豆包提出“這是什么”“在哪里”“屬于哪個年代”等問題,系統會結合圖像內容進行推理分析,給出解釋

功能入(ru)口(kou)已集成在豆(dou)包App對話界面中,用戶選擇(ze)“深度思考”,上傳圖片后即(ji)可(ke)觸發分析流程。

“以圖(tu)(tu)搜圖(tu)(tu)”模式下,豆包還可自(zi)動激活圖(tu)(tu)像放大、裁(cai)剪、圖(tu)(tu)片搜索(suo)等工具,幫助用戶(hu)進一步觀察細節,提(ti)升問答準(zhun)確性。

二、一次完整旅行對話:豆包從“在哪”到“帶啥相機”都能幫你安排

這次(ci)體驗中,智東西(xi)模擬了(le)一次(ci)“從照片出發規劃(hua)旅行”的完(wan)整對話流程。

1、上傳街拍圖,豆包識別出“你在哪”

第一步(bu),智東西上傳了一張街頭(tou)照片,并詢問“我在哪?”。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

豆(dou)包(bao)在未提供任(ren)何位(wei)置信(xin)息的情況下,識別出(chu)畫面為“上海的武康大樓附近(jin)”,并補充(chong)說明其為“上海具(ju)有(you)代表性(xing)的歷史建筑(zhu),也(ye)是(shi)網(wang)紅打卡(ka)地”。

進一步追問“這幅圖是不是照騙”“暑假適合去嗎”,豆包的回答也較為全面:指出照片中建筑外觀與實景一致,但構圖和光線可能增強了美感;同時給出天氣、人流、交通(tong)等方(fang)面的旅游建議,提醒避高溫(wen)、錯(cuo)峰(feng)出行、準備防暑(shu)物品等,具有(you)實際參考意義。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

2、上傳江南街景圖,豆包識別景點,并生成2天1夜旅行攻略

接著,智東西上傳了(le)一(yi)張江南水鄉風格的街景圖(tu),想讓豆包生成“換(huan)場”的旅游攻略(lve)。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

豆(dou)包識(shi)別出這是“蘇州平江歷史(shi)文化街區(qu)(平江路)”,并描述其“河道(dao)蜿蜒、白墻(qiang)黛瓦、搖櫓船穿行其間”的場景特征。

隨后提出(chu)“我想同時去這兩個地方,如何安排(pai)行(xing)(xing)程?”的(de)問題后,豆(dou)包生成了一份(fen)詳盡的(de)“武康大樓+平江路2天1夜”旅行(xing)(xing)攻略。

內容覆蓋每日路線、跨城交通、拍照點位、文藝店鋪、餐館推薦、防暑提醒等細節,結構(gou)清晰,實(shi)用(yong)性(xing)強。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

整體(ti)來看,豆包在“圖片分析”模式下,具備(bei)地(di)點(dian)識別能力,還能基(ji)于多個目標(biao)地(di)點(dian),串聯生成(cheng)完整的旅行(xing)計劃,展現出較(jiao)強的上(shang)下文理解(jie)與(yu)推理能力。

3、拍CCD攤位,豆包識別型號并推薦適合“出片”的機型

在確定了行(xing)程后,智(zhi)東西又上傳了一張街邊復古相機攤的圖,想讓豆包推薦(jian)適合(he)拍照的機型。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

豆包迅速(su)識別出圖中(zhong)主(zhu)要為“膠片傻瓜機”“旁(pang)軸相機”等(deng)類(lei)型(xing)(xing),并準(zhun)確指出Olympus μ2、Canon Autoboy D5、Leica CM等(deng)具體型(xing)(xing)號,細(xi)節識別能力(li)表現較為扎實。

此后,圍繞“如何選出片效果好的相機”的問題,豆包還提供了分層級的購機建議,包括新手入門、進階玩家的不同選擇,并對操作難度、風格偏好、預算區間等做出說明。

它還特別提示了購買二手機(ji)時需檢查快(kuai)門、鏡(jing)頭等細(xi)節,并估算了拍(pai)攝(she)和沖(chong)洗膠(jiao)片的(de)實際成本(ben)。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

在這類物品(pin)識別與使(shi)用建議任務中,豆(dou)包(bao)已初步(bu)具備“看圖-識別-建議”閉環(huan)能(neng)力,尤(you)其適用于旅游(you)類消(xiao)費決策場(chang)景。

三、冷門景點識別挑戰:這回豆包也拿不準

為測試在“非熱門地標+自然景觀”條件(jian)下的表現,智東西還上傳了(le)一張南京止馬嶺(ling)的實拍照片。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

這張圖沒(mei)有明(ming)顯的地標建筑或文字提示,視覺線索相對稀少。豆包未能識別出“止馬嶺(ling)”這一(yi)具體(ti)地點,但結(jie)合杉(shan)樹(shu)的外形特征、水中(zhong)生長(chang)環(huan)境以及秋(qiu)季色彩,判斷其為“池杉(shan)或水杉(shan)濕地景觀”。

調(diao)用(yong)10篇(pian)資料(liao)后,豆包推測可能(neng)拍攝于“成都白鷺灣濕地公園(yuan)”,并(bing)在參考結果中(zhong)提及“常州(zhou)翠竹公園(yuan)”“南京止馬(ma)嶺(ling)”等相似(si)景點——雖未(wei)命中(zhong),但說明其在模糊場景下具備一定類比和搜索整合(he)能(neng)力。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

不過,從整體判斷來看,豆包對于這類非網紅、無標識的自然景觀,其定位準確性仍有限。

結語:視覺能力升級,讓圖片成為“主動提問入口”

通(tong)過此次(ci)體(ti)驗可(ke)以看到(dao),豆包在視覺推(tui)理能力(li)升級(ji)后,已不再(zai)局(ju)限于“看圖識物”,而(er)是圍繞圖片內容展開(kai)多輪(lun)對(dui)話(hua)式分析,支(zhi)持定位(wei)、推(tui)薦、規劃、選品(pin)等(deng)復雜需(xu)求。

無論是(shi)上傳旅游(you)照(zhao)片判斷城市位置、分析圖中場景是(shi)否值(zhi)得游(you)覽(lan),還是(shi)識別(bie)老物件類型并(bing)給出購(gou)買(mai)建議,豆包(bao)均展示出清晰的答案(an)與解(jie)釋。

對于(yu)用戶而(er)言,這種“邊看圖(tu)邊問圖(tu)”的交互方式,不再要求精準描述,而(er)是讓(rang)圖(tu)像本身(shen)成為入(ru)口,推動(dong)AI推理主動(dong)向前走一步(bu)。

雖然在部分冷(leng)門場景下還存在判斷(duan)不準(zhun)、搜索(suo)依賴重的(de)(de)問題,但(dan)豆包在圖(tu)片分析中的(de)(de)表現已初(chu)步具備“能(neng)看圖(tu)、敢思考、會回答”的(de)(de)雛形,未來或將向更(geng)深入的(de)(de)圖(tu)像(xiang)語義理解能(neng)力演進。