智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影

最近幾天,支付寶App中悄然出現了一項新的AI應用——“探一下”。在“掃(sao)一(yi)掃(sao)”頁面下(xia)(xia)方切換至“探一(yi)下(xia)(xia)”就能體(ti)驗。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

與傳統的識物、搜題等視覺搜索應用不同,“探一下”的核心亮點為探索。識圖辨物只是開始,在此基礎上,有探知識探靈感探文本等能力板塊。

從視覺搜索到智能推薦信息,“探一下”可成為一本隨身的“視覺百科全書”。逛展時(shi),打開“探一(yi)下(xia)”對(dui)(dui)準畫作,背(bei)后的故事(shi)、歷史背(bei)景、藝術風格都一(yi)覽(lan)無余。踏青時(shi),打開“探一(yi)下(xia)”對(dui)(dui)準花朵,不僅(jin)能識別(bie)出名稱、科屬,還有文(wen)化、園藝的相關(guan)知識。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

“探一下”也可以識別同款商品、給出藥物使用指南,或是翻譯外文菜單,并鏈接到支付寶豐富的商業生態,提供用車、醫療等服(fu)務(wu),使(shi)用場景很廣(guang)泛。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

當切換至探靈感功能時,它可以根據場景靈活配文,可幽默、可治愈,在寵物、辦(ban)公等場景,還會有“讀心”、“卷(juan)王(wang)”等定制(zhi)濾(lv)鏡,適合想曬(shai)圖但不(bu)知道怎么寫文(wen)案的人。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

這些實用、有趣的功能背后,其實是視覺搜索產品在GenAI(生成式AI)時代范式轉變的縮影,告別過去的傳統判別式方案,多模態大模型驅動的AI視覺搜索方案正逐漸走(zou)向規模化應用。

在海外,Google Lens這一爆款視覺搜索產品,已憑借GenAI成為谷歌增長最快的查詢類型之一,每月視覺搜索調用量超200億次。依托于掃一掃的用戶群體、支付寶的龐大商業生態圈以及螞蟻的技術積累,“探一下”會否成為國內對標乃至超越Google Lens的現象級產品呢?

一、視覺搜索賽道火熱,理解分析能力亟待突破

過去20多年中,傳統的文字搜索引擎已成為了搜索的標準形態。不過近幾年來,原本作為文字搜索補充的視覺搜索已經逐漸走到臺前。2022年,谷歌開發的視覺搜索應用Google Lens每月執行的視覺搜索任務已超過120億次,2024年這一數字已達200億次,并持續快速增長。

從用戶角度來看,視覺搜索能提供超越文字限制的直觀搜索體驗,還能幫助用戶發現更多相關信息,從而激發新的創意與靈感。在傳統文字搜索增長進入穩定期后,視覺成為眾多互聯網科技企業發力的重點之一。

從商業價值的角度來看,視覺搜索能在電商、社交媒體等領域提供全新的體驗,成為連接用戶與商業服務的重要橋梁,催生新的(de)商(shang)業模式與價值。國內與國際的(de)淘(tao)寶(bao)、亞馬遜等(deng)電商(shang)平臺紛紛推出(chu)相關服務(wu),正(zheng)是(shi)出(chu)于這一考(kao)量。

然而,在中國,現象級的視覺搜索產品尚未出現。許多廠商(shang)的視覺搜索(suo)基于(yu)AI1.0時代的判別式(shi)基礎視覺算法,依托(tuo)大(da)量數據,專(zhuan)注于(yu)某(mou)一垂直領域,如搜題、識花、購物等,未能(neng)實現破圈。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

即便是具備“識萬物”能力的產品,也大多停留在了“識你所見”的層面,并且在復雜場景上的表現并不理想。當用戶需要了解圖片背后的更多信息時,仍需鏈接到搜索引擎的結果,理解分析能力成為上(shang)一代(dai)視覺(jue)搜(sou)索的明顯短板,亟待突破。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

二、從判別到生成,GenAI重新定義視覺搜索

互聯(lian)網誕(dan)生以來,搜(sou)索的(de)(de)(de)形態就處于(yu)(yu)不斷流(liu)變的(de)(de)(de)過(guo)程中。以Google為代表的(de)(de)(de)傳統搜(sou)索通過(guo)匹配(pei)關鍵(jian)詞來獲取信(xin)息,其核心是基于(yu)(yu)文(wen)字的(de)(de)(de)資訊檢索。

隨著(zhu)深度學習浪潮的開啟,視覺搜索應運而生,以(yi)Google Lens早期(qi)版(ban)本為代表的同類(lei)產品(pin)以(yi)圖(tu)像識別技術為核(he)心,匹配數據庫中的物體、場景或文字。

在GenAI技術的洗禮之下,傳統(tong)搜(sou)(sou)索已(yi)往生成式搜(sou)(sou)索靠攏,顯(xian)然(ran),視覺搜(sou)(sou)索也需(xu)要(yao)順應這一趨(qu)勢。用戶已(yi)經(jing)不再滿足于僅僅獲取信息,而是(shi)期待更(geng)豐富(fu)、更(geng)智能、更(geng)個性化的體(ti)驗與解讀。

視覺搜索需要從單純的信息檢索工具,進化為能夠理解用戶意圖、提供個性化內容、激發創意靈感、連接服務生態的下一代生成式視覺搜索

GenAI對視覺搜索的變革性意義已經成為共識。

去(qu)年(nian),谷(gu)歌旗(qi)下的視覺搜(sou)索產品已與大模(mo)型(xing)進(jin)行了深(shen)度融(rong)合,可(ke)在識別畫面信息之外回答用(yong)戶的問題,內容由模(mo)型(xing)進(jin)行整合并(bing)輸出。Google Lens還進(jin)一步支持了視頻提問、語音(yin)提問等功能,同(tong)樣也可(ke)為用(yong)戶提供豐富、個性化的交(jiao)互體驗。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

蘋果也(ye)提升了對視覺(jue)智(zhi)能(neng)(neng)的(de)重視。新款iPhone的(de)“相機(ji)控(kong)制”按鈕能(neng)(neng)一(yi)鍵啟(qi)用(yong)視覺(jue)智(zhi)能(neng)(neng),成(cheng)為Apple Intelligence的(de)視覺(jue)入口,支持拍餐廳(ting)看(kan)評(ping)價(jia)、拍傳單添加日程、拍小狗看(kan)品種、拍商品買同款等新穎的(de)交互體驗(yan)。

支付寶近期推出“探一下”,也正是由于他們把握住了生成式視覺搜索這一視覺搜索領域的新趨勢。“探一下”業務負責人蔡偉(David Cai)曾在谷歌工作,從零開始深度參與了Google Lens等視覺搜索項目,他認為這一代基于多模態大模型的視覺搜索技術變遷有兩大趨勢,一是由搜索走向生成,二是由文本輸入走向多模態、全模態輸入。

據了解,“探一下”的視覺原生解決方案將多(duo)模態(tai)(tai)大(da)模型能力同mRAG(多(duo)模態(tai)(tai)檢索增強生成)、基礎視覺算法(fa)、Agent能力相結(jie)合,以(yi)視覺為中心,提供了以(yi)探索為核(he)心亮點,有(you)用(yong)、有(you)趣的用(yong)戶(hu)體驗。

為穩住識別等“求知”類需求的基本盤,并進行更具深度和廣度的分析解讀,“探一下”采用多模態大模型全圖理解+open-set多主體檢測的技術鏈路,能夠識別(bie)(bie)特定場(chang)景中的多個主體,并(bing)將識別(bie)(bie)的結(jie)果聚合到(dao)一(yi)起,從(cong)而實現意圖識別(bie)(bie)的快響應、高精度(du),并(bing)借(jie)助(zhu)大模型理(li)解力和知識力,進一(yi)步分析(xi)信息(xi)(xi)、理(li)解信息(xi)(xi)、提供信息(xi)(xi)。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

在精細(xi)化識別的基礎(chu)上,“探一下”還可提供趣味性(xing)、啟發性(xing)的內容。結合(he)預訓練好的“讀心、幽默、治愈”等文本模版,“探靈(ling)感”功能可以即時(shi)生(sheng)成對應“類人”風格(ge)的文本。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

響應速度是不少AI產品落地時的痛點。蔡偉介紹,“探一下”聯合螞蟻百靈多模態大模型團隊,針對大模型進行了輕量化推理加速,并采用(yong)了從(cong)視覺初定位,到粗意圖(tu),再到精細化識別的Coarse-to-Fine機(ji)制(zhi),縮短了結果輸出的耗時,為(wei)用(yong)戶提供了更為(wei)即時的體驗。

準確性則是所有AI產(chan)品真正發(fa)揮(hui)實際(ji)效用的關鍵(jian)。探一下在生成回答時依靠(kao)不同的數據源,利用RAG技術綜合信息(xi)進(jin)行(xing)交叉驗證,還在最終輸(shu)出時注明來(lai)源,讓結(jie)果更可(ke)靠(kao),用戶更信任。

同時,“探一下”在隱私與安全上保持了與支付寶金融級產品一樣的安全合規標準,對圖(tu)片類(lei)型(xing)、數(shu)據存(cun)儲位(wei)置(用戶(hu)或服務(wu)器)都進行了細致(zhi)嚴(yan)格的限(xian)定。

三、鏈接支付寶生態,“探一下”探萬物的可能性

“探一下”目前的主要入口是支付寶的掃一掃功能,這從一定程度上反映了螞蟻對這一交互形式的信心與決心。“我們認為生成式AI帶來的搜索變革,其實是一個全新的交互形態,視覺不僅僅是文本的一個附庸,而是能承載獨立的產品入口。”

蔡偉(wei)進一(yi)(yi)步介紹,掃(sao)(sao)一(yi)(yi)掃(sao)(sao)在過去已積(ji)累(lei)了億萬(wan)級(ji)(ji)的(de)用(yong)戶,新應用(yong)“探(tan)一(yi)(yi)下”能利用(yong)這一(yi)(yi)優勢,降低(di)培養用(yong)戶習慣的(de)成本。如果探(tan)一(yi)(yi)下能為(wei)用(yong)戶創造足夠多的(de)價值,或許有(you)希望引發如上一(yi)(yi)輪“掃(sao)(sao)一(yi)(yi)掃(sao)(sao)”般(ban)的(de)新一(yi)(yi)輪用(yong)戶行為(wei)升(sheng)級(ji)(ji)。

未來,“探(tan)一下(xia)”仍然會專注于大(da)模型具(ju)有優勢,而前一代技術無(wu)法實現的(de)場景。螞蟻并(bing)不(bu)是一家搜索(suo)起家的(de)企(qi)業(ye),這讓他們得以輕裝上(shang)陣(zhen),更自(zi)由地探(tan)索(suo)“探(tan)一下(xia)”發展的(de)可能(neng)性。

基于支付寶豐富的服務供給,“探一下”未來可(ke)能(neng)會接(jie)入(ru)小(xiao)程(cheng)序、智能(neng)體和(he)其他潛在的(de)用(yong)戶交互(hu)形式。今年螞(ma)蟻集團接(jie)連推(tui)出了AI生(sheng)活管(guan)家“支小(xiao)寶”、AI金(jin)融管(guan)家“螞(ma)小(xiao)財”和(he)AI健(jian)康管(guan)家。作為視覺元素交互(hu)入(ru)口,“探一下”也有可(ke)能(neng)成為鏈(lian)接(jie)三大(da)管(guan)家服務的(de)重要入(ru)口。比(bi)如,在健(jian)康管(guan)家中,“探一下”可(ke)以識別(bie)藥物,并且進一步(bu)鏈(lian)接(jie)用(yong)藥指南、報(bao)告解(jie)讀、醫生(sheng)推(tui)薦、智能(neng)導(dao)診(zhen)等健(jian)康服務。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

在三大AI管家之外,作為獨立的視覺原生入口,“探一下”還能識別汽車等物品及場景,鏈接到支付寶的“車生活”服務,提供看車、充電等生活服務,具備鏈接商業世界的想象力空間。

“探一下”也可落地到更豐富的應用場景,如旅游、戶外、親子等(deng)場景(jing),不斷擴(kuo)大內容生態;也能基于支(zhi)付寶數字(zi)公益方面的(de)經驗,發揮(hui)更大的(de)社會價值,比如,探索無障(zhang)礙輔助等(deng)領域,更好服(fu)務視障(zhang)人群。

“探一下”團隊在測試與發布過程中發現了不少意外之喜:如用(yong)(yong)戶(hu)很喜歡用(yong)(yong)它來識別昆蟲;部分用(yong)(yong)戶(hu)還用(yong)(yong)“探一(yi)下”取(qu)代相機,作(zuo)為(wei)內容記錄與分享的新方(fang)式(shi)。作(zuo)為(wei)一(yi)款C端的通(tong)用(yong)(yong)AI視覺搜(sou)索產品,“探一(yi)下”未來會針對用(yong)(yong)戶(hu)需(xu)求不斷進行迭代,持續優化體驗。

此外,新一代視覺搜索也帶來了智能硬件的發展想象。在部分場景中,“Always-on”的智能眼鏡等硬件能提供比手機更好的用戶體驗,蔡偉稱“探一下”也在思考與智能硬件的融合模式。

結語:“探一下”或將引領下一代AI視覺搜索趨勢

搜索(suo)是互聯(lian)網的組(zu)織層(ceng),串聯(lian)起(qi)用戶(hu)、信息、商業、服務(wu)等諸多要素(su),是信息、智能世界的重要入口(kou)。谷歌定義了搜索(suo)目前(qian)的模樣,但他們起(qi)初或許并不知道搜索(suo)會長(chang)成(cheng)它現在的樣子。

在生成式(shi)AI時代,視覺搜索這個動作(zuo),將極(ji)大(da)豐富搜索的(de)樣式(shi),搜索不再是從(cong)已(yi)知中找答案(an),而是基(ji)于(yu)多模態大(da)模型(xing)的(de)視覺理解與(yu)創作(zuo)能(neng)力,提供(gong)更(geng)智能(neng)、更(geng)豐富、更(geng)具交互性(xing)的(de)服(fu)務(wu)體驗(yan)。

螞(ma)(ma)蟻集(ji)團入局AI視(shi)覺(jue)搜索(suo),正是對其(qi)AI First戰略的進一步加速。2024年,螞(ma)(ma)蟻集(ji)團發布三大(da)AI管家,設立強化(hua)學習實驗(yan)室,AI專利、AI論文數量猛(meng)增。而支(zhi)付(fu)寶的“探(tan)一下”也正在探(tan)索(suo)下一代(dai)AI視(shi)覺(jue)搜索(suo)新(xin)范式,煥(huan)新(xin)傳統的搜索(suo)產品,也有(you)(you)希望讓AI像掃碼支(zhi)付(fu)一樣便利每個人的生活——不(bu)止(zhi)有(you)(you)大(da)腦能對話(hua)、有(you)(you)手(shou)腳能辦事(shi),更有(you)(you)眼睛能探(tan)索(suo)身邊世界。