
智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 云鵬
智東西9月5日消息,今天,谷歌開源一款全新的開放式嵌入模型EmbeddingGemma。該模型以小博大,擁有3.08億個參數,專為端側AI設計,支持在筆記本、手機等(deng)設備上部署檢索增強生成(RAG)、語(yu)義搜索等(deng)應用(yong)程序。
EmbeddingGemma的一大特征是能生成隱私性良好的高質量嵌入向量,即使在斷網情況下也能正常運行,且性(xing)能直追尺寸翻倍的Qwen-Embedding-0.6B。
▲Hugging Face開源頁面截圖
Hugging Face地址:
//huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4
據谷(gu)歌介紹,EmbeddingGemma具有以(yi)下幾大亮點:
1、同類最佳:在(zai)海量文本嵌(qian)入基準(zhun)(MTEB)上(shang),在(zai)500M以(yi)下的(de)開(kai)放式多語言(yan)文本嵌(qian)入模型中,EmbeddingGemma排名(ming)最高(gao)。EmbeddingGemma基于Gemma 3架構(gou)打造(zao),已針對100多種(zhong)語言(yan)進行訓練,并且(qie)體積小巧(qiao),經過量化后可在(zai)不到200MB的(de)內存上(shang)運行。
▲MTEB評分:EmbeddingGemma性能比肩比起尺寸大一倍(bei)的頂尖模(mo)型
2、專為靈活離線工作而設計:小巧、快速、高效,提供(gong)可(ke)自定義(yi)的輸出尺寸,以及(ji)2K令牌上下文窗口,可(ke)在手機、筆記本(ben)電(dian)腦、臺式(shi)機等日常設(she)備(bei)上運行。它旨在與Gemma 3n配合使用,共(gong)同(tong)為移動RAG管(guan)道、語義(yi)搜(sou)索等解鎖新的用例。
3、與流行工具集成:為了讓(rang)用(yong)(yong)戶(hu)輕松(song)開(kai)始(shi)使用(yong)(yong)EmbeddingGemma,它(ta)已經可以與用(yong)(yong)戶(hu)喜(xi)歡(huan)的工(gong)具一起使用(yong)(yong),例如sentence-transformers、llama.cpp、MLX、Ollama、LiteRT、transformers.js、LMStudio、Weaviate、Cloudflare、LlamaIndex、LangChain等(deng)。
一、可生成優質嵌入向量,端側RAG生成答案更準確
EmbeddingGemma會生成嵌(qian)入(ru)向量(liang),在本(ben)(ben)文語境中,它能(neng)將文本(ben)(ben)轉換為(wei)數值向量(liang),在高(gao)維空間(jian)表征文本(ben)(ben)語義;嵌(qian)入(ru)向量(liang)質量(liang)越高(gao),對(dui)語言(yan)細微差別與復雜特性的表征效果越好。
▲EmbeddingGemma會生成嵌入向量
構建RAG流程存在兩個關鍵(jian)階(jie)段(duan):一是根據用戶輸入(ru)檢索相關上下文,二是基于該上下文生成有依據的答(da)案(an)。
為實(shi)現檢索功能,用(yong)戶可以先生成(cheng)提示詞的嵌(qian)入向(xiang)(xiang)量(liang),再計(ji)算該向(xiang)(xiang)量(liang)與系統(tong)中所有(you)文(wen)(wen)檔(dang)嵌(qian)入向(xiang)(xiang)量(liang)的相(xiang)似度——通過這種方式(shi),能夠獲(huo)取與用(yong)戶查詢最(zui)相(xiang)關的文(wen)(wen)本片段。
隨后,用戶(hu)可將(jiang)這些(xie)文(wen)本(ben)片段與原始查詢(xun)一(yi)同輸入生成式模(mo)型(如Gemma 3),從而(er)生成符合上下文(wen)的相關答案。例如,模(mo)型能理解你需(xu)要聯系木工的電(dian)話,以解決地板損壞的問題。
要(yao)讓(rang)這個(ge)RAG流程(cheng)切實有(you)效,初始(shi)檢索(suo)步驟的質量至關(guan)重要(yao)。質量不(bu)佳的嵌入(ru)向(xiang)量會導致檢索(suo)到不(bu)相關(guan)的文檔(dang),進而生(sheng)成不(bu)準確或(huo)毫無(wu)意義的答(da)案。
而EmbeddingGemma的性能優勢正體(ti)現于此(ci)——它能提(ti)供高質量的(文本)表征,為(wei)精準、可靠的端(duan)側應用提(ti)供核心支(zhi)持。
二、以小博大,性能接近尺寸翻倍的Qwen-Embedding-0.6B
EmbeddingGemma提供了(le)與其規模相(xiang)適(shi)應(ying)的最(zui)先進的文(wen)本理解能力,在多(duo)語言嵌入生(sheng)成方面具(ju)有特別強(qiang)大(da)的性能。
與其他流行嵌(qian)入模型(xing)的(de)比較,EmbeddingGemma在檢(jian)索、分類和聚類等任(ren)務上(shang)表現出(chu)色。
EmbeddingGemma在Mean(Task)、Retrieval、Classification、Clustering等測試(shi)中全面趕(gan)超了同等尺(chi)寸(cun)的(de)gte-multilingual-base模型。其(qi)測試(shi)成績也已(yi)接近尺(chi)寸(cun)達到其(qi)兩倍的(de)Qwen-Embedding-0.6B。
▲EmbeddingGemma的測評情況
EmbeddingGemma模型擁(yong)有308M參(can)數(shu),主要由(you)大(da)約100M模型參(can)數(shu)和200M嵌入參(can)數(shu)組成(cheng)。
為了(le)實現(xian)更(geng)高(gao)的靈活性,EmbeddingGemma利用(yong)Matryoshka表征(zheng)學習(xi)(MRL),在一個模型中提供多種嵌入(ru)大小。開發者可(ke)以使(shi)用(yong)完(wan)整的768維向量(liang)以獲(huo)得最佳(jia)質量(liang),也可(ke)以將其(qi)截(jie)斷為較小的維度(128、256或512),以提高(gao)速度并(bing)降低存儲成本。
谷(gu)歌在EdgeTPU上將嵌(qian)入推理時(shi)(shi)間(256個輸入token)縮短至<15ms,突破了速度(du)界(jie)限,這意味著用戶的(de)AI功能可以提供實時(shi)(shi)響應(ying),實現流暢、即時(shi)(shi)的(de)交互。
利用量化感(gan)知訓(xun)練(QAT),谷歌在保(bao)持(chi)模型質量的同時,顯著將RAM使用量降(jiang)低至200MB以下(xia)。
三、斷網可用,可在不到200MB內存上運行
EmbeddingGemma支持開發者構(gou)建靈活且注重隱私的設備端應用(yong)。它直接(jie)在(zai)設備硬件上生成文檔嵌入,幫(bang)助確(que)保(bao)敏(min)感(gan)用(yong)戶數(shu)據的安全(quan)。
它(ta)使(shi)(shi)用(yong)與Gemma 3n相同的分詞器(qi)進行文本處(chu)理,從而(er)減少(shao)RAG應用(yong)的內存(cun)占用(yong)。用(yong)戶(hu)可使(shi)(shi)用(yong)EmbeddingGemma解鎖(suo)新功能,例(li)如(ru):
無需(xu)聯網即(ji)可同時搜索個人(ren)文(wen)件、文(wen)本、電子郵件和(he)通(tong)知。
通過RAG與(yu)Gemma 3n實現個性化、行業特定和離線支持的(de)聊天(tian)機(ji)器人(ren)。
將用(yong)戶查詢(xun)分類到相關的(de)函數調用(yong),以幫助移動智(zhi)能體理解(用(yong)戶需(xu)求)。
下圖為EmbeddingGemma的交互式演(yan)示,它將文本嵌入在三(san)維空(kong)間中可視化,該模(mo)型完全在設備上運行。
▲EmbeddingGemma的交互式(shi)演示(shi)(圖(tu)源(yuan):Hugging Face團隊的Joshua)
Demo體驗地址:
//huggingface.co/spaces/webml-community/semantic-galaxy)
結語:小尺寸大能力,加速端側智能發展
EmbeddingGemma的推(tui)出標志著谷歌在(zai)小(xiao)型(xing)化、多語言和端側AI上的新(xin)突破。它不(bu)僅在(zai)性能上接近(jin)更(geng)大(da)規模(mo)的模(mo)型(xing),還兼顧了速度、內存和隱私的平衡。
未來,隨著(zhu)RAG、語義(yi)搜索等應用不斷下沉至個人設備(bei),EmbeddingGemma或(huo)將成為推動端側智能普(pu)及(ji)的(de)重要基石。