
智東西(公眾號:zhidxcom)
作者 | 程茜 陳駿達
作者 | 心緣
智東西5月21日報道,今(jin)日凌晨(chen),在一年一度的(de)谷(gu)歌(ge)I/O開發者(zhe)大會上(shang)(shang),谷(gu)歌(ge)的(de)AI大戲連番上(shang)(shang)演!
時長不到2小時的主題演講上,谷歌CEO桑達爾·皮查伊攜一眾谷歌高管總共提到95次“Gemini”、92次“AI”。
模型升級方面:Gemini 2.5 Pro新支持原生音頻輸出、Project Mariner的計算機使用功能、深度思考、高安全防護;視頻模型Veo 2新增原生音頻生成功能、Gemini 2.5 Flash在推理、編程和長上下文等關鍵指標上升級。全新發布模型包括:擴散語言模型Gemini Diffusion、視頻生成模(mo)型(xing)Veo 3、圖像生成模(mo)型(xing)Imagen 4。
谷歌還推出全新Gemini訂閱計劃:AI Pro用戶月付19.99美元(折合人民幣約144元),可使用Veo 2、Gemini 2.5 Pro等入門級產品;AI Ultra用戶月付249.99美元(折合人民幣約1804元),可擁有Veo 3的無限訪問(wen)權(quan)限、使用(yong)Gemini 2.5 Pro深度思考模式等。
這都指向一個目標:構建通用AI助手。谷歌DeepMind創始人兼CEO戴密斯·哈薩比斯(Demis?Hassabis)稱,他們將Gemini打造成一個世界模型,是(shi)開發一(yi)種新型、更通用、更有用的AI助手的關鍵一(yi)步。
谷歌展示了其通用AI助手的最新研究原型。在自行車維修場景中,Gemini可(ke)以幫助(zhu)(zhu)用(yong)戶查(cha)詢(xun)維修手冊(ce)、滾(gun)動到特定頁面、搜索視頻教程、主(zhu)動提供實用(yong)信息,還(huan)可(ke)以撥打電話(hua),查(cha)詢(xun)零件庫存情況,并(bing)幫助(zhu)(zhu)用(yong)戶下單。
其余更新包括顛覆用戶搜索體驗的AI Mode:根據用戶需求動態調整包含圖表、店鋪列表等的答案生成界面,在購物場景,AI Mode可根據用戶購買意圖定制購物界面,提供虛擬試穿、追蹤用戶預期價位、代理結賬功能,其還集成了視覺搜索,用戶可以通過手機(ji)攝像頭實時拍照搜索提問(wen)。AI Mode現(xian)已經(jing)面向所有美國用戶推出。
同時,谷歌此前三大研究項目獲得重大進展:Project Starline引入全新3D視頻通訊體驗、Project Astra能利用Gemini和攝像頭來解決問題、Project Marina支持多任務處理(li)。
大會尾聲,谷歌還現場演示了重量級(ji)安卓XR智(zhi)能眼鏡,并官宣(xuan)與(yu)XREAL共同打造第二款安(an)卓XR設備(bei)Project Aura。
翻(fan)(fan)譯能(neng)力是這款(kuan)眼(yan)鏡(jing)的亮點之一,不過測試時,可以(yi)明顯感(gan)覺到工作人員(yuan)減慢(man)了語速,谷歌安卓XR智能(neng)眼(yan)鏡(jing)僅正確翻(fan)(fan)譯了對話中的前(qian)半部分,之后(hou)出現了無法識別的問(wen)題。
皮(pi)查伊(yi)透露,Gemini應用目前已經擁有超(chao)過(guo)4億月活用戶,超(chao)過(guo)700萬名開發者通過(guo)Gemini API進(jin)行開發。
谷歌今天放出的諸多AI大招(zhao),智東西帶你(ni)一(yi)文看盡。
一、Gemini系列模型屠榜,谷歌產品每月處理token數一年增長50倍
Gemini時代,谷歌的模型和產品發布速度都比以往更快。上屆I/O大會至今,谷歌已經宣布10余款模型重大突破、20余款重大AI產品。
自第一代Gemini模型發布以來,Gemini模型的Elo分數已提升300多分。編程方面,Gemini 2.5 Pro成為編程平臺Cursor上年度增長最快的模型,每(mei)分鐘產出數(shu)十(shi)萬行被采納的代(dai)碼(ma)。
在LMArena排行(xing)榜中,Gemini系列模型包(bao)攬了每秒生成(cheng)輸出token數最(zui)高的前三(san)名(ming),并且(qie)模型價(jia)格也在下降。
全棧基礎設施方面,谷歌第七代TPU?Ironwood是首(shou)款專為大規(gui)模(mo)AI思考(kao)和推理(li)工作負載而設計(ji)的TPU,其性(xing)能是上一代的10倍,每個Pod的計(ji)算(suan)能力達到(dao)42.5 exaFLOPS。
皮查伊提到谷(gu)歌大模型相關的幾組數據:
去年同期谷歌每月通過產品和API處理的token數量為9.7萬億,目前其每月處理的token數達到480萬億(yi),一年內增長了(le)約50倍;
超過700萬名開發者通過Gemini API進(jin)行開發,涵蓋谷歌(ge)AI Studio和Vertex AI兩大平(ping)臺(tai),同(tong)比增長(chang)超(chao)過五倍(bei),同(tong)時Vertex AI平(ping)臺(tai)上的(de)Gemini使用率較去年增長(chang)40倍(bei);
Gemini應用目前擁有超過4億月活用戶,在Gemini應用(yong)中(zhong)使(shi)用(yong)2.5 Pro版本的用(yong)戶(hu)使(shi)用(yong)量增(zeng)長了(le)45%;
在搜索方面,AI概覽功能的每月用戶超15億(yi)。皮查伊認為AI Mode是搜索領(ling)域(yu)的下(xia)一個重大(da)進(jin)展,我們(men)正處在AI平臺轉型的新階段。
皮(pi)查伊還提到(dao),Gemini已經通關精靈寶可夢,集齊(qi)8枚徽章(zhang)獲得冠(guan)軍,“距離人工寶可夢智(zhi)能更進一步”。
二、Gemini編程、語音、深度思考迎升級,DeepMind CEO揭秘終極愿景
哈薩比斯提到,Gemini 2.5 Pro是谷歌迄今為止最智能的模型,也是全球最強大的基礎模型。兩周前,谷歌發(fa)布了Gemini 2.5 Pro的預(yu)覽(lan)版(ban),開發(fa)者們用它實(shi)現了諸多創意:比如將草(cao)圖(tu)轉化為交互應用、模擬完整3D城市等(deng)。
新版的(de)(de)(de)Gemini 2.5 Pro在WebDev Arena編(bian)程排(pai)行榜登頂。谷歌還將(jiang)他們(men)去年發布的(de)(de)(de)LearnLM(專為學習場景(jing)微(wei)調的(de)(de)(de)模型(xing))接入Gemini 2.5 Pro模型(xing),這讓后者在解題等學習場景(jing)的(de)(de)(de)能(neng)力進一步提升。
今天谷歌推出了輕量級(ji)(ji)模(mo)型Gemini 2.5 Flash的升級(ji)(ji)版(ban)。這款模型(xing)在推理、編程和長(chang)上下文等關鍵指標上實現(xian)提升,在大模型(xing)競技場的(de)排(pai)名僅次于Gemini 2.5 Pro。升級版模型(xing)將于6月初全面開放,Pro版本隨后跟進(jin),目前開發者已經可以在AI Studio搶先體驗。
Gemini還引入了更(geng)多的(de)(de)功能。增強(qiang)版(ban)安全防護的(de)(de)可抵御(yu)間接提(ti)示注入攻擊;思維摘要(yao)功能將(jiang)模型(xing)思考過程(cheng)可視化,便于調(diao)試;Gemini 2.5 Pro即將(jiang)新增“思考預(yu)算”控(kong)件,開(kai)發(fa)者可控(kong)制(zhi)模型(xing)思考的(de)(de)長(chang)度,從(cong)而平(ping)衡質量與成本(ben)。
Gemini 2.5 Pro和Gemini 2.5 Flash的文本轉語(yu)(yu)音功能支持多角色對話,能實現語(yu)(yu)氣微妙變化、切(qie)換耳語(yu)(yu)模式、跨(kua)24種語(yu)(yu)言切(qie)換。
谷歌Gemini產品負責人Tulsee Doshi展示了Gemini 2.5 Pro的編程能力。現場,Gemini 2.5 Pro僅參照一張草圖就生成了完整的3D交互網頁,用時37秒就在(zai)原網(wang)頁代碼上(shang)完成修(xiu)改。
Gemini 2.5 Pro現已在多款AI IDE平臺(如Cursor等)中可用。谷歌昨日開啟公測的編程助手Jules也接入了Gemini 2.5 Pro,能獨(du)立處理GitHub代碼庫(ku)的復雜任(ren)務,將原本耗(hao)時數(shu)小時的工作縮短至(zhi)分鐘(zhong)級。
▲谷歌(ge)Jules用戶界面
在模型架構創新方面,谷歌將擴散模型技術應用于文本生成。全新的Gemini Diffusion實驗模型(xing)(擴散語言模型(xing))的生成速度比Gemini 2.5 Flash快(kuai)5倍。這款(kuan)模型不(bu)僅僅能(neng)按順序從左到右生成內容(rong),還可(ke)以生成過(guo)程(cheng)中(zhong)快(kuai)速迭代解決(jue)方案,并在生成過(guo)程(cheng)中(zhong)進行錯誤糾正(zheng)。
谷歌打造了Gemini 2.5的“深度思考(Deep Think)”模式,運用類AlphaGo的(de)并行(xing)推理(li)技術。這(zhe)一模式已經在美國數(shu)學奧林匹克2025測(ce)試和(he)Live Codebench編程測(ce)試取得不錯(cuo)的(de)效果,但由于需要(yao)額(e)外安全評估,谷歌將先向(xiang)可(ke)信(xin)測(ce)試者開(kai)放API。
哈薩比斯稱,谷歌未來的重點是將Gemini模型擴展為一個“世界模型”。模型對物理世界的理解能力,不僅對視頻、3D生成至關重要,也是機器人技術突破的關鍵。為此,谷歌還專門微調了(le)Gemini Robotics模型(xing),能讓機器人學習抓取物體、遵循指令等任(ren)務,并能夠即(ji)時適應(ying)新(xin)任(ren)務。
谷(gu)歌的終極愿景是(shi)將Gemini打(da)造(zao)成(cheng)真(zhen)正的通(tong)用AI助(zhu)手(shou)(Universal AI Assistant),具備(bei)個性化、主動(dong)性和(he)強大能力。
三、Veo 3一次性生成超真實有聲視頻,每月花1800元才能體驗
多模態模型方面,谷歌發布了最新圖像生成模型Imagen 4。Imagen 4可以逼(bi)真地刻畫出復雜的織物、水(shui)滴和動物毛皮等(deng)物體。這款模型(xing)最(zui)高(gao)支持2K分辨率,圖片縱橫比和自(zi)由定(ding)制,其文字(zi)生成和排版(ban)能力也有明(ming)顯提(ti)升,給海報制作、PPT制作等(deng)生產級應用提(ti)供了更好的支持。
谷歌視頻生成模型Veo 2新增了視頻參考、相機控制、對象添加與刪除等功能,而最新發布的Veo 3實(shi)現了有聲視頻的(de)(de)直接(jie)(jie)生成(cheng),能直接(jie)(jie)給城(cheng)市街道(dao)場景的(de)(de)視頻配上自(zi)然的(de)(de)噪音(yin),或(huo)是直接(jie)(jie)生成(cheng)人物(wu)之間的(de)(de)對話。此外,Veo 3在文本和圖像(xiang)提示、現實(shi)世界(jie)物(wu)理和口型同步方面都表現出(chu)色。
谷歌為Veo打造了配套的AI電影(ying)制作(zuo)工具Flow,這一(yi)工具集成了(le)Veo、Imagen和(he)Gemini三款模型(xing),可用于電(dian)影(ying)片段、場(chang)景和(he)故事的創作。
音樂生成方面,谷歌進一步擴大了配套的音樂創作平臺Music AI Sandbox的訪問權限,由Lyria 2音樂生成(cheng)模型提供技術支持。谷(gu)歌還(huan)打造(zao)了交互式音樂生成(cheng)模型Lyria Realtime,允許用戶實時(shi)交互地創建(jian)、控制(zhi)音樂。
在大量AI生(sheng)成內(nei)容出現之(zhi)后,此類內(nei)容的識別也成為(wei)關鍵挑戰。谷歌于2023年(nian)推出了SynthID水印(yin)(yin),迄今為(wei)止(zhi)已為(wei)100億(yi)份AI生(sheng)成的圖像、視(shi)頻(pin)、音(yin)頻(pin)和文本(ben)內(nei)容添加水印(yin)(yin)。今天,谷歌進(jin)一(yi)步發布了SynthID檢測器,這一(yi)驗證門戶能幫助(zhu)人們更方便地識別AI生(sheng)成內(nei)容。
Gemini將(jiang)推出Canvas功能,支持互動性的用(yong)戶協作。用(yong)戶描述需求后,Canvas可自動生成可分享(xiang)的交互式內(nei)容,其他用(yong)戶也可以對這一內(nei)容進行修改。
谷歌還推出了Gemini in Chrome,這是一款Chrome瀏覽(lan)器中(zhong)內(nei)嵌的個性(xing)化助手,實時理解(jie)當前網(wang)頁內(nei)容與用戶所處的上(shang)下文。例如,在購物場景中(zhong),Gemini in Chrome可(ke)以幫助用戶快速對比商品評(ping)論、輔助決(jue)策。這一功能將于本周面(mian)向美國用戶開放。
Gemini App中將內置(zhi)上(shang)述(shu)一系列谷(gu)歌的媒體內容生成模型(xing)。
四、聯手三星、高通共建安卓XR,現場演示智能眼鏡回消息、搜圖片
谷(gu)歌副總(zong)裁、安(an)卓XR主管(guan)沙赫拉姆·伊(yi)扎迪(di)(Shahram Izadi)稱,安(an)卓平臺(tai)現(xian)在正發(fa)(fa)生(sheng)許多(duo)令(ling)人(ren)興(xing)奮的(de)變化。上(shang)周,谷(gu)歌已經發(fa)(fa)布了(le)安(an)卓16和(he)Wear OS 6兩大新一(yi)代操作系統,而今天發(fa)(fa)布的(de)許多(duo)Gemini最新進展將很快登上(shang)安(an)卓平臺(tai),不(bu)僅限于手(shou)機,還包括手(shou)表、汽車和(he)智能電視。
而谷(gu)歌的安卓XR是Gemini時代的首(shou)個安卓平臺,將支持從頭顯到(dao)智能眼鏡等多種設備類(lei)型,滿足不(bu)同使用場景的需(xu)求,如沉浸式觀(guan)影、游戲(xi)和工作等。
目(mu)前,谷歌正與三(san)星(xing)合(he)作(zuo)共建安卓XR,并與高通合(he)作(zuo)針(zhen)對驍龍平(ping)臺(tai)進行優(you)化(hua)。自去(qu)年發布開(kai)發者預覽版以來,已有數百名開(kai)發者為該平(ping)臺(tai)構建應(ying)用。
谷歌(ge)認為,智能眼鏡是AI的(de)(de)理想(xiang)載體。現(xian)場,谷歌(ge)工(gong)作(zuo)人員(yuan)和NBA球(qiu)星“字母哥(ge)”一同展(zhan)示(shi)了谷歌(ge)眼鏡原(yuan)型(xing)機的(de)(de)使用體驗。
天氣、時間、圖像和消(xiao)(xiao)息(xi)等(deng)信息(xi)能以彩色形式(shi)顯示在谷(gu)歌(ge)眼鏡(jing)(jing)上,用戶可以直接通過語音指令(ling)讓安卓XR智能眼鏡(jing)(jing)完(wan)成消(xiao)(xiao)息(xi)回復(fu)、開啟勿(wu)擾模式(shi)、圖像檢索等(deng)操作(zuo)。
這款眼鏡還具備一(yi)定(ding)的(de)上下文(wen)記憶能力。在演示人員登(deng)上臺(tai)后,谷歌眼鏡能回憶起(qi)剛才在后臺(tai)看到(dao)的(de)咖啡究竟是什么品牌的(de)。
谷(gu)歌稱,他們(men)與(yu)三星的(de)合(he)(he)作關(guan)系將會提升至新的(de)高(gao)度,從頭(tou)顯拓展至智能眼(yan)鏡領域,雙方已(yi)經在合(he)(he)作開發軟件(jian)和參(can)考硬件(jian)平(ping)臺。
繼與三(san)星合作的XR頭(tou)顯(xian)Project Moohan后(hou),谷歌官宣了第二款(kuan)安卓XR設(she)備——來(lai)自XREAL的Project Aura。這款(kuan)智能眼鏡使用了安卓XR的軟(ruan)件堆棧和(he)高(gao)通驍龍XR芯(xin)片(pian),配備光學(xue)透(tou)視(OST)和(he)虛擬透(tou)視(VST)顯(xian)示技(ji)術,擁(yong)有(you)(you)70度的視野,不過仍然采用了有(you)(you)線的設(she)計(ji)。
五、AI Mode支持上傳全身照虛擬試穿,跟蹤低價代理結賬
自去(qu)年在(zai)I/O大會上推出以來,谷歌搜索的(de)AI Overviews月活用戶已達15億,在(zai)200多(duo)個國(guo)家和(he)地區(qu)可用。
AI Overviews是Google Lens視覺搜索增長的驅動力之一。Google Lens搜索次數的年增長率為65%,今年已經完成超過1000億次視覺搜索。
為提供更沉(chen)浸式的(de)AI搜(sou)索(suo)體驗,谷(gu)歌推出(chu)了(le)全(quan)新的(de)“AI Mode”。AI Mode以新標簽頁(ye)形(xing)式出(chu)現在搜(sou)索(suo)界面中,其底座(zuo)是谷(gu)歌基于Gemini 2.5定制的(de)模型(xing)版本。
這(zhe)一模(mo)式(shi)下,其會(hui)針對(dui)(dui)用戶需求(qiu)對(dui)(dui)答案(an)進行整合并提供方(fang)便閱讀的答案(an)形式(shi),如附帶評分(fen)的飯(fan)店信息、包含地圖概覽(lan)的答案(an)等,同時,用戶還可以通過對(dui)(dui)話(hua)形式(shi)進行后續追(zhui)問。這(zhe)項功能(neng)今天開始(shi)在美國推出(chu)。
AI Mode背(bei)后(hou)的(de)關鍵技術是“查詢扇(shan)出(chu)(query fan-out)”,可跨子(zi)主題和多個數據源同時(shi)發出(chu)多個相關搜索,然后(hou)將(jiang)這些結果匯總(zong)在一(yi)起,提供易于理解的(de)響應。
在個性化搜索能力方面,AI Mode允許用戶引入更多偏好信息,幫助用戶預定座位、進行所在地活動推薦等。對于用戶需要獲得更為詳盡答案的問題,AI Mode能代表用戶發起數(shu)十次甚至數(shu)百次搜(sou)索,幾(ji)分鐘內(nei)生(sheng)成一份(fen)專業級報(bao)告。
AI Mode在體育(yu)數據、金融(rong)分析(xi)中的深(shen)度(du)應用(yong)會于(yu)今年夏天推出(chu)。如(ru)讓其展(zhan)示(shi)本(ben)賽(sai)(sai)季(ji)和(he)上(shang)(shang)賽(sai)(sai)季(ji)使用(yong)魚(yu)類(lei)球棒球員(yuan)的打(da)擊(ji)率(lv)(lv)和(he)上(shang)(shang)壘(lei)率(lv)(lv),這(zhe)個問題包含不同賽(sai)(sai)季(ji)、使用(yong)特定球棒的球員(yuan)、打(da)擊(ji)率(lv)(lv)、上(shang)(shang)壘(lei)率(lv)(lv)等多個要素。其會動(dong)態為用(yong)戶生成如(ru)圖表等適(shi)應用(yong)戶觀看的界面。
AI Mode還重塑了用戶的購物體驗,幫助用戶定制瀏覽界面、虛擬試穿以及結賬。
AI Mode將Gemini與購(gou)物圖譜(pu)相結合,擁有(you)超過500億個產品,并附有(you)評論、價格、顏色(se)選項和(he)可(ke)用(yong)性(xing)等詳細(xi)信息,同時會(hui)根據用(yong)戶(hu)特定需求定制產品瀏覽面板。
基于AI Mode,用戶選中(zhong)衣服點擊(ji)“試(shi)穿”圖(tu)(tu)標、上傳全身照(zhao),就能(neng)進行虛擬試(shi)穿。這一效果由時尚(shang)定制(zhi)圖(tu)(tu)像生成模型提供支持,該(gai)模型能(neng)夠理解人(ren)體(ti)結(jie)構和(he)服裝的(de)細微差別,例(li)如不(bu)同面料(liao)在不(bu)同人(ren)體(ti)上的(de)折疊、拉伸和(he)懸(xuan)垂效果。
同(tong)時,用戶(hu)(hu)在商品(pin)詳情上點擊“跟(gen)蹤價(jia)格(ge)”,然后設置合適的尺碼、顏色(se)以及(ji)期望(wang)的支付(fu)金額,AI Mode就會自(zi)動在不(bu)同(tong)網站監控降價(jia)信息,并向用戶(hu)(hu)發送降價(jia)通知,將商品(pin)添加到用戶(hu)(hu)購(gou)物車并通過Google Pay完成結(jie)賬(zhang)。這項視(shi)覺購(gou)物、結(jie)賬(zhang)功能將在未來幾個(ge)月內陸續推出。
六、三大研究項目突破:3D視頻通訊、視頻通話搜索、為Agent引入多任務處理能力
皮(pi)查伊重(zhong)點提(ti)到(dao)了(le)目前正改變谷歌(ge)產品的三個例(li)子(zi):
第一個項目是在Project Starline之上,谷歌推出一個以AI為核心的全新視頻通話平臺Google Beam,該平(ping)臺(tai)采用(yong)新一代視頻模型將(jiang)2D視頻流轉換為3D體驗,通過(guo)6臺(tai)攝像機組成的陣列捕捉(zhuo)用(yong)戶(hu)(hu)動作,借助(zhu)AI將(jiang)這些(xie)視頻流進行(xing)合(he)并,實時處理呈現用(yong)戶(hu)(hu)影像,精度達毫米級,每秒60幀。谷(gu)歌與(yu)惠普合(he)作的首(shou)批Google Beam設備將(jiang)于今(jin)年晚些(xie)時候向(xiang)其(qi)測試用(yong)戶(hu)(hu)推出(chu)。
此外,谷歌致力于將Project Starline的底層技(ji)術引入Google Meet視(shi)頻會議平臺,包括實(shi)時語(yu)音(yin)(yin)翻譯功能。今(jin)天(tian)谷歌將直(zhi)接(jie)在Google Meet中推(tui)出(chu)(chu)實(shi)時語(yu)音(yin)(yin)翻譯功能,訂(ding)閱(yue)用戶可以使用英語(yu)和西班(ban)牙語(yu),未來幾周之內將會支持(chi)更(geng)多語(yu)言,今(jin)年晚些時候面向企業(ye)用戶推(tui)出(chu)(chu)。
第二個項目是實時、多模態的AI助手項目Project Astra,如今(jin)Gemini Live已具(ju)備(bei)Project Astra的攝像(xiang)頭和(he)屏幕共享功能,讓用戶(hu)可以暢聊(liao)所(suo)見(jian)的一切(qie)。
去年,Project Astra展示的實時視覺、屏幕共享和記憶功能已逐步集成(cheng)至(zhi)Gemini中(zhong),今天谷歌新增了更自然的原生語音交互和計算(suan)機控制功能。
Gemini Live API現已推出音(yin)頻視頻輸入(ru)和本(ben)地(di)音(yin)頻輸出的預覽(lan)版本(ben),開發(fa)者可以控制其語調(diao)、口音(yin)和說(shuo)話風格。
Project Astra還可用于視障人士(shi)的(de)輔助(zhu)。谷歌演(yan)示了Project Astra如何幫助(zhu)一名(ming)盲人音樂(le)家(jia)完(wan)成現場演(yan)出。
第三個項目是Project Marina,這是一個(ge)能(neng)夠(gou)與網絡(luo)交互并且完成任務的Agent,谷(gu)歌將Agent視為結合了(le)先進AI模(mo)型智能(neng)與工具訪(fang)問能(neng)力的系統。
其中,計算機使用是一項使Agent能與瀏覽器和其他軟件進行交互和操作的重要能力。谷歌引入了多任務處理能力,Project Marina可以同時監管(guan)十項任(ren)務,用戶展示一次任務,Agent還(huan)可以學會為未來類似的任務去(qu)制定相應的計劃。
谷歌將通過Gemini API將Project Marina的計算機使用(yong)能力帶給(gei)開發者(zhe),今年夏(xia)天會面向更廣泛用(yong)戶(hu)開放。
Gemini SDK現在兼容MCP工具,谷(gu)歌會逐(zhu)步將整體功能引入到谷(gu)歌搜索以(yi)及(ji)Gemini應用。
結語:谷歌全面重塑搜索、瀏覽器體驗,劍指通用AI助手
這也(ye)是其最新(xin)(xin)在年(nian)度(du)開發(fa)者大會上宣布諸多更新(xin)(xin)的技術底座(zuo)。谷歌在升(sheng)級(ji)Gemini模(mo)型的同(tong)時(shi),將更多的AI能力(li)融入到搜索、Gmail和瀏(liu)覽器之中。同(tong)時(shi),谷歌還(huan)預告了(le)未來的重(zhong)大舉措,包括改進視頻通話功能、打造更具感知力(li)和對話能力(li)的助手,以(yi)及(ji)合作(zuo)開發(fa)智(zhi)能眼鏡。
這些都彰顯出谷(gu)歌作為(wei)科(ke)技巨頭雄(xiong)厚的(de)技術實力和廣泛的(de)應用市場,并且在(zai)I/O大會上(shang),谷(gu)歌也提到將(jiang)在(zai)基(ji)礎研究上(shang)加倍(bei)投入(ru),真正構建更(geng)個(ge)性(xing)化、更(geng)主動、更(geng)強大的(de)AI。未(wei)來實現通用人工智(zhi)能(AGI)的(de)下一個(ge)突破性(xing)技術或許將(jiang)會更(geng)快到來。