谷歌最强大模型登场！掀Agent风暴，放AI芯片大招，深夜突袭OpenAI

智東西（公眾號：zhidxcom）
作者 | ZeR0 程茜
編輯 | 漠影

OpenAI的12天“圣誕大禮包”還沒熄(xi)火，谷歌(ge)突然(ran)“插隊”放出年末大招！

智東西12月12日報道，今日，谷歌重磅發布其迄今最強大的AI大模型Gemini 2.0，新功(gong)能(neng)包括原生(sheng)圖像生(sheng)成和音頻(pin)輸出(chu)的多(duo)模態(tai)輸出(chu)，并支持原生(sheng)調用谷歌搜索、地圖、Lens等工具。

其第一款新模型是Gemini 2.0 Flash的實驗(yan)版(ban)本，速度是1.5 Pro的兩倍。谷歌稱，這款新模型專(zhuan)為AI Agent時代而設計，主打多模態+AI Agent。

基于Gemini 2.0 Flash，谷歌推出一大波AI Agent新品，包括今年5月轟動業界的通用AI助(zhu)手原(yuan)型Project Astra，還有能夠作為實驗性擴展在谷歌瀏(liu)覽(lan)器中完(wan)成多步(bu)驟復(fu)雜(za)任務的Project Mariner，以及實驗性AI編程Agent Jules、游戲Agent。

Gemini 2.0的發布(bu)，打(da)響了邁向AI Agent新(xin)世界(jie)的關(guan)鍵一(yi)槍。

?谷歌CEO桑達爾·皮查伊（Sundar Pichai）說：“如果說Gemini 1.0是關于組織和理解信息，那么Gemini 2.0是關于使其更加有用。”這也是(shi)其專注于AI Agent、多模態(tai)輸出的原因所在。

Gemini和Gemini Advanced用戶可(ke)在桌面端的(de)模型下拉菜單中選擇聊天(tian)優化版(ban)Gemini 2.0來試用。開發人員可(ke)通過Google AI Studio和Vertex AI在Gemini API中開始使用此模型進行構建。

本周，谷歌(ge)開始在(zai)搜索(suo)的AI概覽中測試Gemini 2.0。1月份，Gemini 2.0 Flash將全面上市，同時(shi)將推(tui)出更多模型尺寸。明年年初，谷歌(ge)會將Gemini 2.0擴展(zhan)到更多谷歌(ge)產品中。

Gemini 2.0背后的核心硬件也正式揭曉——Trillium TPU。

谷歌宣布其最強AI芯片Trillium TPU普遍可用，還詳細介紹了谷歌云AI超級計算機架構，包括可集成超過100,000顆Trillium芯片的Jupiter網絡。Trillium不僅在訓練密集型大語言模型、MoE模型上性能更強，而且AI訓練和推理性價比更高。亞洲AI大模型獨角獸AI21 Labs已使用Trillium來開發語言模型。

此外，谷歌發布了一款名為Deep Research（深度研究）的全新(xin)AI工(gong)具。該工(gong)具擅長做研究(jiu)(jiu)工(gong)作，相(xiang)當于一(yi)位AI研究(jiu)(jiu)生，幫你只用幾分鐘就能(neng)完成原(yuan)本需要數小時的研究(jiu)(jiu)。

用戶輸入(ru)問(wen)題后，它會創建(jian)一(yi)(yi)個多步驟研(yan)究計劃，在用戶修改及批(pi)準后開始(shi)調用Gemini機(ji)器(qi)人深入(ru)分析來自網上的(de)(de)相(xiang)關信息，并(bing)根據其關鍵(jian)發現生成一(yi)(yi)份詳(xiang)細(xi)的(de)(de)綜合報(bao)告(gao)，并(bing)列上信息來源(yuan)鏈(lian)接。用戶可以要求Gemini擴展某(mou)些(xie)領域或調整報(bao)告(gao)，并(bing)將AI生成的(de)(de)研(yan)究導出(chu)到(dao)谷歌文檔。

該工具當前(qian)僅向Gemini Advanced訂閱(yue)者(zhe)提供英文版，并將于明(ming)年年初在移動App中提供。

一、Gemini 2.0首款模型發布！多模態輸出、原生調用工具、四大Agent

谷歌的官方博客顯示，Gemini 2.0 Flash在關鍵基準測試中的速度是1.5 Pro的兩(liang)倍。

除了支持圖像、視頻和音頻等多模式輸入外，Gemini 2.0 Flash現在還支持多(duo)模態輸出，例如與文本混合的原生生成的圖像和可操縱的文本轉語音（TTS）多語言音頻，還可以原生調用谷歌搜索、代碼執行以及(ji)第三方用戶定(ding)義函數等工具。

為了幫(bang)助開發(fa)人員構建動態和(he)交互式應用程序，在此基礎(chu)上，谷歌還發(fa)布了具有實時音(yin)頻、視頻流(liu)輸(shu)入以及使用多個組(zu)合工具的能力的Multimodal Live API。

在AI Agent方面，谷歌宣布了對實驗性功能的更新，包括通用AI Agent Project Astra、多步驟任務AI Agent Project Mariner、AI編程Agent Jules、游戲Agent。

1、通用AI Agent Project Astra：記住10分鐘視頻，更強agent能力

還記得谷歌今年5月展示的通用(yong)AI助手研究(jiu)原型Project Astra嗎？

這是(shi)一個全視(shi)、全聽和全記(ji)憶的實驗(yan)性AI助(zhu)手(shou)，展示了通(tong)用AI助(zhu)手(shou)的未(wei)來(lai)功(gong)能。你(ni)通(tong)過(guo)安卓App或原型眼鏡來(lai)記(ji)錄看到的世(shi)界，AI助(zhu)手(shou)可以(yi)實時處理文本、圖像、視(shi)頻、音頻，分析它所看到的內(nei)容并(bing)回答廣泛的問題，還精通(tong)多(duo)國語言。

由Gemini 2.0提供支持的Project Astra更新版本，可以實現Agent（代理）能力。其(qi)最新改進(jin)包括：

更好的記憶：今年5月谷歌展示了早期版本只能記住45秒的視頻，現在它已經能記憶10分鐘的視頻了，可以記住用戶與其進行的更多對話和個人偏好，更具個性化。
更好的對話：?能使用多種語(yu)言和混(hun)合語(yu)言進行交談，并且能夠更好地理解口音和不常見的單詞。
新工具用途：使用Gemini 2.0的內置Agent框架，通過文本、語音、圖像和視頻回答問題并執行任務，在需要時調用谷歌搜索、Lens、地(di)圖等應用。
改善延遲：借助新的流媒體功能和本機音頻理解，Agent以與人類(lei)對話相同的延(yan)遲理解語言，使對話感覺更自然。

谷歌最強大模型登場！掀Agent風暴，放AI芯片大招，深夜突襲OpenAI

谷歌正在擴大Project Astra的測(ce)試范疇，將(jiang)新的反(fan)饋納入(ru)更(geng)新中，包(bao)括優化其對各種口(kou)音及不常見單詞的理解(jie)、減少延遲(chi)、將(jiang)其集成到一些谷歌產品(pin)（如搜索、Lens、地圖等）。

*后文(wen)有更詳(xiang)細的(de)功能演示。

2、多步驟任務AI Agent Project Mariner：最佳工(gong)作結果83.5%，為保證安全目前需人類介入(ru)?

Project Mariner?是谷歌在Gemini 2.0模型基礎上發布的一個實驗性功能，?其可以完成多步驟的(de)復雜(za)任務。

作為研究原型，Project Mariner?能夠理(li)解和(he)推理(li)瀏(liu)覽(lan)器屏(ping)幕上的信息，包(bao)括像素和(he)文本、編程、圖(tu)像和(he)表單(dan)等網絡元素，然后通(tong)過實驗性的谷歌擴展(zhan)程序(xu)使用(yong)這些(xie)信息完成任務。

谷歌官方博客顯示，根據WebVoyager基準進行評估，該基準測試Agent在端到端真實世界網絡任務上的性能，Project Mariner作為單一Agent設置實現了(le)83.5%的(de)最佳(jia)工(gong)作結果。

?在演(yan)示中(zhong)，Project Mariner可以同(tong)(tong)時(shi)完成獲(huo)取表(biao)單(dan)、找到公(gong)司官網、聯(lian)系(xi)方式等多步(bu)驟任務，Agent會自動(dong)執行(xing)在谷歌搜(sou)索中(zhong)查找電子郵(you)件的過(guo)程，且這一過(guo)程中(zhong)用戶可以隨時(shi)點擊暫(zan)停和停止。同(tong)(tong)時(shi)，用戶可以看到Agent每(mei)一步(bu)行(xing)動(dong)的推理步(bu)驟和計劃。

谷歌最強大模型登場！掀Agent風暴，放AI芯片大招，深夜突襲OpenAI

盡管目前?Project Mariner執行(xing)任務時(shi)較慢(man)且并(bing)不總(zong)是準(zhun)確，但從技(ji)術上講，這表(biao)明了在瀏覽器(qi)中導航已經成(cheng)為可能。

目前，該代理在完成任務時需要人類介入，如Project Mariner只能在瀏覽器的活動選項卡中鍵入、滾動或點擊，并且它會在用戶執行某些購買等敏感操作之前要求(qiu)用戶進行最終確認(ren)。

3、AI編程Agent?Jules：直接集成GitHub，長期目標是構建通用Agent

谷(gu)歌還在探索Agent Jules的(de)更新(xin)。Jules是一(yi)種直接集成到GitHub工作流程中的(de)實驗性AI驅動的(de)編程Agent。

Jules可以解決問題、制定計劃并執行它，所有過程都在開發人員的指導和監督下進行。在這一領域，谷歌的長期目標是構建在所有(you)領(ling)域（包括編程）都有(you)幫助的(de)AI Agent。

4、游戲Agent：視頻游戲導航，根據游戲動作推理、實時對話充當游戲交流

谷歌使用Gemini 2.0構建了游戲(xi)Agent，可(ke)以幫助用戶在視頻游戲的(de)虛擬(ni)世界中(zhong)導(dao)航。Agent可(ke)以僅根據屏幕上的(de)動作(zuo)來推(tui)理(li)游戲，并在實時對話中(zhong)提(ti)供(gong)下一步操(cao)作(zuo)的(de)建議(yi)。

谷歌最強大模型登場！掀Agent風暴，放AI芯片大招，深夜突襲OpenAI

目前，研究人員(yuan)在與(yu)Supercell等游戲(xi)開發商合作，探索這(zhe)些Agent從《部落沖突》等策(ce)略(lve)游戲(xi)到(dao)《Hay Day》等農業模擬器，在各(ge)種游戲(xi)中解釋規則和挑戰的能力。

未來，谷歌(ge)還在試(shi)驗可以通(tong)過(guo)將Gemini 2.0的空間推理功能應用(yong)于機器人技(ji)術來在物理世界(jie)中提(ti)供幫助的Agent。

三、通用AI助手原型升級！能存儲10分鐘視頻，開啟Agent時代

谷歌發布了由Gemini 2.0提供支持的Project Astra更新版本的新演示視頻。

測(ce)試(shi)者拿著安裝了最新測(ce)試(shi)版(ban)Project Astra的Pixel手(shou)機，在倫敦附近(jin)遛彎并進行測(ce)試(shi)。比如收到包含公(gong)寓(yu)信息的電子郵件，你(ni)可以讓AI助手(shou)告訴你(ni)門的密碼，并記住它。洗衣服(fu)時(shi)，把衣服(fu)標簽(qian)、機器圖(tu)標拍(pai)給(gei)AI助手(shou)，它會告訴測(ce)試(shi)者正確的洗衣服(fu)方式。

谷歌最強大模型登場！掀Agent風暴，放AI芯片大招，深夜突襲OpenAI

測試者把推(tui)薦列(lie)表拍(pai)給(gei)AI助手，它能搜索(suo)列(lie)表中(zhong)的地(di)點，給(gei)出相應的信(xin)息。

當測(ce)試者走在街道上，掃(sao)過食物、雕塑或花卉，AI助手都(dou)能為詢問作(zuo)出解答。

測試者(zhe)還把朋(peng)友在(zai)讀(du)的(de)書(shu)發給AI助手，讓它推(tui)薦符合朋(peng)友喜好的(de)禮物，并討論朋(peng)友可能感興趣(qu)的(de)點。

當(dang)偶遇一(yi)輛(liang)公(gong)(gong)交車，測(ce)試者問(wen)AI助手“那輛(liang)公(gong)(gong)交車能(neng)帶我去唐人街附近嗎？”AI助手會(hui)回復說：“是(shi)的，24路公(gong)(gong)交車經過萊斯特(te)(te)(te)廣場，離唐人街很近。”測(ce)試者繼續(xu)追問(wen)路上有什么(me)路標(biao)，AI助手也作出流利地(di)回復：“你可能(neng)遇到的著名地(di)標(biao)是(shi)威斯敏(min)斯特(te)(te)(te)大(da)教(jiao)堂、大(da)本鐘和特(te)(te)(te)拉法加(jia)廣場。”

除了(le)使(shi)用(yong)手機外，測試者也戴上原型眼鏡來(lai)使(shi)用(yong)Project Astra，并提(ti)出讓它查(cha)看(kan)天氣預(yu)報、詢(xun)問旁邊(bian)的公(gong)園(yuan)是(shi)什么、查(cha)詢(xun)能否騎自行車進(jin)入、這條路是(shi)否有(you)超市等問題。

目前該AI助手仍有很多局限性，比如無法訪問(wen)個人的(de)電子郵件或照片，在嘈雜的(de)環境(jing)中難以(yi)區(qu)分多個聲音，并且(qie)無法執行設置(zhi)計時器(qi)等操作任務等。

Project Astra產品經理Bibo Xu說：“它正在融合我們(men)這個時代一些最強大的信息檢索系(xi)統(tong)。”

四、基于AI Agent，探索保護用戶敏感信息、遵循用戶指令策略

在安(an)(an)全(quan)方(fang)面，谷(gu)歌在對多個實驗原型進(jin)行(xing)研究(jiu)的(de)基礎上，正通過迭(die)代實施安(an)(an)全(quan)培訓、與(yu)測試(shi)人員和外部專家(jia)合作(zuo)，進(jin)行(xing)廣(guang)泛(fan)的(de)風險評估以及安(an)(an)全(quan)和保(bao)證評估。

谷歌與責任與安全委員會（RSC）合作以識別和了解潛在風險。
Gemini 2.0的推理功能使其AI輔助紅隊方法取得重大進步，包括從簡單地檢測風險到自動生成評估和訓練數據以減輕風險的能力。
由于Gemini 2.0的多模態功能增加了潛在輸出的復雜性，其將繼續在圖像和音頻輸入和輸出方面評估和訓練模型，以幫助提高安全性。
通過Project Astra，谷歌正在探索針對用戶無意中與代理共享敏感信息的潛在緩解措施，并且其已經內置了隱私控制功能，使用戶可以輕松刪除會話。他們還在繼續研究以確保AI代理充當可靠的信息來源，并且不會代表您采取意外操作。
通過Project Mariner，谷歌正在努力確保模型學會優先考慮用戶指令，而不是第三方的提示注入嘗試，以便它可以識別來自外部來源的潛在惡意指令并防止濫用。這可以防止用戶通過電子郵件、文檔或網站中隱藏的惡意指令等方式受到欺詐和網絡釣魚攻擊。

五、Gemini 2.0背后的硬件功臣：谷歌最強AI芯片Trillium TPU普遍可用

全新Gemini 2.0由谷歌今年發布的Trillium TPU訓練而成。Trillium是谷歌第六(liu)代(dai)TPU，也是迄今性能最高的TPU。

其相比上一代芯片的優化包括：超過4倍的訓練性能，高達3倍的推理吞吐量，能效提高67%，每顆芯片峰值計算性能提高4.7倍，HBM容量翻倍，單個Jupiter網絡有10萬顆TPU，高至2.5倍的每美元訓練性能、1.4倍的每美元推理性能。

今日，谷歌宣布如今Trillium TPU面向谷歌云客戶普遍可用。

Trillium TPU是谷歌云(yun)AI超(chao)級計算(suan)機的關鍵(jian)組成部分(fen)，其架(jia)構采用了性能優化的硬件、開放(fang)的軟(ruan)(ruan)件、領(ling)先的機器(qi)(qi)學(xue)習框架(jia)和靈活(huo)的消費級模(mo)型的集成系統。谷歌還對開放(fang)軟(ruan)(ruan)件層進行(xing)(xing)了增強，包括對XLA編(bian)譯(yi)器(qi)(qi)和流行(xing)(xing)框架(jia)的優化，以(yi)在(zai)AI訓練、調優和服務方面實現大(da)規(gui)模(mo)的領(ling)先性價比(bi)。

此外，使用大量主機DRAM（補(bu)充HBM）進行主機卸載等功能(neng)，提供了更高的效率。

每個Jupiter網絡結構超過100,000顆Trillium芯片，具有13Pbps的對分帶寬，能夠將單個分布式訓練任務擴展到數十萬個加速器。

以色列AI大模型獨角獸AI21 Labs已使用Trillium來加速開發下一代復雜語言模型。

1、擴展AI訓練工作負載

Trillium通過部(bu)署12個(ge)包含(han)(han)3072顆(ke)芯片的(de)(de)pod實現了(le)99%的(de)(de)擴(kuo)展效(xiao)率，并在24個(ge)包含(han)(han)6144顆(ke)芯片的(de)(de)pod中展示了(le)94%的(de)(de)擴(kuo)展效(xiao)率，以(yi)預訓練gpt3-175b。

谷歌(ge)使用4片(pian)的Trillium-256芯片(pian)作為基準，使用1片(pian)的Trillium-256芯片(pian)作為基準，當擴展(zhan)到24個pod時，仍可獲得超過90%的擴展(zhan)效率。

在訓練Llama-2-70B模型時，測試表明，Trillium以(yi)99%的(de)擴展效(xiao)率實現了從(cong)4片Trillium-256芯片pod到36片Trillium-256芯片pod的(de)近線(xian)性擴展。

2、訓練密集型和MoE大模型

與前幾(ji)代(dai)產(chan)品(pin)相比，Trillium TPU具(ju)有更好(hao)的(de)擴展(zhan)效(xiao)率(lv)。下(xia)圖表(biao)中，其測試展(zhan)示了(le)與同等(deng)規模的(de)Cloud TPU v5p集群相比，Trillium在12 pod規模下(xia)的(de)99%擴展(zhan)效(xiao)率(lv)（總峰(feng)值FLOPS）。

與上一代(dai)云TPU v5e相比，Trillium為密集大語言(yan)模(mo)型(xing)（如Llama-2-70b和(he)gpt3-175b）提供高達4倍的訓練速度，為MoE模(mo)型(xing)提供了比上一代(dai)云TPU v5e快3.8倍的訓練。

與Cloud TPU v5e相比，Trillium TPU提(ti)供了(le)3倍的DRAM。在訓練Llama-3.1-405B模(mo)(mo)型時，根據模(mo)(mo)型FLOPs利用率（MFU）測量，Trillium的主機卸載功(gong)能可將性能提(ti)高50%以上(shang)。

3、優化推理性能和收集調度

Trillium也為圖像擴散模型和(he)密集大語言模型提供了最佳的(de)TPU推(tui)理(li)性(xing)能。其測試表明(ming)，與Cloud TPU v5e相(xiang)比(bi)，Stable Diffusion XL的(de)相(xiang)對(dui)推(tui)理(li)吞(tun)吐量（每秒(miao)圖像）提高了3倍(bei)以上，Llama2-70B的(de)相(xiang)對(dui)推(tui)理(li)吞(tun)吐量（每秒(miao)token）提高了近(jin)2倍(bei)。

Trillium是谷歌在離(li)線(xian)和服(fu)務器(qi)推(tui)理用例(li)中性能最高(gao)的TPU。下(xia)圖(tu)顯示，與(yu)Cloud TPU v5e相比，Stable Diffusion XL的離(li)線(xian)推(tui)理相對(dui)吞(tun)吐(tu)(tu)量(liang)（每秒圖(tu)像數）提高(gao)了3.1倍(bei)(bei)，服(fu)務器(qi)推(tui)理相對(dui)吞(tun)吐(tu)(tu)量(liang)提高(gao)了2.9倍(bei)(bei)。

除了更好的性(xing)能，Trillium還引入了一(yi)個新的集合調度功能。這個特(te)性(xing)允許谷歌的調度系統做出智能的作(zuo)業調度決策，從而在一(yi)個集合中有多個副(fu)本時(shi)提高推理工作(zuo)負載的總體可用性(xing)和效率。

它提供了一(yi)種管理(li)(li)運(yun)行單主機(ji)或多(duo)主機(ji)推理(li)(li)工作負載的(de)多(duo)個(ge)(ge)TPU片的(de)方法(fa)，包括通過谷(gu)歌Kubernetes Engine（GKE）。將這些片分組到一(yi)個(ge)(ge)集合中，可(ke)以很容易地調(diao)整(zheng)副本的(de)數量以滿足需求。

4、提高嵌入密集型模型性能

第三(san)代數據流處理器SparseCore更(geng)擅長加速動態和數據依(yi)賴操作。引入第三(san)代SparseCore的Trillium將(jiang)(jiang)嵌入密集型(xing)模型(xing)的性(xing)能(neng)提(ti)高了2倍，將(jiang)(jiang)DLRM DCNv2的性(xing)能(neng)提(ti)高了5倍。

5、提高訓練和推理性價比

Trillium還旨在(zai)優(you)化(hua)每(mei)美元(yuan)的性(xing)能(neng)。迄今為止，在(zai)訓練密集大(da)語言模型（如Llama2-70b和(he)Llama3.1-405b）中，Trillium的每(mei)美元(yuan)性(xing)能(neng)比(bi)Cloud TPU v5e提(ti)高(gao)了(le)2.1倍，比(bi)Cloud TPU v5p提(ti)高(gao)了(le)2.5倍。

在Trillium上生成1000張圖像的(de)成本比(bi)離線推(tui)理的(de)Cloud TPU v5e低(di)27%，比(bi)在SDXL上進(jin)行服(fu)務器(qi)推(tui)理的(de)Cloud TPU v5e低(di)22%。

結語：大模型狂飆沖向Agent時代

通(tong)用人工智能（AGI）熱戰在年(nian)末愈演愈烈。從亞(ya)馬遜(xun)、OpenAI、Meta到(dao)谷歌，一(yi)系列重磅發布將大模(mo)型(xing)的(de)競爭格局推向了新的(de)高潮。

其中(zhong)谷歌是少(shao)有的同時在大(da)模(mo)型、云(yun)端(duan)基礎(chu)設(she)施、端(duan)側智(zhi)能方(fang)面同時占據優(you)勢的頭部大(da)模(mo)型企(qi)業。

在(zai)如(ru)火如(ru)荼的大(da)(da)模型(xing)競賽中(zhong)，執掌安卓操作系統的谷歌(ge)對端側智(zhi)(zhi)能理(li)解(jie)距離最近、理(li)解(jie)最深(shen)。通過今(jin)日的一系列發布(bu)，谷歌(ge)進一步強(qiang)化(hua)了Agent（代理(li)）在(zai)智(zhi)(zhi)能手機、智(zhi)(zhi)能眼鏡(jing)等端側設(she)備上(shang)的誘人(ren)前景。在(zai)更(geng)強(qiang)大(da)(da)模型(xing)加持(chi)下(xia)，Agent將能夠更(geng)廣泛(fan)地為人(ren)類(lei)代勞，幫人(ren)類(lei)了解(jie)周圍世界(jie)，提前進行多步驟思考(kao)，并在(zai)人(ren)類(lei)的監督下(xia)采取行動。

但AI系統仍具有相(xiang)當多的不(bu)可控性。包(bao)括谷歌在內，大(da)模(mo)型公司在將世界推向(xiang)Agent時代的同時，必須(xu)竭力確保低風險，控制(zhi)好安(an)全的方向(xiang)盤(pan)。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、Gemini 2.0首款模型發布！多模態輸出、原生調用工具、四大Agent

三、通用AI助手原型升級！能存儲10分鐘視頻，開啟Agent時代

四、基于AI Agent，探索保護用戶敏感信息、遵循用戶指令策略

五、Gemini 2.0背后的硬件功臣：谷歌最強AI芯片Trillium TPU普遍可用

結語：大模型狂飆沖向Agent時代

相關推薦