
智東西(公眾號:zhidxcom)
作者 | 程茜 ZeR0
編輯 | 心緣
智東西(xi)9月26日報道,北京時(shi)間今日凌晨(chen)1點(dian)15分,年度“MR圈(quan)春晚”Meta Connect 2024大會正式(shi)拉(la)開(kai)帷幕(mu)。
Meta CEO馬克·扎克伯格穿著黑色T恤登臺,緊鑼密鼓發布MR頭顯Quest 3S、Llama 3.2大模型、雷朋智能眼鏡、全息AR眼鏡等新品。
扎克伯格亮出的首個硬件新品是Quest 3S,驚爆價299.99美元(折合約2110人民幣)。
雖說性能比Meta首款消費級MR一體機Quest 3略遜一籌,但起售價直降200美元,約等于蘋果Vision Pro的1/11,妥妥的性價比機皇!!!
大模型也重磅上新!Meta多模態模型Llama 3.2發布,包括90B和11B參數的視覺大語言模型,以及1B和3B參數的輕量級純文本模型。
借助Llama 3.2,Meta AI推出全新多模態功能,能支持語音交互了,有多種音色選項(包括一些名人的聲音)。扎克伯格現場演示與Meta AI語音聊天,非常絲滑。
還有被Meta稱作有史以來最先進的AR眼鏡——全息AR眼鏡“Orion”。
英偉達創(chuang)始(shi)人兼CEO黃仁勛已經嘗鮮。
一、Quest 3S:親民廉價版,售價300美刀,性能比Quest 3幾乎無異
首(shou)先,平價版(ban)的Quest設(she)備來了!
Meta直接將Quest 3S價格砍掉200美元(折合約(yue)1406人民幣(bi)),還幾(ji)乎做到了性能與Quest 3相差無幾(ji)。
Meta?Quest 3S 128GB版售價為299.99美元(折合約2110人民幣),256GB版售價為399.99美元(折合約2813人民幣)。而512GB的Quest 3為499.99美元(折合約(yue)3516人(ren)民幣(bi))。
兩款頭顯采用的處理器一致,均為高通驍龍XR2 Gen 2芯片。價格大幅下降的關鍵就是Quest 3S將Pancake鏡頭更換成了Infinite透鏡。
從現場演示來看,擁有4K顯(xian)示屏(ping)的(de)Quest 3S顯(xian)示十分清晰(xi),還支持杜(du)比(bi)全景聲(sheng)(Dolby Atmos)環(huan)繞。
Meta重建了Horizon OS以實現(xian)空間計算,可以更好支持用(yong)戶使用(yong)YouTube、Facebook和Instagram等基(ji)本2D應(ying)用(yong)。
Meta添加了空間音頻,并改進了Passthrough(透視)的對比(bi)度和顏(yan)色,都使得(de)其畫面演示能更(geng)加逼真和身臨(lin)其境。
扎克伯格宣布Meta正與微軟合作,用Windows 11 PC來實現無縫虛擬桌面體驗。
Meta已(yi)提供多屏(ping)幕支持,并且(qie)能(neng)夠直接與顯示器上正(zheng)在發生(sheng)的(de)事情進(jin)行交互。例如,用戶(hu)可以(yi)直接拖(tuo)拽筆記(ji)本中的(de)界面到Quest設(she)備中。
為了創建更加逼真的元宇宙環境,Meta推出了Hyperscape,用(yong)(yong)戶只(zhi)需用(yong)(yong)手機掃描自己所在的房間(jian),然后隨時(shi)戴上(shang)頭顯都能“重(zhong)現”這一房間(jian)。
這一頭顯設備能讓你坐(zuo)在(zai)前排座位觀看(kan)音(yin)樂會、坐(zuo)在(zai)家(jia)庭影院(yuan)觀看(kan)高清大片、進行(xing)健身(shen)等。
此外(wai),Quest 3S還兼(jian)容Meta的數千款應用和(he)完整游(you)戲庫,以(yi)及即(ji)將推出的Quest 3和(he)3S獨(du)家游(you)戲,如《蝙(bian)蝠(fu)俠(xia):阿卡(ka)姆暗(an)影》。
對(dui)于那些剛接觸XR或者一(yi)直(zhi)在等待Quest和Quest 2設(she)備(bei)降(jiang)價的用戶而言,Quest 3S可能是更好的選擇。
二、Llama 3.2:視覺模型趕超GPT-4o mini,1B端側模型媲美Gemma
開源AI方面,Meta發布了全新多模態大模型Llama 3.2。
Llama 3.2有90B和11B兩種(zhong)參數規格的(de)視覺大(da)語言模型,還有能(neng)在設備端(duan)本(ben)地運行的(de)1B和3B輕量級純文(wen)本(ben)模型,包括預(yu)訓練(lian)和指令調(diao)整版。
下(xia)載地址(zhi):
1B和3B模型支持128K tokens上下文,適配高通和聯發科硬件,并針對Arm處理器做了優化。
3B模型在遵循指令、總結、快速重寫和工具使用等任務上的表現優于Gemma 2 2.6B、Phi 3.5-mini模型。1B模型的表現媲美Gemma。
90B和11B視覺模型是其相應文本模型的直接替代品,同時在圖像理解任務上的表現優于封閉模型,如Claude 3 Haiku、GPT-4o mini。
比如問(wen)企業去年(nian)哪個月的銷售額最高,Llama 3.2可根據可用(yong)圖表進行推(tui)理并(bing)快(kuai)速提(ti)供答(da)案。
它還能(neng)使用(yong)地圖(tu)進(jin)行(xing)推(tui)理并幫(bang)助回答(da)問題,例(li)如(ru)地圖(tu)上標記(ji)的(de)特定路(lu)徑的(de)距(ju)離。
視覺模(mo)型也能通過從圖(tu)像(xiang)(xiang)中提取細節(jie)、理解(jie)場(chang)景(jing),然后制作(zuo)(zuo)一兩句話作(zuo)(zuo)為圖(tu)像(xiang)(xiang)字幕(mu)來幫助講述故事。
與其他開放多模態模型不(bu)同,預訓練和對(dui)齊模型都可以使(shi)用torchtune針對(dui)自定義(yi)應用程序進(jin)行微(wei)調(diao),并使(shi)用torchchat在本地部署。
11B和90B參數的多模態模型需要支持圖像推理的全新模型架構。
Meta的(de)訓練流程由多個階段組成,從預訓練的(de)Llama 3.1文本模(mo)型(xing)開始,首先添(tian)加圖(tu)像適配器和(he)編碼(ma)器,然后通(tong)過(guo)大規模(mo)噪聲對數(shu)據進行預訓練,接下(xia)來在中等規模(mo)的(de)高(gao)質量(liang)領域內和(he)知識(shi)增強的(de)數(shu)據上進行訓練。
在后期訓練(lian)中,Meta使用(yong)與文本(ben)模型類似的方法(fa),在監督微調、拒(ju)絕采(cai)樣和(he)(he)直接偏好(hao)優化方面進行多輪對齊(qi)。最終得到這一組可以同(tong)時接收圖像(xiang)和(he)(he)文本(ben)提(ti)示(shi)并(bing)深入理解和(he)(he)推理兩者組合的模型。
對于(yu)1B和3B參數(shu)的輕量(liang)級模型(xing),Meta使用了利(li)用強大的教師模型(xing)來創(chuang)建性能(neng)更佳的小型(xing)模型(xing)的方法,使得其成為首批能(neng)夠高效適應設(she)備(bei)的高性能(neng)輕量(liang)級Llama模型(xing)。
Meta通過縮小Llama現(xian)有模型(xing)的大小,同時盡(jin)可能(neng)(neng)多地恢復知識和性能(neng)(neng),其(qi)采用了(le)從Llama 3.1 8B中一(yi)次性使用結構化修(xiu)剪的方法(fa)。
在后期訓(xun)(xun)練中(zhong),研究人員(yuan)使用與Llama 3.1類似(si)的方法,通過在預(yu)訓(xun)(xun)練模型的基(ji)礎上進行(xing)幾(ji)輪對齊(qi)來生成最終的聊(liao)天模型。
Meta正在分(fen)享首個官方(fang)Llama Stack發(fa)行版,將極大簡(jian)化開發(fa)人員在單節點、本地、云和設備端等不同環境中使(shi)用(yong)Llama模型的(de)方(fang)式,從而(er)實現檢索增強(qiang)生成(RAG)和集成安全(quan)性的(de)工具支持(chi)應(ying)用(yong)程(cheng)序(xu)的(de)交鑰匙部署。
三、Meta AI:多種名人聲音任意選,P圖、實時翻譯更方便
借助Llama 3.2,Meta AI有聲音了。
現(xian)在,使(shi)用語音與(yu)Meta AI對(dui)話(hua),可(ke)以讓(rang)它(ta)回答你的(de)問題(ti)或者講(jiang)笑話(hua)逗你開心。Meta在語音中還添加(jia)了很多熟悉(xi)的(de)AI聲(sheng)(sheng)音。如英國女演(yan)員Judi Dench等的(de)聲(sheng)(sheng)音。
扎克伯格現(xian)場對話了AI版數字AR/XR視覺藝術家唐·艾倫·史(shi)蒂文森三世(Don Allen Stevenson III),他對小(xiao)扎提到的恭喜新(xin)書(shu)發表、創作感想等內(nei)容對答如(ru)流。
當(dang)被問到一個(ge)與史蒂文(wen)森三世本人毫無相關(guan)的農(nong)業問題時,AI版藝術(shu)家的回應也很符合人設,他稱自己(ji)擅(shan)長設計(ji)和技術(shu)而非農(nong)業相關(guan)。
Meta AI還能直接看懂照片,用戶可以直接在聊天(tian)界面中(zhong)(zhong)(zhong)上傳圖片,AI就可以幫你解(jie)答你旅行中(zhong)(zhong)(zhong)遇到的花是什么(me)花、如何(he)制作圖片中(zhong)(zhong)(zhong)這道菜(cai)等等。
編輯照片也不在話(hua)下(xia),無需(xu)打開其它編(bian)輯工具,僅在Meta AI的對話(hua)框(kuang)就能解決(jue)。用戶可(ke)以直接告訴AI想在上傳的照片中添加、刪除或者(zhe)更(geng)改什么(me)內容,例如替(ti)換服裝、更(geng)換背景等。
??
同時,當用戶想分享照片到Instagram Story等社交平臺上時,Meta AI還會根據照片的內容生成相應的背景圖。
扎克伯格說,Meta正在測試一款翻譯工具。該工具可以自動翻譯短視頻應用Reels中的音頻,通過自動配音和口型同步,不僅能模擬說話者的聲音來翻譯,連口型都能(neng)對上。
這一功能首先將在Instagram和(he)Facebook上進行小規模測(ce)試(shi),將來自拉丁美洲和(he)美國的(de)創作者(zhe)的(de)視頻(pin)翻譯成英語(yu)和(he)西班牙(ya)語(yu),未來將會擴展到更多創作者(zhe)和(he)語(yu)言中。
Meta AI的圖像生成功能還能(neng)幫用(yong)戶在Facebook等(deng)平臺(tai)上為自(zi)己(ji)“立人(ren)設”,如將自(zi)己(ji)的個人(ren)資料圖片(pian)更換為超級英(ying)雄或者其他角色,還能(neng)為故(gu)事推薦標題。
面向企業,Meta正在將其(qi)AI工具擴展到數千(qian)家使用WhatsApp和Messenger英(ying)文版點擊消息廣告(gao)的企業。
上個月已經有超過100萬個廣告客戶使用Meta的廣告生成工具,并利用這些工具制作了1500萬條廣告。數據顯示,平均而言,與未使用這些功能的廣告系列相比,使用Meta生成式AI 廣告功能的廣告系列點擊率高出11%,轉化率高出7.6%。
四、雷朋智(zhi)能眼鏡:能記事,會觀察,打(da)破語言(yan)障礙(ai)
雷朋智能眼鏡一直非常受歡迎,具備視頻通話、流式傳輸內容、拍攝,抑或是聽音樂、有聲讀物等功能。
這次雷朋眼鏡重點升級了(le)多項AI功能。
首先是對話變得更自然。用戶只用在對話開始時說提示詞“Hey Meta”,后面就可以直接連續提問,不用重復說很多次“Hey Meta”。
還有一個功能是幫用戶記住事情。比如當用戶飛到某個地方,詢問在哪兒停車,眼鏡會幫用戶記住停車的位置。
用戶也(ye)可以用語音設置提醒,3小時安全著陸時給媽(ma)(ma)媽(ma)(ma)發短信報平安。
它還能用來打電話、掃碼。當雙手不方便操作手機時,用戶可以用Meta AI在WhatsApp和Messenger上錄制和發送語音消息,同時保持在線狀態。
此外,Meta AI能通過結合(he)攝(she)像頭,為用戶提(ti)供持續幫(bang)助。
比如當(dang)用(yong)戶探索一個新城(cheng)市,可(ke)以(yi)讓Meta AI根據攝像頭捕捉的(de)信息詢問用(yong)戶在(zai)行走時看(kan)(kan)到的(de)地標或(huo)獲取下(xia)一步要看(kan)(kan)什么的(de)想(xiang)法。
它也能(neng)提供(gong)服(fu)裝搭配(pei)建議,并(bing)實(shi)時掌握你的周圍(wei)環境,比如建議用戶考慮“剛才路(lu)過的那條珍珠項鏈”、“右邊的黑色連(lian)衣裙”。
或者在(zai)一(yi)個雜(za)貨店并試(shi)圖計(ji)劃一(yi)頓飯時,用戶可以讓Meta AI根(gen)據自(zi)己在(zai)過道上(shang)行走時看到(dao)的(de)東西來幫忙弄清(qing)楚要做什么(me),以及手里的(de)醬料是否與(yu)它剛剛建議的(de)食譜(pu)搭配得很(hen)好。
現場還演示了流暢的實時語音翻譯功能,戴著眼鏡就能打破語言障礙,實現跨語種交流。
Meta將繼續(xu)添加(jia)更(geng)多語言。
雷朋智能眼鏡可使用“be my eyes”應用,將視力有缺陷的人與視力正常的志愿者相連,以便志愿者能借助眼鏡和POV視頻通話,輕松看到視力殘障人士的視角并告知周圍環境,或者在日常任務中提供實時、免提的幫助,例如調節恒溫器或分類和閱讀郵件。
Meta正推(tui)進與Spotify和Amazon Music的整(zheng)合,并與Audible iHeart建立新合作伙伴關系(xi),使用戶能隨時(shi)隨地使用語音搜索(suo)、發現和播放內容。
此外,Meta還發布了一款限量版Shiny Transparent Wayfarer透明鏡框,并將EssilorLuxottica的全新UltraTransitions GEN S鏡片系列引入雷朋眼鏡系列,能快速適應所有光線條件。
五、Orion:迄今最先進AR眼鏡,全息顯示屏,手腕神(shen)經(jing)接(jie)口
最后,扎克伯格現場開箱,拿出Meta眼中的“迄今最先進的AR眼鏡”——Orion。
AR眼鏡兼具(ju)便捷、即時性、大顯示(shi)屏、高帶寬輸入、情景化AI等優勢(shi)。它不受手機屏幕限(xian)制,能借助(zhu)大型全息顯示(shi)屏,將物理(li)世(shi)界當成畫布。
盡管雷朋智能眼鏡開創了AI無顯示屏眼鏡類別,但XR行業還在翹首以盼真正的AR眼鏡——一款將大型全息顯示屏和個性化AI輔助優勢結合到舒適、全天候可佩戴的產品。
Orion正為此而生。
經過數十項創新,Orion的組件被壓縮到幾分之一毫米。
扎克伯格稱它是“世界上從未有過的高端眼鏡”,“技術上很瘋狂”,在不同照明條件下,大到能顯示一個電影屏幕或多個顯示屏幕,覆蓋物理世界全息圖。
它擁有迄今為止最小AR眼鏡中最大的視野,支持從多任務窗口、大屏幕娛樂到真人大小的人物全息圖,所有數字內容都能與物理世界視野無縫融合。
Meta AI智能助手可在Orion上運行,理解用(yong)戶在現實世界上看到(dao)的東(dong)西。
比如用(yong)戶可以(yi)把攝像頭對準冰箱(xiang),讓(rang)Meta AI根據里(li)面的(de)東(dong)西提(ti)供食(shi)譜(pu)建(jian)議(yi),或者邊洗碗邊調整數字家庭日歷,邊給朋友打(da)視頻電(dian)話。
也可(ke)以(yi)進行免提視頻(pin)通話,實時與(yu)朋友和家人保持聯系,還(huan)可(ke)以(yi)通過(guo)WhatsApp和Messenger查看和發(fa)送消息(xi)。
以(yi)前需進行的拿出手機、解鎖、找到合適的應用程序、讓朋(peng)友知道(dao)用戶(hu)快(kuai)吃晚飯了這一(yi)系列繁瑣(suo)步驟,現(xian)在一(yi)副眼(yan)鏡就能輕松完(wan)成所(suo)有(you)操作。
如果想和遠方的人相見,他們的虛擬影像會(hui)被(bei)即刻傳(chuan)送。
由于配有(you)透明鏡片,人們戴上AR眼鏡,依然能看到(dao)彼此的(de)面容(rong)和神情,或者進行眼神交流。
為了制(zhi)作(zuo)這種顯示(shi)屏,眼鏡(jing)腿上(shang)的(de)投(tou)影儀將內容投(tou)射到納米印刷(shua)鏡(jing)片(pian)上(shang),使它(ta)們不(bu)僅能夠在(zai)2D空(kong)間投(tou)射圖像,還能在(zai)3D空(kong)間投(tou)射圖像。
Orion支持手勢追蹤、眼動追蹤,基于手腕的神經接口可理解用戶與設備交互的手勢。
手勢(shi)操控時,你可能不想(xiang)在公共場(chang)合手舞足(zu)蹈招一堆(dui)人(ren)(ren)圍(wei)(wei)觀(guan),而操作(zuo)Orion的(de)(de)動(dong)作(zuo)非常(chang)輕微,不會影響到周圍(wei)(wei)的(de)(de)人(ren)(ren)。
Meta已經向少數人展示了它,這些人評(ping)價說這是他們見過的最(zui)瘋狂的技術。
Meta將Orion稱作其開發過的“最精致的產品原型之一”,但它暫時不會進入消費者手中。其(qi)團隊決定(ding)先(xian)專注于內部開(kai)發,繼續快(kuai)速(su)構建并(bing)繼續突破技術界限,以開(kai)發出(chu)更好的(de)消費產品。
Meta向自家員工和選定的外部用戶提供Orion的訪問權限,以便其團隊可以學習、迭代和構建消費者AR眼鏡產品線,計劃不久后開始出貨。
目前Meta主要關注(zhu)三件事:1)調(diao)整AR顯(xian)示質量,使視(shi)覺效果(guo)更加清晰;2)盡可能優化(hua),讓外形尺寸變得更小;3)規(gui)模化(hua),使其可負擔。
結語:不卷高端,卷起性價比
“元宇(yu)宙”概念降溫了,但用智能硬件(jian)打開虛實融合之(zhi)門的產(chan)業探索才(cai)剛剛起(qi)步。
便宜、便攜(xie)、舒適,智能(neng),成為今年MR/VR/AR新(xin)品的共識,這在今天的Meta Connect大會(hui)上再度(du)得到印(yin)證。
尤其(qi)(qi)是便宜。連坐擁(yong)大批(pi)死忠“果(guo)粉(fen)”的蘋果(guo),其(qi)(qi)Vision Pro都因昂(ang)貴(gui)的售價栽了跟頭。
知名市(shi)場研究機構IDC預計第三季度美國(guo)本土的Vision Pro銷量將比第二(er)季度大幅下滑75%,全(quan)年全(quan)球銷量難破(po)50萬臺大關。知名分析師郭明(ming)錤也認為,高昂的價格阻礙了消費者。
蘋果研發平價版頭顯的消息已(yi)頻(pin)頻(pin)傳出。Meta也被(bei)曝(pu)取消高端(duan)頭顯“La Jolla”的開發計(ji)劃,原因(yin)是未能將產品成(cheng)本控制在(zai)1000美元內。
國內MR/VR/AR硬件同樣在快速更新迭代,沒有盲目復制蘋(pin)果Vision Pro卷(juan)向高端,而是從(cong)技術路線和(he)應用場景上構筑差異化競爭(zheng)力(li)。
字節跳動旗下PICO上個(ge)月推出其首款MR一體機PICO 4 Ultra,相較前代(dai)產(chan)品PICO 4/4 Pro全面升級,起(qi)售價4299元。
深圳仙瞬科技開(kai)發(fa)了超微型化(hua)的全球(qiu)首款具(ju)備隱形顯示功能(neng)的智(zhi)能(neng)眼鏡(jing),體積小到能(neng)輕(qing)松集成至普(pu)通眼鏡(jing)框架內,使現有設(she)備能(neng)更好融入(ru)AI。
IDC預測2024全年中國AR/VR預計出貨60.2萬臺,同比下滑17.1%;從今年年底開始,將會有更多手機廠商入局MR領域,并將于(yu)2025年集中推出首款產品。