智東西(公眾號:zhidxcom)
編譯 | 云鵬
編輯 | 漠影

智東西6月12日消息,剛剛,Meta發布了最新的開源世界模型V-JEPA 2,稱其在物理世界中實現了最先進的視覺理解和預測,從而提高了AI agents的物理推理能力。

楊立昆親自發布:Meta最強世界模型開源

Meta副總裁、首席AI科學家楊立昆(Yann LeCun)在官方視頻中提到,在世界模型的幫助下,AI不再需要數百萬次的訓練才能掌握一項新的能力,世界模型直接告訴了AI世界是怎樣運行的,這可以極大提升(sheng)效率。

比如(ru)AI會(hui)預測(ce)我(wo)們舀出一(yi)勺東西是要放入另一(yi)個容器(qi)中(zhong):

楊立昆親自發布:Meta最強世界模型開源

AI甚至可以理解(jie)運動(dong)員的復雜(za)跳水動(dong)作,并進行動(dong)作拆解(jie):

楊立昆親自發布:Meta最強世界模型開源

據Meta測試數據,V-JEPA 2在測試任務中每一步的規劃用時縮短至英偉達Cosmos模型的三十分之一,同時成功率還更高。據稱V-JEPA 2使用了一百多萬小時的視頻來進行(xing)自監督學習訓練。

楊立昆親自發布:Meta最強世界模型開源

在Meta看來,物理推理能力對于構建在現實世界中運作的AI agents、實現高級機器智能(AMI)非常重要,可以讓AI agents真正可以“三思而后行(Think Before Acts)”。

楊立昆親自發布:Meta最強世界模型開源

此外,Meta還(huan)發(fa)布了三個新的基(ji)準測試,用于評估現(xian)有模型從視頻中(zhong)推(tui)理物理世(shi)界的能力。

昨天(tian)Meta剛剛曝出要成立(li)新AI實驗室、招攬28歲華裔(yi)天(tian)才少(shao)年,并(bing)豪擲148億(yi)美元(約合人(ren)民幣1061億(yi)元)收購Scale AI 49%股份的消息(xi),今天(tian)Meta發布新世(shi)界(jie)模型,并(bing)讓楊(yang)立(li)昆出來大講Meta AI重點研究方向和愿景做法,頗有些要為招兵買馬“打廣(guang)告”的意(yi)味。

論文地址:
//ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

一、世界模型讓AI有“類人直覺”,強化AI agents理解、預測、規劃能力

理(li)(li)解(jie)世界物理(li)(li)規(gui)律聽起來并不(bu)復雜,但這是AI與人類差距非常大的(de)一個(ge)方面。

比如你(ni)把球(qiu)拋向空中時,知道重力會(hui)將(jiang)其拉回(hui)地(di)面;當(dang)你(ni)穿過(guo)一(yi)個陌生的(de)(de)擁擠區域(yu)時,你(ni)會(hui)一(yi)邊(bian)朝目的(de)(de)地(di)移動,一(yi)邊(bian)避免撞到(dao)(dao)沿途的(de)(de)行人或障礙(ai)物;打曲棍球(qiu)時,你(ni)會(hui)滑(hua)向冰球(qiu)即(ji)將(jiang)到(dao)(dao)達的(de)(de)位置,而非它當(dang)前的(de)(de)位置。

楊立昆親自發布:Meta最強世界模型開源

▲判(pan)斷籃球的(de)運動軌跡

但AI很(hen)難掌(zhang)握這種能力,很(hen)難構(gou)建這種理解物理世界的(de)“心理模型”。

楊立昆親自發布:Meta最強世界模型開源

Meta的世界模型(xing),主要會(hui)強(qiang)化AI agents的理解、預測、規劃三項核心能(neng)力(li)。

二、關鍵架構創新大幅提升學習效率,高性能同時兼顧準確率

Meta使用(yong)視頻(pin)來訓練 V-JEPA 2,幫(bang)助模型學習物理世界中的重要規律,包括(kuo)人類如何與物體(ti)互動(dong)、物體(ti)在物理世界中的運(yun)動(dong)方式,以及物體(ti)之間的相互作用(yong)。

據稱V-JEPA 2通過自監督學(xue)習,訓練(lian)了超過1百萬小時的視(shi)頻。

V-JEPA 2是一種聯合嵌(qian)入預測(ce)架構(Joint Embedding Predictive Architecture)模型,這也是“JEPA”的名稱由來(lai)。

楊立昆親自發布:Meta最強世界模型開源

模型(xing)包(bao)括兩個主要組成部分(fen):

一個編碼器,負責接收原(yuan)始視(shi)頻,并輸出包含對于觀(guan)察世界狀態語(yu)義(yi)上有(you)用的內容的嵌入(embeddings)。

楊立昆親自發布:Meta最強世界模型開源

一個(ge)預(yu)測器(qi),負責(ze)接收視頻嵌入(ru)和關(guan)于要預(yu)測的額外(wai)內容,并輸出預(yu)測的嵌入(ru)。

楊立昆親自發布:Meta最強世界模型開源

V-JEPA 2跟傳統預測像(xiang)素的生成式模型有很大(da)性能差異,根據(ju)Meta測試數據(ju),V-JEPA 2執行任務時(shi)每個步驟(zou)的規劃用時(shi)縮短至Cosmos模型的三十(shi)分之一,不(bu)僅用時(shi)短,V-JEPA 2的成功率還(huan)更(geng)高(gao)。

V-JEPA 2的能(neng)力(li)對現實(shi)世界agents理(li)解復雜運動(dong)和時間動(dong)態(tai)(temporal dynamics),以及根據上下文線(xian)索(suo)預(yu)測(ce)動(dong)作都非常關鍵。

基于(yu)這種預測能力,世界模型(xing)對于(yu)規劃給定目標的(de)動作順序非常有用,比(bi)如從一個杯(bei)子(zi)在(zai)桌(zhuo)子(zi)上的(de)狀態(tai)到(dao)杯(bei)子(zi)在(zai)桌(zhuo)子(zi)邊上的(de)狀態(tai),中(zhong)間要經歷怎樣的(de)動作。

楊立昆親自發布:Meta最強世界模型開源

如(ru)今大(da)部分AI都(dou)需要(yao)專業的訓練去解決特定的任務,而V-JEPA這種自監督的方(fang)式,只需要(yao)為(wei)數不(bu)多(duo)的案(an)例,就可以掌(zhang)握新的能力,在不(bu)同(tong)的任務和領(ling)域中實(shi)現更高的性能表現。

楊立昆親自發布:Meta最強世界模型開源

模型(xing)可以部署在機械臂上,去(qu)執行物體(ti)操作類的任務,比如觸碰(Reach)、抓取(qu)(Grasp)、選擇(ze)和擺(bai)放物體(ti)(Pick-and-place),而不需要大量的機器人(ren)數(shu)據或者(zhe)針對性(xing)的任務訓練。

楊立昆親自發布:Meta最強世界模型開源

根據測試數據,V-JEPA 2在執行這(zhe)三(san)類任務時(shi)的成功率(lv)分為別(bie)100%、45%和73%。

三、楊立昆展示世界模型應用場景,首發三個專項基準測試

世(shi)界(jie)模型可能(neng)會有(you)哪些應用場景,楊立昆也給大家做了一些展示。

世界模(mo)型加持下的(de)(de)AI agents,可以幫助視障人(ren)群(qun)更好的(de)(de)認知世界;

楊立昆親自發布:Meta最強世界模型開源

MR頭顯中的(de)(de)AI agents可以給(gei)更復雜(za)的(de)(de)任務(wu)提供指導,比(bi)如(ru)讓教育(yu)更加的(de)(de)個性化;

楊立昆親自發布:Meta最強世界模型開源

AI編程助手可以真(zhen)正理解一行新的代碼會如何(he)改變程序的狀態或變量;

楊立昆親自發布:Meta最強世界模型開源

世界模型(xing)對自動(dong)化系統同樣非常重要(yao),比如自動(dong)駕駛汽車和機器人;

楊立昆親自發布:Meta最強世界模型開源

Meta認為世界模型會為機器人開啟一個新的時(shi)代,讓現實世界中(zhong)的AI agents不需要學習天文數字的訓練(lian)數據就可(ke)以做家務或體力勞(lao)動。

除了發布(bu)V-JEPA 2,Meta還分享了三個新(xin)基準(zhun)測試,用來幫(bang)助研究界評估現有模(mo)型通過(guo)視頻學習和推理(li)世(shi)界的能力:

1、IntPhys 2:用于測試(shi)模型在復雜合成(cheng)環境中的直觀物(wu)理(li)理(li)解(jie)能力(Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments)。

2、一種基于(yu)最小視(shi)頻(pin)對(dui)的(de)、感(gan)知捷徑的(de)物理理解視(shi)頻(pin)問(wen)答基準(zhun)測試(A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs)。

3、CausalVQA:面(mian)向視頻模型的(de)物理(li)基(ji)(ji)礎因果(guo)推理(li)基(ji)(ji)準測試(shi)(A Physically Grounded Causal Reasoning Benchmark for Video Models)。

基準測試地址:

IntPhys 2:
//ai.meta.com/research/publications/intphys-2-benchmarking-intuitive-physics-understanding-in-complex-synthetic-environments/

CausalVQA :
//ai.meta.com/research/publications/causalvqa-a-physically-grounded-causal-reasoning-benchmark-for-video-models/

Shortcut-aware Video-QA Benchmark:
//ai.meta.com/research/publications/a-shortcut-aware-video-qa-benchmark-for-physical-understanding-via-minimal-video-pairs/

結語:AI認知世界提速,AI從數字世界加速走向物理世界

Meta二代世界模型(xing)的(de)(de)發(fa)布進一步(bu)優化了模型(xing)的(de)(de)性能和準確率,讓物理世界的(de)(de)AI agents可以更(geng)高效(xiao)地(di)執行任務,而不需(xu)要海量的(de)(de)數據訓練,這(zhe)一方向可以說是目前AI圈關注的(de)(de)焦點賽(sai)道之一。

隨著數據瓶頸問題(ti)越來越凸顯,如(ru)何在底層技術層面實現突破顯得更為關鍵(jian),Meta在模型架構層面的(de)創新(xin)是其世(shi)界(jie)模型的(de)核心優勢。

隨著(zhu)如今越(yue)來越(yue)多的(de)視頻(pin)模(mo)型(xing)發布,AI逐(zhu)漸(jian)從文本、圖像走向動(dong)態的(de)視頻(pin),AI理解世界、認識(shi)世界的(de)速度不斷加快(kuai),從英偉達(da)、Meta、谷(gu)歌這樣巨頭到(dao)各(ge)路創企,都對打造世界模(mo)型(xing)饒有興致,世界模(mo)型(xing)之戰(zhan),或(huo)許將成為后續(xu)AI產業技術競爭(zheng)的(de)關鍵看(kan)點。

來源:Meta官網