智東西(公眾號:zhidxcom)
編譯 | 王涵
編輯 | 漠影

智(zhi)東(dong)西5月(yue)27日(ri)消息,據外(wai)媒Business Insider報道(dao),今年早(zao)些(xie)時候在(zai)巴(ba)黎舉(ju)行的(de)AI Action Summit上,Meta首(shou)席人工(gong)智(zhi)能(neng)(AI)科(ke)學家楊立昆(kun)(Yann LeCun)指出,當(dang)前AI雖在(zai)多個領域展現驚人能(neng)力,其仍缺乏(fa)理解物理世界、持(chi)久記憶、邏輯推理與分層規(gui)劃(hua)四大人類智(zhi)能(neng)核心特征。

據外媒VentureBeat此前報(bao)道,科技巨頭(tou)們的行動印證了這一判斷,開始從“打補丁”式(shi)優化轉向“世界模型(xing)”架構革(ge)新,谷歌等企業已將其納(na)入戰略布局(ju)。

這場圍繞(rao)AI本質的(de)探索,不僅關乎技術(shu)突破,更指向人機認知邊界的(de)未來走向。

一、AI模型缺乏4個人類特征:理解、記憶、推理與規劃

所有智能生命的共同(tong)點(dian)是什么(me)?今年早些(xie)時(shi)候在巴黎舉行的AI Action Summit上(shang),圖靈獎得主(zhu)、Meta首席AI科學(xue)家(jia)楊立昆與IBM AI負責人安東尼(ni)·安農齊亞(ya)塔(Anthony Annunziata)分(fen)享了其對智能行為的基(ji)準定義(yi):

“所(suo)有動(dong)物——至少是相對聰(cong)明(ming)的動(dong)物——都(dou)具備四種基本(ben)智能(neng)特征,人類當然也不例外,”楊立昆(kun)闡述(shu)道(dao),“理解(jie)物理世(shi)界、擁有持久記憶、進行邏輯推理,以及制定(ding)復(fu)雜行動(dong)計劃(hua)的能(neng)力,特別是分層(ceng)規(gui)劃(hua)能(neng)力。”

楊立昆認為(wei),當(dang)前AI(尤其是(shi)大語(yu)言模(mo)(mo)型(xing))尚未(wei)達到該(gai)閾值,要實現(xian)這(zhe)些能力(li)需變革訓練范式(shi)。他解(jie)釋這(zhe)正(zheng)是(shi)科技巨頭們在AI競賽中不斷為(wei)現(xian)有模(mo)(mo)型(xing)“打補丁”的(de)(de)原因:“為(wei)理解(jie)物理世界,就訓練獨立的(de)(de)視覺系統然后(hou)硬塞(sai)進(jin)LLM;為(wei)實現(xian)記(ji)憶功能,要么(me)采(cai)用(yong)RAG(檢索增強生成),要么(me)外掛關聯記(ji)憶模(mo)(mo)塊,或者簡單粗暴地擴大模(mo)(mo)型(xing)規模(mo)(mo)。”

楊立昆重磅論斷:當前AI缺失人類四大核心智能,世界模型成破局關鍵

▲Meta首席AI科(ke)學家楊立昆(kun)(Yann LeCun)

二、“世界模型”構建抽象層級來理解物理世界

但(dan)楊(yang)立昆直言這些只是“權宜之計”。他多次倡導的(de)“世(shi)界模(mo)(mo)(mo)型(xing)”(world model)替代方(fang)案,是通過現實(shi)場景訓練、具備比模(mo)(mo)(mo)式識別AI更高認知水平的(de)架構(gou)。在與安農齊亞塔對話(hua)中,他給出新定義(yi):“獲(huo)取時間(jian)T的(de)世(shi)界狀態(tai)后,設想(xiang)可能(neng)(neng)采取的(de)行(xing)(xing)動(dong),世(shi)界模(mo)(mo)(mo)型(xing)就能(neng)(neng)預測行(xing)(xing)動(dong)后的(de)新狀態(tai)。”

不過(guo)現實世(shi)界演化存(cun)在無限(xian)不可預測(ce)性,楊立昆認為唯一訓練(lian)途徑是(shi)抽象(xiang)化。Meta今年2月開源的V-JEPA模型正進(jin)行相關(guan)實驗,讓(rang)這(zhe)個非生成式模型通過(guo)預測(ce)視頻(pin)缺(que)失片段來學(xue)習。“關(guan)鍵(jian)是(shi)不做像素級預測(ce),而是(shi)訓練(lian)系統構建視頻(pin)抽象(xiang)表征,在此維度進(jin)行預測(ce)時自動過(guo)濾不可預測(ce)的細(xi)節(jie)。”他(ta)解(jie)釋(shi)道。

這種抽象層(ceng)(ceng)級思想類似化學物(wu)質(zhi)構成體(ti)系:“我們建立(li)粒子(zi)→原(yuan)子(zi)→分子(zi)→材料的層(ceng)(ceng)級,每上升一(yi)層(ceng)(ceng)就剔除下層(ceng)(ceng)與(yu)當(dang)前任(ren)務無關的信(xin)息。”楊立(li)昆說,這本質(zhi)上是通(tong)過構建抽象層(ceng)(ceng)級來(lai)理(li)解物(wu)理(li)世(shi)界(jie)的另一(yi)種表述(shu)。

三、谷歌將“世界模型”與其短期策略緊密結合

無獨有偶,在上(shang)周(zhou)硅谷舉行的(de)(de)(de)Google I/O 2025開發者大會上(shang),除(chu)卻奪人眼(yan)球的(de)(de)(de)炫酷功能,谷歌也(ye)提到(dao)要打造AI時代(dai)的(de)(de)(de)操作系統,即能理解物理環(huan)境并代(dai)人類推理決策的(de)(de)(de)“世界模(mo)型”。

自2024年末以來,DeepMind首(shou)席執行官(guan)德(de)米斯(si)·哈薩(sa)比斯(si)就在(zai)持(chi)續完善(shan)“世(shi)界(jie)模型(xing)→通用AI助手”理(li)論體系。此次I/O大會(hui)上,CEO桑(sang)達爾·皮查伊(yi)(Sundar Pichai)與Gemini負責人喬(qiao)希·伍(wu)德(de)沃德(de)(Josh Woodward)同(tong)臺呼應這(zhe)一愿景。相較(jiao)微軟、OpenAI和(he)xAI對世(shi)界(jie)模型(xing)的(de)抽象討論,谷(gu)歌獨(du)樹一幟地將其與短期戰略緊密結(jie)合。

楊立昆重磅論斷:當前AI缺失人類四大核心智能,世界模型成破局關鍵

▲Gemini負責人喬希·伍(wu)德(de)沃德(de)(Josh Woodward)(圖源:谷歌I/O)

若真(zhen)能(neng)打造出(chu)理(li)(li)解物理(li)(li)環境的“通用(yong)AI助(zhu)手”,谷(gu)歌或將成為連接(jie)用(yong)戶、企業與技術的“隱形操作系(xi)統”。對(dui)追(zhui)求尖端(duan)AI的企業而言,利用(yong)谷(gu)歌的“世(shi)界(jie)模型”研究、多模態能(neng)力(如I/O大會(hui)展示(shi)的Veo 3和Imagen 4)及其AGI發(fa)展路徑,將開啟重大創新通道。

結語:世界模型是AI大模型的未來

楊立(li)昆揭示的(de)(de)AI四大能(neng)力鴻溝(gou)不僅暴露了(le)現有模(mo)型(xing)的(de)(de)局限,更指明(ming)了(le)技(ji)術突破的(de)(de)方向。科技(ji)巨頭們的(de)(de)行動印證了(le)這一判斷:無論是Meta通(tong)過V-JEPA模(mo)型(xing)探索抽象表征訓練,還是谷歌將(jiang)“世(shi)界模(mo)型(xing)”納入操作(zuo)系統級戰略,本質(zhi)上都在重構(gou)AI與物理世(shi)界的(de)(de)交(jiao)互(hu)方式。

這(zhe)場角逐的(de)(de)(de)深層(ceng)意義,在于將AI從模式(shi)(shi)識別(bie)的(de)(de)(de)工具升級為具備(bei)物理(li)世界(jie)理(li)解能(neng)力(li)的(de)(de)(de)認知主體(ti)。當行業從“打補(bu)丁”式(shi)(shi)優(you)化轉向架構(gou)級創新,我們或許正站在通(tong)用人工智能(neng)(AGI)發展的(de)(de)(de)關鍵轉折點。

未(wei)來AI的(de)真正突(tu)破,或許不在于參數量(liang)的(de)指數級膨脹,而(er)在于能否像人類一樣,構建起(qi)對世界的(de)深層(ceng)理解。

來源:Business Insider,VentureBeat