智東西(公眾號:zhidxcom)
編輯 | GenAICon 2024

2024中國生(sheng)成式(shi)AI大(da)會(hui)于4月18-19日在(zai)(zai)北京舉行,在(zai)(zai)大(da)會(hui)首日的(de)主(zhu)會(hui)場(chang)大(da)模型(xing)專場(chang)上,前Meta首席工程負責人胡(hu)魯輝(hui)老師(shi)以(yi)《從多模態大(da)模型(xing)到理(li)解物理(li)世界》為題(ti)發表演講(jiang)。

胡魯輝談道,聚焦多模態大模型的后GPT-4時代呈現出4大趨勢,一是(shi)語言大(da)模型(xing)到多模態大(da)模型(xing),二是(shi)數據集成到向量數據庫,三是(shi)Agent智能體到大(da)模型(xing)操(cao)作(zuo)系統(tong),四是(shi)模型(xing)微(wei)調到Plugin(插件)平臺。

他認為大模型是通向AGI靠譜的方法。在大模型的落地應用中,企業和研究機構需要面對多方面的挑戰。首先是數據的標準化問題,不同來源和格式(shi)的(de)數據需(xu)要被轉化成一種統一的(de)格式(shi),以便于模型的(de)訓練和應用(yong)。

此外,模型的分散性和應用場景的復雜性也大大增加了開發的難度。例如,在不同的物理環境下,模型需要調整其參數以適應特定的硬件和軟件條件。同時,算力成本和訓練時間的長短也是制約大模型(xing)廣泛應用的重要因素。

胡魯輝預測下一個AI 2.0爆發點及落地大方向將是AI for Robotics。這一領域的(de)(de)發(fa)展需要模(mo)(mo)型(xing)不僅理解(jie)編(bian)程(cheng)(cheng)或語言處理,更要深(shen)入到物(wu)理世界的(de)(de)具體應(ying)用中(zhong)去。這涉(she)及對(dui)物(wu)理環境的(de)(de)理解(jie)和(he)設計,需要大模(mo)(mo)型(xing)能(neng)夠整合(he)各(ge)種感知數據,進行快(kuai)速的(de)(de)決策和(he)學習,以應(ying)對(dui)不斷(duan)變化的(de)(de)外(wai)部條件(jian)。這一過程(cheng)(cheng)中(zhong),模(mo)(mo)型(xing)的(de)(de)訓(xun)練(lian)和(he)應(ying)用將更加依(yi)賴于高效的(de)(de)算(suan)力(li)和(he)先進的(de)(de)硬件(jian)支持。

以下為胡魯輝的演講實錄:

今天我(wo)要(yao)分享的(de)(de)是《從多(duo)模(mo)(mo)態大(da)模(mo)(mo)型到(dao)理解物理世界》。大(da)模(mo)(mo)型的(de)(de)快速發(fa)展加上不斷的(de)(de)技術演變,變化(hua)很大(da),我(wo)希(xi)望將自己的(de)(de)一些(xie)實(shi)戰經(jing)歷分享給(gei)大(da)家。

今(jin)天主要(yao)分享4個(ge)方面。首(shou)先從大(da)模(mo)型的(de)原理出發,講一下(xia)GPT-4之后(hou)硅谷及全球有哪些重(zhong)大(da)變化;其次(ci)結(jie)合(he)(he)大(da)模(mo)型和多(duo)模(mo)態的(de)特征,分享Transformer以(yi)及我在Meta的(de)相關工(gong)作經歷;今(jin)天的(de)重(zhong)點是為什么要(yao)去理解(jie)物(wu)理世界,僅僅依(yi)靠語言大(da)模(mo)型并不能(neng)走向通(tong)用人工(gong)智(zhi)能(neng),理解(jie)物(wu)理世界才有可能(neng)走向它;最后(hou),結(jie)合(he)(he)多(duo)模(mo)態大(da)模(mo)型和理解(jie)物(wu)理世界探(tan)討如何接近AGI。

一、大模型開啟AI 2.0時代,Meta是開源領導者

每個(ge)技術的(de)(de)快速(su)發(fa)展離不開背后大(da)量的(de)(de)科研(yan)創新工作(zuo),這(zhe)(zhe)(zhe)是(shi)人(ren)工智(zhi)能(neng)復興的(de)(de)原因,因為其(qi)在快速(su)發(fa)展和迭代。人(ren)工智(zhi)能(neng)的(de)(de)重要性和意義十(shi)分突出,可以說(shuo),這(zhe)(zhe)(zhe)次(ci)人(ren)工智(zhi)能(neng)是(shi)第四次(ci)計(ji)算(suan)時(shi)代或第四次(ci)工業革(ge)命。第三次(ci)計(ji)算(suan)時(shi)代是(shi)移動互(hu)聯網時(shi)代,我(wo)們正處于這(zhe)(zhe)(zhe)個(ge)時(shi)代,根(gen)據每次(ci)的(de)(de)發(fa)展,第四次(ci)的(de)(de)規模比(bi)第三次(ci)要大(da),且從經(jing)濟(ji)效益上來(lai)講,對人(ren)類(lei)社會的(de)(de)影(ying)響力更大(da)。

人工智能在歷史上有兩個拐點,AlphaGoChatGPT。雖然每一個拐點只代表一個產品或者技術,但其對人類的影響不僅是技術本身,如AlphaGo,不可能所有公司都做下棋產品或平臺。對社會來說,第一次是利用拐點背后的技術(如CV或別的技術)開始AI 1.0時代。這一次則是基于大模型泛化涌現的能力開始AI 2.0時代

ChatGPT發布了一年多,性能表現的排名仍比較領先。并且現在大模型訓練的費用或成本越來越高,之前GPT-4訓練的時候需要6000萬美元左右,GPT-5可能更貴

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發展趨勢,理解物理世界才能接近AGI|GenAICon 2024

目前OpenAI是閉源大模型的領導者,Meta是開源的領導者。OpenAI在閉源大模(mo)型(xing)中(zhong)的領導地位是公(gong)認的,Meta的開源大模(mo)型(xing)Llama和視(shi)覺SAM比較領先(xian)。其(qi)中(zhong)Llama幫助了(le)很多語言模(mo)型(xing)開發公(gong)司的團隊,讓(rang)他(ta)們擁有了(le)很好的基(ji)礎。

現在模型中,有三個閉源三個開源比較領先。或許大家疑惑Meta的Llama怎么不見了,Meta在做另外一件更有意義的事情,就是理解物理世界,他們叫世界模型。最近Llama還沒有迭代,大(da)家可以拭(shi)目以待,這個排名(ming)還是會變化的(de),Llama為很多(duo)大(da)語言模型奠定了基(ji)礎,幫助(zhu)很多(duo)企業(ye)飛(fei)速發展。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發展趨勢,理解物理世界才能接近AGI|GenAICon 2024

二、Meta有三大SOTA視覺大模型,多模態、視覺與語言走向融合

Meta的視覺大模型還有很多貢獻。Transformer最初應用于語言模型,逐步衍生到視覺,其中比較火的一個就是ViT視覺Transformer

Meta通過ViT或Transformer不斷迭代,有三個影響比較大的視覺Transformer:一是DeTr,Detection Transformer,它有端到端的Object Detection;二是DINO,通過Transformer開啟了視覺領域的自監督,無論是大語言模型還是其他大模型,都不能依賴打標簽,需要它能夠自主學習監督;三是SAM,更多是零(ling)樣(yang)本,是泛化的(de)能(neng)力。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發展趨勢,理解物理世界才能接近AGI|GenAICon 2024

在(zai)視覺領域,除了Sora,SAM影(ying)響(xiang)力較大。怎么訓練SAM,需要(yao)多少資(zi)源(yuan),或者(zhe)訓練過程中需要(yao)注(zhu)意(yi)哪些事情(qing)?我去(qu)年寫了一篇(pian)文章Fine-tune SAM,詳(xiang)細(xi)講了怎么利用(yong)SAM做微調(diao),如何(he)控制資(zi)源(yuan),或者(zhe)利用(yong)資(zi)源(yuan)更有效地做微調(diao)。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發展趨勢,理解物理世界才能接近AGI|GenAICon 2024

幾(ji)年前(qian),一(yi)提到(dao)人(ren)工智(zhi)能,就會想到(dao)視覺(jue)、語言兩個支派(pai),CNN、RNN基本(ben)上井水不(bu)犯河水。做(zuo)(zuo)NLP的(de)(de)一(yi)波人(ren)和(he)做(zuo)(zuo)CV的(de)(de)那波人(ren)有(you)各自的(de)(de)學(xue)術派(pai),方法不(bu)一(yi)樣,會議(yi)也不(bu)太(tai)一(yi)樣。這(zhe)次深(shen)度學(xue)習(xi),語言模型從LSTM到(dao)Word2Vec,到(dao)最近的(de)(de)GPT還有(you)BERT。視覺(jue)模型最早從分類到(dao)檢測,再到(dao)分割(ge),接(jie)著(zhu)從語義分割(ge)到(dao)實例分割(ge)。

這里有許多地(di)方(fang)特別相近(jin),所謂的(de)語(yu)(yu)言大(da)模型無非是(shi)(shi)更深(shen)層次的(de)一個相關性(xing)和邏輯(ji)推理。視(shi)覺(jue)也是(shi)(shi)一樣,邏輯(ji)上(shang)二者是(shi)(shi)融合(he)的(de),技術上(shang)是(shi)(shi)Transformer。語(yu)(yu)言層面GPT-4、 Llama比較經典(dian);視(shi)覺(jue)中Sora和SAM都是(shi)(shi)比較經典(dian)的(de)例(li)子,它后面的(de)Backbone都是(shi)(shi)基(ji)于Transformer。

無論從邏輯上講語義相關性,還是技術上Transformer Backbone,都在逐步融合。

這是一個好(hao)消息。對研發工作者而言(yan),以前井水不(bu)犯河水的NLP和CV終于(yu)有一天(tian)融合了。它在發生(sheng)一個質(zhi)的變化。

當前AI的(de)核心技術,也是個(ge)比較(jiao)靠譜的(de)AGI方法(fa),能從一個(ge)技術、一個(ge)方向(xiang)擴展到(dao)下一階段。但Meta首席AI科學家楊(yang)立昆反而不這么認為(wei),JEPA從最初的(de)Image JEPA到(dao)Video JEPA有(you)自己的(de)理論。但不管(guan)怎(zen)么樣,從工(gong)程上(shang)或(huo)者應用上(shang),它的(de)效果確(que)實突出。

打造大模型的核心關鍵能力是什么?一般人會說是三個核心,數據、算力、算法。而我根據一些(xie)工(gong)作(zuo)經驗還歸納出來另外兩點。

一個是模型架構,現在的(de)(de)大(da)模型(xing)(xing)(xing)和以前(qian)的(de)(de)深度(du)學(xue)習算法(fa)不同的(de)(de)地方(fang),就是模型(xing)(xing)(xing)架構(gou)的(de)(de)重要(yao)(yao)性(xing)。通(tong)過(guo)Backbone或模型(xing)(xing)(xing)架構(gou)的(de)(de)重塑做(zuo)遷(qian)移學(xue)習或微調,不是僅(jin)僅(jin)把領域數據(ju)或者領域知識輸(shu)入進去,而(er)是通(tong)過(guo)改變模型(xing)(xing)(xing)架構(gou)產生一個新的(de)(de)模型(xing)(xing)(xing),達到自己想要(yao)(yao)的(de)(de)領域模型(xing)(xing)(xing)。

還有一個是智能工程。Llama是(shi)開源的(de),OpenAI搞出來GPT-3.5,也就(jiu)是(shi)ChatGPT,改變世界的(de)奇(qi)點就(jiu)發生了。有GPT-3,有數(shu)據、算力(li),但(dan)能不(bu)能制造(zao)出GPT-3.5?不(bu)同的(de)公司(si)不(bu)一樣,根本原(yuan)因就(jiu)是(shi)智能工(gong)程(cheng)不(bu)同。

這五個(ge)里(li)面哪個(ge)最核心(xin)、最關鍵?很(hen)多人可能會說是算(suan)力(li),很(hen)貴(gui),買不到(dao)H100、A100,但是無論是谷歌還是微軟,都不會缺乏算(suan)力(li),他們目前卻沒(mei)有(you)世界最領先(xian)的GPT-4這樣的模(mo)型(xing)。

國(guo)內(nei)很喜歡(huan)說數據(ju),沒有(you)數據(ju)的(de)確很難搞出好的(de)模(mo)型,但是很多大(da)廠也(ye)(ye)不(bu)會(hui)缺數據(ju)。算法基本(ben)上(shang)是開(kai)(kai)源的(de),像Transformer或(huo)者一(yi)些比較新(xin)的(de)算法也(ye)(ye)是開(kai)(kai)源的(de),它也(ye)(ye)不(bu)是最(zui)關鍵因(yin)素。而模(mo)型架構,也(ye)(ye)可以(yi)通(tong)過(guo)一(yi)些微調、不(bu)同的(de)嘗(chang)試探索出來。

所以結合國外的模型和國內的現狀,最核心打造大模型的能力應該是智能工程

這也就是說OpenAI的一些人出來創業搞Claude,剛才大家看到排名中第二領先的就是Claude,就是OpenAI中的人出來創業做的事情。說明人才是最值錢的

三、預測“后GPT-4”四大發展趨勢,理解物理世界有七大特征

現在GPT-4是多模態大模型,在硅谷及全球人工智能發展到底有(you)哪(na)些趨(qu)勢?我認為有(you)四個方面,這張圖(tu)是根據我的預測(ce)讓GPT-4生(sheng)成的圖(tu)例展示(shi)。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發展趨勢,理解物理世界才能接近AGI|GenAICon 2024

第一,從語言大模型到多模態大模型。

第二,邁向向量數據庫。目(mu)前的(de)大(da)語言模(mo)型(xing)(xing)或多(duo)模(mo)態大(da)模(mo)型(xing)(xing)不論多(duo)大(da),都(dou)有一定的(de)局限(xian)性,導致向(xiang)量數據庫火起來(lai)了。大(da)家可(ke)以(yi)把(ba)一部(bu)分或大(da)部(bu)分的(de)數據放在(zai)(zai)向(xiang)量數據庫里(li),把(ba)相(xiang)關的(de)數據放在(zai)(zai)大(da)模(mo)型(xing)(xing)中。

第三,從自動Agent到將大模型作為操作系統。Agent比較(jiao)火(huo),但是它的背(bei)后依然(ran)是語言大(da)(da)模(mo)型或多(duo)(duo)模(mo)態(tai)大(da)(da)模(mo)型。Agent相當于軟(ruan)件自動(dong)實現。后續多(duo)(duo)模(mo)態(tai)大(da)(da)模(mo)型作(zuo)為(wei)操作(zuo)系統可能是比較(jiao)核(he)心的。

第四,開源模型從微調到引入插件平臺。ChatGPT相當于一個(ge)平臺,不(bu)僅可以微(wei)調,而(er)且可以通過插(cha)件作為一個(ge)平臺,因此插(cha)件可能是未來的一個(ge)方向(xiang)。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發展趨勢,理解物理世界才能接近AGI|GenAICon 2024

為什么模型能(neng)夠(gou)這(zhe)么快(kuai)發(fa)展(zhan),為什么我們(men)能(neng)夠(gou)支撐Scaling Law?很(hen)大原因(yin)是(shi)(shi)計算能(neng)力(li)的發(fa)展(zhan)。CPU時(shi)代(dai)有摩爾(er)定(ding)律(lv),GPU時(shi)代(dai)同樣(yang)(yang)發(fa)展(zhan)速度更快(kuai)。去年(nian)(nian)英(ying)偉達(da)發(fa)布能(neng)夠(gou)支撐1億FLOPS的算力(li),今年(nian)(nian)他們(men)發(fa)布了新的DGX GB200,去年(nian)(nian)是(shi)(shi)GH200,現在是(shi)(shi)GB200,小(xiao)了一點,更快(kuai)一點,但還是(shi)(shi)一個量級的。好幾(ji)個DGX串(chuan)起(qi)來是(shi)(shi)很(hen)大的規(gui)模,近十年(nian)(nian)之前IBM計算機(ji)也是(shi)(shi)相當大的,而現在手機(ji)就能(neng)支撐以前的算力(li),GPU其實(shi)也一樣(yang)(yang)。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發展趨勢,理解物理世界才能接近AGI|GenAICon 2024

有(you)這(zhe)個(ge)大模型或(huo)算(suan)力后,應用(yong)在(zai)發(fa)生(sheng)什么變化?可以看到(dao)(dao),AI 2.0比較以前(qian)的傳(chuan)統軟(ruan)件或(huo)互聯網(wang),用(yong)戶和(he)場景可能都一樣。但是以前(qian)是用(yong)戶從App到(dao)(dao)服務(wu)軟(ruan)件再到(dao)(dao)CPU,現(xian)在(zai)是用(yong)戶從多模態到(dao)(dao)基礎(chu)模型,然后到(dao)(dao)GPU,中間(jian)可以依賴數(shu)據(ju)(ju)(ju)庫或(huo)者(zhe)訓練數(shu)據(ju)(ju)(ju),傳(chuan)統的用(yong)數(shu)據(ju)(ju)(ju)庫,現(xian)在(zai)用(yong)向(xiang)量(liang)數(shu)據(ju)(ju)(ju)庫。

接下來關于理解物理世界,AI賦能了智能手機、智能車、智能家居等等,圍繞的計算核心是智能云。現在或未來中心會是AI factory(人工智能工廠),它的輸入是Token,文字、視覺或視頻,它的輸出就是AI。過去應用有手機、有車,將來就是各種機器人。未來汽車某種意義上也是一種機器人。從架構來看,AI for Robotics是一個未來方向,未來(lai)即將爆發的方(fang)向,從云計算、AI工程(cheng)、基礎(chu)模型,生成式AI再(zai)到上面的AI for Robotics。

理(li)解物理(li)世界也比較有挑(tiao)戰性,現(xian)在的(de)語言(yan)模型只能局(ju)限(xian)于(yu)訓(xun)練的(de)范圍中,對外界的(de)理(li)解還是(shi)有相當的(de)局(ju)限(xian)性。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發展趨勢,理解物理世界才能接近AGI|GenAICon 2024

理(li)解(jie)物(wu)(wu)理(li)世界(jie)(jie)到底(di)有(you)哪些特征(zheng),怎(zen)么(me)能(neng)夠從現有(you)的多模態大模型(xing)轉向理(li)解(jie)物(wu)(wu)理(li)世界(jie)(jie),有(you)了理(li)解(jie)物(wu)(wu)理(li)世界(jie)(jie)以后再向AGI接(jie)近(jin)?我認為有(you)七(qi)個方面,最外面的紫(zi)色是比較優秀(xiu)的人(ren),因為人(ren)的水平(ping)(ping)都(dou)不一樣,作(zuo)為比較優秀(xiu)的人(ren)能(neng)夠理(li)解(jie)物(wu)(wu)理(li)世界(jie)(jie)的水平(ping)(ping)。

前Meta首席工程負責人胡魯輝:“后GPT-4”有4大發展趨勢,理解物理世界才能接近AGI|GenAICon 2024

但GPT-4或最(zui)新的GPT-4 Turbo是(shi)(shi)什么樣?是(shi)(shi)里面的圈(quan)。現在GPT-4 Turbo和人(ren)還是(shi)(shi)有(you)很大的距離,只有(you)從每個維(wei)度提升發展,才能(neng)真正理解物理世界,更加接近(jin)地通用人(ren)工(gong)智(zhi)能(neng)。

理(li)(li)解物(wu)理(li)(li)世界不僅(jin)僅(jin)是對(dui)空(kong)間(jian)的理(li)(li)解或者空(kong)間(jian)智能(neng),因為(wei)從概念上 “空(kong)間(jian)”相當于3D,不包括(kuo)語言等核心AI。

說(shuo)到(dao)這里(li),大(da)家(jia)可(ke)能覺(jue)得比較抽(chou)象,這也是Meta最(zui)近(jin)在做的(de)一些事(shi)情。Meta在開(kai)源(yuan)大(da)模(mo)型或者開(kai)源(yuan)多模(mo)態大(da)模(mo)型方面目(mu)前顯得“落(luo)后(hou)”了,但Llama 3馬上來了,是因為它(ta)把(ba)很(hen)多精力(li)花(hua)在了世界(jie)模(mo)型中,同(tong)時在治理的(de)7個方面提高模(mo)型的(de)能力(li)。

我最近成立一家(jia)公(gong)司叫智澄(cheng)AI,致力于(yu)通用人工(gong)智能。“澄(cheng)”的意思是逐步走向真正的智能。

以上是胡魯輝老師演講內容的完整整理。