智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西9月11日報道,今日上午,在2025 Inclusion·外灘大會開幕式上,2024年圖靈獎得主、“強化學習之父”理查德·薩頓(Richard Sutton)發表主旨演講。他認為,人類數據紅利正逼近極限,人工智能(AI)正在進入以持續學習為核心的“經驗時代”,潛力將遠超以往

知(zhi)識來自于經驗(yan),可以從經驗(yan)中學習。一(yi)個智能(neng)體的(de)(de)智能(neng)程度(du),取(qu)決于它能(neng)預測并控制自身輸(shu)入(ru)信(xin)號的(de)(de)程度(du)。經驗(yan)是一(yi)切智能(neng)的(de)(de)核心與基礎。

強化學習帶領我們進入了新的經驗時代,但要釋放全部潛力,還需要兩項目前尚不成熟的技術——持續學習(continual learning)元學習(meta-learning)技術。

面對外界對AI帶來偏見、失業甚至人類滅絕的擔憂,薩頓認為,這種對AI的恐懼被夸大了,并且是被某些從中獲利的組織和個人煽動起來的

“人類最卓越的超能力,就在于比其他任何動物都更擅長協作。”在薩頓看來,AI和人類繁榮將來自于去中心化協作。目(mu)標(biao)不同的智能體,可(ke)以通過去中心(xin)化(hua)的協作實現雙贏。

他預測當今人類的智力水平,很快將會被超級人工智能,或者超級智能增強的人類遠遠超越,權力和資源會流向最聰明的智能體

在人類的(de)發展進程中,AI的(de)替代將是(shi)不可避免的(de)。

薩頓認為,人類的獨特之處在于“把設計推向極致”,創(chuang)造出能自己設計的事物,這也正是今天通(tong)過(guo)AI所(suo)追求的目標。

人類至少是催化劑,是助產士,更是開啟宇宙第四大時代——“設計時代”的先驅。

“AI是(shi)宇宙演化(hua)的(de)必然下一步(bu),我們(men)應以勇氣、自豪和冒(mao)險(xian)精(jing)神(shen)來迎接它(ta)。”薩頓(dun)說。

以下是理查德·薩頓演講全文:

很高興在(zai)2025年外灘大會上發言(yan),我的主題(ti)是人工智能。

在接下來的發(fa)言中,我(wo)將(jiang)圍繞這個(ge)主(zhu)題談三(san)個(ge)方面:我(wo)想談談科學發(fa)展(zhan)趨勢,政治影(ying)響(xiang),以及哲(zhe)學意義。

一、數據紅利逼近極限,AI進入“經驗時代”

我們(men)處(chu)在“人(ren)類數據時(shi)代”。AI被訓練(lian)來預測(ce)人(ren)類的語言和(he)標簽(qian),并由(you)人(ren)類專(zhuan)家不斷(duan)微(wei)調。

今天大多(duo)數機器學習(xi)的(de)目的(de),是把人類已有(you)的(de)知識轉移到一(yi)個靜態、沒有(you)自主學習(xi)能力(li)的(de)AI上。

但是,我們逐漸開始達到人類數據的極限,我們開始意識到,這種方法通常無法生成新的知識,它并不適合持續學習,它不能持續不斷地學習,而持續學習對智能的效用至關重要

播(bo)客(ke)主持(chi)人Dwarkesh Patel意識到了這一(yi)(yi)點。他在播(bo)客(ke)中(zhong)說:“但根本(ben)問題在于,大語言模型并不(bu)會隨時間推(tui)移(yi)而(er)變得更聰明,這和人類(lei)不(bu)一(yi)(yi)樣。這種缺乏持(chi)續學習(xi)能(neng)力(li)(li)的(de)情況(kuang),是一(yi)(yi)個非常非常大的(de)瓶(ping)頸。在很多(duo)任務上,大模型的(de)基準表(biao)現可能(neng)優于人類(lei)的(de)平(ping)均水平(ping),但我們(men)沒辦法給模型提(ti)(ti)供高層次的(de)反饋,只(zhi)能(neng)接受它本(ben)身自(zi)帶的(de)能(neng)力(li)(li),只(zhi)能(neng)不(bu)斷(duan)折(zhe)騰調整提(ti)(ti)示詞,但在實(shi)踐(jian)中(zhong),這根本(ben)達不(bu)到人類(lei)那種學習(xi)和進(jin)步(bu)的(de)程度。人類(lei)真正的(de)優勢,并不(bu)在于單純的(de)智力(li)(li)極(ji)限,而(er)在于他們(men)能(neng)夠不(bu)斷(duan)積累上下文,反思失敗,并在實(shi)踐(jian)中(zhong)一(yi)(yi)點點改進(jin)、提(ti)(ti)升效(xiao)率。”

關(guan)于“智能(neng)”的(de)根本(ben)科學爭議是,它究竟(jing)是大量知識的(de)積累,還是快(kuai)速學習的(de)能(neng)力。

當然,智能只是一個詞,我們可以按自(zi)己的意愿(yuan)使(shi)用(yong)它,但我們應該清(qing)楚(chu)它歷來(lai)是如何被使(shi)用(yong)的。

我(wo)們看看傳統的(de)(de)智力(li)測量(liang)方法(fa),也就(jiu)是“智商”,或者IQ,它等于(yu)你掌握的(de)(de)知識量(liang)除以(yi)你所積累的(de)(de)經(jing)驗。所以(yi),在(zai)我(wo)看來這個定義正是在(zai)衡(heng)量(liang)學(xue)習(xi)的(de)(de)速度,學(xue)習(xi)速度,是常識所理解(jie)的(de)(de)“智力(li)”的(de)(de)關鍵(jian)。

對AI的恐懼被夸大了!“強化學習之父”薩頓外灘演講:四條原則預言AI未來

現在我們正進入“經驗時代”,我們需要一種新的數據源,它隨著智能體的變強大而不斷增長和完善,就像電腦游戲中的自我博弈一樣

這類數據也可以不依賴自我博弈,而是由智能體以第一人稱與世界互動直接生成,我稱之為“經驗”。這(zhe)正是(shi)人(ren)類和其他(ta)動物的(de)學(xue)習方(fang)式(shi),也(ye)是(shi) AlphaGo 創造第“37 步(bu)”的(de)方(fang)式(shi),也(ye)是(shi)AlphaProof近期在(zai)國際數學(xue)奧(ao)林匹克(ke)中獲得了銀牌的(de)方(fang)式(shi)。

觀察嬰兒與各種玩具玩耍的視頻,我們會看到他所獲取的數據,取決于他自己的一舉一動。孩子和這個玩具玩一段時間,然后轉向下一件玩具,所以他獲得的數據由他的行為決定。關鍵在于,我們需要與智能體的智力水平和認知發展相匹配的數據,這正是可以從自身經驗里得到的東西。

關于經驗思維模式,是智能體與世界交換信號,這些信號構成了它的“經驗”。

我這(zhe)(zhe)里(li)說的“經驗(yan)”,并不是(shi)含糊的概念,而是(shi)指這(zhe)(zhe)三(san)項很(hen)具(ju)體的要(yao)素:觀察(cha)、行動和(he)獎勵。這(zhe)(zhe)三(san)種信號(hao)在(zai)智(zhi)能體與(yu)世界之間來回(hui)傳遞,這(zhe)(zhe)就是(shi)我定義的“經驗(yan)”——這(zhe)(zhe)是(shi)生命的數據。

所以我很篤定認為,知識來自于經驗,因此可以從經驗中學習。一個智(zhi)(zhi)(zhi)能(neng)體的智(zhi)(zhi)(zhi)能(neng)程(cheng)度,取決于它能(neng)預測并(bing)控制自身輸(shu)入(ru)信(xin)號(hao)的程(cheng)度,特(te)別(bie)是(shi)(shi)獎勵信(xin)號(hao)。經(jing)驗是(shi)(shi)一切智(zhi)(zhi)(zhi)能(neng)的核心與基(ji)礎,這(zhe)就是(shi)(shi)基(ji)于經(jing)驗的思維方式(shi)。強化學習領域正是(shi)(shi)基(ji)于這(zhe)種思維方式(shi)。

總而言之(zhi),在人工智能(neng)未來的科學趨(qu)勢上,未來如果能(neng)創造(zao)出超級智能(neng)體和由超級智能(neng)增強的人類,將為(wei)世界帶來純(chun)粹的福祉(zhi)。

完全智能的智能體必須從經驗中學習,這超出(chu)了大型(xing)語言模(mo)型(xing)的范疇,令人驚(jing)嘆且實(shi)用,將(jiang)作為世界知識(shi)的可定制接口。

我們已經使用強化學習進入了新的經驗時代,但要釋放經驗的全部潛力,還需要我們現在還不具備的持續學習元學習技術。

二、AI已經被高度政治化,對AI的恐懼被夸大

現在(zai),我想對AI的政治影響(xiang)談一點看法(fa)。

首先要指出的是,今天AI已經成為(wei)高度政治(zhi)化(hua)的議題(ti)。AI是國家地緣政治(zhi)競(jing)爭(zheng)的焦點,公(gong)眾也感到恐懼(ju)。除地緣政治(zhi)之(zhi)外,公(gong)眾擔心(xin)AI會帶來偏見、失業甚至導致人(ren)類滅絕。

一些國家正在(zai)陸(lu)續(xu)立法(fa),限制AI模型的能力(li),更有人呼吁暫停(ting)AI研究,將其與核武(wu)器和生物武(wu)器相提并論。

總而言之,對人工智能的規制、管控和對齊的呼聲此起彼伏,這就是現實:AI已經被高度政治化。

我的觀點是,這種對AI的恐懼被夸大了,并且是被某些從中獲利的組織和個人煽動起來的。

但實際上(shang),這些問(wen)題(ti)在人類幾千年來一直(zhi)在應對的挑戰并無(wu)不(bu)同。

讓我(wo)們提出一(yi)(yi)個問題,在(zai)一(yi)(yi)個由智能體構(gou)成的社(she)會(hui)里,類似人類社(she)會(hui),在(zai)一(yi)(yi)個人工智能社(she)會(hui),“目標(biao)是唯一(yi)(yi)的,還是多(duo)元(yuan)的?”

在強(qiang)化學習中,我(wo)認(ren)為(wei)這是明確的(de),每個智能體都有自己的(de)目標,也有自己的(de)獎(jiang)勵(li)。同(tong)樣(yang),在自然界中,每只動(dong)物都有它自己的(de)痛苦和快樂。

回看我(wo)們的經(jing)濟,只有當每個(ge)人有不同(tong)的目標和能力(li),經(jing)濟才(cai)能運行得最好。經(jing)濟并不真正依賴于人們擁有共同(tong)目標,盡管我(wo)們常把這(zhe)類說法(fa)掛在(zai)嘴邊。

只要我(wo)們(men)審視現實世界、經濟和(he)社會,我(wo)們(men)可以說(shuo)智(zhi)能體(ti)也能夠共存,不同的(de)智(zhi)能體(ti)可以和(he)平共處,即便它(ta)們(men)的(de)目標不同,我(wo)們(men)并(bing)不需要所(suo)有人都對齊(qi)同一個目標。

為了進一步展開,我(wo)需要多說明(ming)幾句。

我(wo)(wo)們(men)需(xu)要(yao)定義兩個詞:“去(qu)中心化”的(de)定義是(shi)每個智能體(ti)追求自己的(de)目(mu)標(biao),這正是(shi)我(wo)(wo)們(men)經濟(ji)體(ti)系的(de)運行方式;“協作”,就是(shi)目(mu)標(biao)不同的(de)智能體(ti),通過互(hu)動(dong)實現(xian)雙(shuang)贏(ying)。

我認為,協作就是我們的偉大超能力,人類最卓越的超能力就在于我們比其他任何動物都更擅長協作。

協作之所(suo)以能實現,在于語言和貨幣——這(zhe)兩(liang)樣都是人(ren)類(lei)獨(du)有的。

人類最偉大的成功在(zai)于協(xie)作本身:經(jing)濟、市場與政府。

人類(lei)的重(zhong)大失敗正是協(xie)作失敗:戰(zhan)爭、偷竊(qie)與腐敗。

“去中心化協作”是“共同目標”的替代方案,在我看來,“去中(zhong)心(xin)化協(xie)作”更(geng)優雅(ya),它(ta)更(geng)可持(chi)續、更(geng)強(qiang)韌、更(geng)靈(ling)活,適應性更(geng)強(qiang),它(ta)并(bing)不(bu)需要控制(zhi)人們的目標。

正如我(wo)所說,人類比(bi)其他任(ren)何(he)動(dong)物都(dou)擅長(chang)協作(zuo)(zuo)(zuo),但我(wo)們(men)仍然做得(de)遠(yuan)遠(yuan)不夠。我(wo)們(men)仍然有(you)戰爭、盜竊(qie),我(wo)們(men)仍然有(you)腐敗、欺(qi)詐(zha)。協作(zuo)(zuo)(zuo)之(zhi)路(lu)依然很艱難,協作(zuo)(zuo)(zuo)并(bing)非總(zong)能(neng)達成(cheng),至少(shao)需要(yao)兩個代(dai)理(li)人互(hu)相信任(ren)。一旦(dan)協作(zuo)(zuo)(zuo)缺失,總(zong)有(you)人能(neng)從(cong)中獲利:軍火商、獨裁者(zhe)、騙子(zi)、盜賊。

因此,協作必須依靠制度:既(ji)要促進協作(zuo),還要懲治騙子、欺詐者和勒索者。中心(xin)化(hua)(hua)的(de)機(ji)構能幫助協作(zuo)實現(xian),他們可以懲罰(fa)盜(dao)賊和作(zuo)弊者,但(dan)如果中心(xin)化(hua)(hua)機(ji)構走向僵化(hua)(hua),長遠來看也會阻礙協作(zuo)。

放眼當下,有(you)很多呼聲希望對(dui)AI進行中心化控制:對(dui)齊AI的(de)(de)目標,暫(zan)停甚至終止(zhi)AI研究,限制可投入的(de)(de)算力,限制AI行業的(de)(de)競爭(zheng)程(cheng)度,或借此(ci)確保AI的(de)(de)安全。這(zhe)些主張如出一(yi)轍,根源都(dou)是(shi)恐(kong)懼,說到底,這(zhe)都(dou)是(shi)基于“我們對(dui)他們”的(de)(de)思維,認為他人不可信(xin)任,妖魔化對(dui)方。

所以我認為這不過是人類的一(yi)種天然(ran)傾向,我們必須清醒(xing)地認識到,這種傾向也在向AI領域(yu)蔓延。

因此,關于AI的政治議題,我的核心結論是:AI和人類繁榮都來自于去中心化協作

協作(zuo)(zuo)并非總能實現,卻(que)是(shi)世(shi)間一切美好的(de)事物的(de)源泉(quan),我們(men)必須尋求協作(zuo)(zuo)、支(zhi)持協作(zuo)(zuo),并致力將協作(zuo)(zuo)制(zhi)度(du)化。

此(ci)外(wai),只要我們用自己的眼睛觀察,就能輕易看出誰在鼓吹不信任(ren),誰在呼吁非(fei)協作(zuo)和(he)中心化控(kong)制(zhi),我們都應(ying)該努力(li)抵(di)制(zhi)這些呼聲。

這是一個有用(yong)的視角,來審視所有關于人類與AI互動的呼吁(yu)。

三、四條原則預測AI未來,人類現有智能將被大幅超越

最后,我想(xiang)談(tan)談(tan)AI與(yu)哲學(xue)。

我認為,AI是人類最古老的追求之一,它(ta)并不是陌生的(de)外(wai)來技術,而(er)是與人類的(de)本性高度相似(si)。

數千年來,哲學(xue)家和普通人都在(zai)努力理解(jie)自己(ji),一(yi)直對內(nei)在(zai)的運作機制充滿好奇:我們的心智是(shi)(shi)如何運作的?又該如何讓它運作得更好?這不是(shi)(shi)自戀,而是(shi)(shi)一(yi)場(chang)宏(hong)大的求索。

智能是宇宙中最偉大(da)的力(li)量之一,如果能理(li)解它,人類就會變得更(geng)強(qiang)大(da)、更(geng)有(you)能力(li)。

理解智能,是科學與人文學科共同追尋的圣杯,它是一個偉大而榮耀的獎賞。

然而,我們依(yi)然心懷恐懼(ju)和憂慮。

那么(me)(me),讓我(wo)們暫且擱置“想(xiang)要或(huo)不想(xiang)要什么(me)(me)”的(de)擔憂(you),讓我(wo)們盡(jin)量以最(zui)現實的(de)方(fang)式來去預(yu)測、去展(zhan)望。

所以,我提出四條原則,來(lai)現實地預測對AI的未來(lai):

第一,對世界(jie)應該如何運(yun)轉,全(quan)球并沒有(you)統(tong)一的意見,沒有(you)哪一種看法能(neng)夠(gou)凌駕(jia)于所有(you)其(qi)他觀點之上。

第二,總有一天,人類將真正理解智能,并借助技術將其創造出來——我們一定能做到。

第三,這個過程不會止步于當今人類的智能水平,很快,它將會被遠遠超越,無論是超級人工智能,還是增強的人類,都將遠遠超越這一水平,但無論如何,當前人類現有的智能將被大幅超越

第四條原則:隨著時間的推移,權力和資源必然會流向最聰明的智能體

所以,這必然把我們帶到這樣一個結論:在人類的發展進程中,AI的替代是不可避免的。

但(dan)這本身仍是一種自我中心(xin),以(yi)人(ren)類為中心(xin)的視角。

如(ru)果從(cong)宇宙(zhou)的視角來看,這一切又是怎樣的呢?

我傾向把宇宙歷史劃分為四個時代:粒子時代、恒星時代,接下來進入我們通常稱為“生命時代”,但我更愿意稱為“復制者時代”,因(yin)為在今天看來,生命幾(ji)乎就(jiu)是一臺機器——一臺生物(wu)機器。

在(zai)第四(si)個(ge)時(shi)代(dai)——機器與(yu)設(she)計(ji)(ji)時(shi)代(dai)——這些被設(she)計(ji)(ji)出來(lai)的機器正越來(lai)越像(xiang)生命。所(suo)以(yi),我(wo)更愿(yuan)意(yi)稱它為“復制(zhi)(zhi)者時(shi)代(dai)”,因(yin)為如今的生物系(xi)統,本質(zhi)上就是能夠自我(wo)復制(zhi)(zhi)、不斷繁衍自身的體系(xi)。

我們正(zheng)走向這樣一(yi)個時代:周(zhou)圍越來(lai)越多的(de)事物,都是由人類(lei)設計(ji)的(de)。

所謂“設計(ji)(ji)”,指(zhi)的是(shi)它(ta)們最(zui)初僅存在于(yu)某個設計(ji)(ji)者的頭腦中——可能(neng)(neng)是(shi)人,也可能(neng)(neng)是(shi)一臺機器——然(ran)后(hou)才被(bei)創造(zao)出來。

環(huan)顧你(ni)所在的(de)(de)房間(jian),幾乎所有東(dong)西都是設(she)(she)計(ji)(ji)(ji)(ji)的(de)(de)產物(wu):建筑是設(she)(she)計(ji)(ji)(ji)(ji)出來(lai)的(de)(de),椅子是設(she)(she)計(ji)(ji)(ji)(ji)出來(lai)的(de)(de),屏幕是設(she)(she)計(ji)(ji)(ji)(ji)出來(lai)的(de)(de),唯一(yi)沒(mei)有經過設(she)(she)計(ji)(ji)(ji)(ji)的(de)(de),當然是人類,我們是復(fu)制的(de)(de)產物(wu)。經過設(she)(she)計(ji)(ji)(ji)(ji)的(de)(de)事(shi)物(wu)越來(lai)越多,正在占據主導地位。

現(xian)在(zai)我們(men)可以直接進入一(yi)個(ge)(ge)問(wen)題:我們(men)的(de)角色(se)是(shi)什(shen)么(me)?人(ren)類是(shi)什(shen)么(me)?人(ren)類在(zai)宇宙中的(de)角色(se)是(shi)什(shen)么(me)?我們(men)能否(fou)冷靜,并(bing)且不傲慢地回答這個(ge)(ge)問(wen)題?我們(men)都感到人(ren)類是(shi)特別的(de),并(bing)不只是(shi)另一(yi)種復制(zhi)品,那么(me)究(jiu)竟(jing)特殊在(zai)哪里?

我認為人類(lei)的獨特之(zhi)處在于:作為復制者,我們將設(she)計提升到了前(qian)所未有的高度。

將設計推向極致意味著什么?推向極限,能走多遠?我覺得答案其實很明確,至少在可預見的將來,把設計推向極致,就是創造出能自己進行設計的事物。這正是我們今天通過人工智能所追求的目標。

所以,我將這一點作為我對“人類是什么”的答案:人類至少是催化劑,是助產士,更是開啟宇宙第四大時代——“設計時代”的先驅。

結語:我們應以勇氣、自豪和冒險精神來迎接AI

這就是(shi)我今天(tian)分享的(de)三點:

在科技趨勢上,2020年代的AI,也就是人類數據時(shi)代,有卓越的表(biao)現。但(dan)我相信,我們(men)正在進入一個全新的 “經驗(yan)時(shi)代”,潛(qian)力將遠超(chao)以往,因為它可以通過經驗(yan)不斷學習新知識。

關(guan)于AI的(de)(de)(de)政(zheng)治(zhi)議題,我認(ren)為,AI的(de)(de)(de)政(zheng)治(zhi)議題,是人類(lei)的(de)(de)(de)映射。

最后,在哲(zhe)學層面,我認(ren)為,AI是宇(yu)宙演化的(de)必然下一步,我們應以勇氣(qi)、自豪和冒(mao)險精神來迎接它。

非(fei)常感(gan)謝大家的聆聽(ting)。