智東西(公眾號:zhidxcom)
編譯 |? 徐豫
編輯 |? 云鵬

智(zhi)東(dong)西12月3日(ri)消息,當前AI行業快速發展(zhan),競爭(zheng)也越(yue)來越(yue)激烈,特別(bie)是各種高級推理(li)模(mo)型(xing)之(zhi)間(jian)的競爭(zheng)。

過去(qu)一段時(shi)間,中(zhong)國科技(ji)公司陸續發布了3款自研的(de)(de)(de)AI模(mo)(mo)型(xing),分別(bie)是DeepSeek(深(shen)度求索)的(de)(de)(de)Deepseek R1、阿里巴(ba)(ba)巴(ba)(ba)的(de)(de)(de)Marco-1以及(ji)香港中(zhong)文大學與商湯科技(ji)的(de)(de)(de)聯(lian)合(he)實(shi)驗室MMLab的(de)(de)(de)OpenMMLab混合(he)模(mo)(mo)型(xing)。這些新AI模(mo)(mo)型(xing)在性能和(he)可訪問(wen)性上媲美(mei)OpenAI的(de)(de)(de)預(yu)(yu)覽版推理模(mo)(mo)型(xing)o1-preview,同時(shi)也反映(ying)了OpenAI等AI大模(mo)(mo)型(xing)巨頭比預(yu)(yu)期(qi)更早受到開(kai)源創(chuang)新的(de)(de)(de)沖擊(ji)。

今年9月(yue)中旬,OpenAI發布(bu)(bu)o1-preview的同時(shi),還為(wei)AI模型執行復(fu)雜推理(li)任務設立了新(xin)的基(ji)準。該(gai)公(gong)司預(yu)計最(zui)快(kuai)于下周發布(bu)(bu)其(qi)o1系(xi)列(lie)模型的滿血(xue)版,但現在看來,OpenAI自證o1系(xi)列(lie)模型仍遙遙領先的壓(ya)力(li)越來越大(da)。目前,該(gai)公(gong)司的估值已高(gao)達1570億美元(yuan),并(bing)放(fang)言要(yao)實現AGI(通用人工(gong)智能),這些都給其(qi)領導層(ceng)帶(dai)來了不小(xiao)的壓(ya)力(li)。

AI模(mo)型性(xing)能乃至整個AI行業都處于高速(su)創新的快車道上。去(qu)年,OpenAI GPT-4的首(shou)發比(bi)Anthropic Claude 2足足早了(le)5個月(yue)。然而,今年o1-preview只比(bi)同行早發了(le)兩個半(ban)月(yue),時間(jian)優勢大幅收縮。

這一開源舉措也印證了該領(ling)域的(de)其他玩家,諸如開源實(shi)驗室AI2的(de)OLMo 2模型(xing)和(he)開源模型(xing)服務公司Nous Research的(de)Nous Forge模型(xing),也能通(tong)過與(yu)OpenAI閉源不(bu)同的(de)道路(lu),來擴大先進AI技術的(de)可訪(fang)問性(xing)。

11月(yue)28日,圍繞上述(shu)3款(kuan)中國自(zi)研AI模型的(de)開源水平、AI2的(de)OLMo 2模型的(de)特點(dian)和OpenAI未來(lai)幾周(zhou)內(nei)可能會采取的(de)應對措(cuo)施,美國知名科技媒體VentureBeat創始人(ren)兼(jian)CEO馬特·馬歇爾(Matt Marshall)對話(hua)谷歌機器學習開發專家薩姆·維(wei)(wei)特維(wei)(wei)奇(Sam Witteveen),倆(lia)人(ren)共同分享(xiang)了他們(men)的(de)分析和判斷。

以下(xia)是此次訪談(tan)部分內容(rong)的編譯(為提高(gao)可(ke)讀性(xing),智東西在不違(wei)背原(yuan)意的前(qian)提下(xia)進行(xing)了一定的增刪修改):

一、快速發展的中國開源模型,對o1-preview構成挑戰

Matt Marshall:中國開(kai)源模型的興(xing)起正在挑戰(zhan)OpenAI o1-preview的地位,你怎么看(kan)?

Sam Witteveen:中國的DeepSeek(深度求(qiu)索)公司基本(ben)上放棄(qi)了(le)他們名為(wei)R1的AI模型(xing)。這是(shi)該公司嘗試推出的一款(kuan)AI推理模型(xing)。我(wo)試用過這款(kuan)模型(xing),給我(wo)留下(xia)了(le)深刻的印象(xiang),它接近(jin)于OpenAI已經上線的o1-preview和o1-mini。o1的完整版模型(xing)還未(wei)發布。

從那時起,我(wo)們(men)看到中國(guo)其他的(de)AI模(mo)(mo)型(xing)開(kai)放商陸續推出了類(lei)似的(de)模(mo)(mo)型(xing)。因(yin)此,我(wo)認為真正重(zhong)要的(de)不僅僅是這些(xie)模(mo)(mo)型(xing)本身,這些(xie)模(mo)(mo)型(xing)非常好,而真正有意思(si)的(de)一點(dian)是DeepSeek稱他們(men)會(hui)開(kai)源模(mo)(mo)型(xing)權重(zhong),或者公(gong)開(kai)發(fa)布模(mo)(mo)型(xing)權重(zhong)。希望在接(jie)下來(lai)的(de)一周到兩周內,我(wo)們(men)能夠(gou)看到該模(mo)(mo)型(xing)權重(zhong),并開(kai)始上手使(shi)用它。

同時,我(wo)認為這(zhe)其中還有(you)另(ling)一個有(you)意思的(de)(de)(de)現(xian)象(xiang),那就是(shi)開源模(mo)型是(shi)如何(he)追趕(gan)專有(you)技術模(mo)型的(de)(de)(de)。在(zai)(zai)我(wo)看來(lai),這(zhe)也是(shi)OpenAI在(zai)(zai)今年(nian)(nian)9月發(fa)布(bu)o1-preview的(de)(de)(de)原因。目前(qian)只有(you)o1-mini和o1-preview,我(wo)們都在(zai)(zai)等(deng)待(dai)o1模(mo)型的(de)(de)(de)完整版。有(you)消息(xi)說(shuo)今年(nian)(nian)的(de)(de)(de)感恩(en)節(11月28號)后,OpenAI將發(fa)布(bu)滿血(xue)版的(de)(de)(de)o1模(mo)型。

那么,o1滿血版是(shi)否會大幅推動OpenAI的(de)發展,還是(shi)說(shuo)現階(jie)段部(bu)分中(zhong)國(guo)科技公司已經復刻(ke)了這些專(zhuan)有技術公司實際使用的(de)模型?我認為這是(shi)AI領域非(fei)常重(zhong)要(yao)的(de)一(yi)次進(jin)展,讓我們(men)拭目以待(dai)。

Matt Marshall:DeepSeek是一(yi)家來自(zi)中國(guo)的量(liang)化對沖基金(jin)公(gong)司(si),已經成(cheng)(cheng)立了(le)有一(yi)段時(shi)間(jian)了(le),但由于該公(gong)司(si)具有AI方(fang)面的專業(ye)知識(shi),因此我認為DeepSeek是幾家有1萬(wan)個(ge)GPU并且能夠完成(cheng)(cheng)這部分(fen)工作(zuo)的公(gong)司(si)之一(yi)。

不過,OpenAI一直(zhi)在(zai)(zai)說他們已經領先了(le),其CEO薩姆·阿爾特曼(man)(Sam?Altman)11月27日才(cai)在(zai)(zai)播(bo)客中說將(jiang)會在(zai)(zai)2025年實現AGI。他們用這種說辭吸引了(le)不少人,

但(dan)在我看來(lai),這種說法已經開(kai)始變得有點過時(shi)了(le)。OpenAI過去曾擁有強(qiang)大的領導(dao)力,但(dan)現在其領先優勢已經不復(fu)存(cun)在了(le)。換句話說,如果他們(men)仍(reng)然明顯領先,應該(gai)能夠再次證明這一點。

二、基于思維鏈,推理模型能自查并糾正“strrawberry”

Matt Marshall:涉及(ji)到開(kai)發方(fang)面(mian),你認(ren)為(wei)這(zhe)些模型方(fang)面(mian)的變化對開(kai)發應用程序來說意味著(zhu)什么?

我們(men)討(tao)論(lun)過AI模(mo)(mo)型(xing)已(yi)有太多的(de)榮(rong)耀,上周還討(tao)論(lun)過Agentic AI的(de)發展透露出AI模(mo)(mo)型(xing)的(de)價值越來(lai)越小。對于你那邊的(de)開(kai)發人員來(lai)說(shuo)這又(you)意味著(zhu)什么(me)?為什么(me)你仍(reng)然對這些大模(mo)(mo)型(xing)感到興奮(fen)?

Sam Witteveen:我覺得(de)你(ni)說(shuo)的(de)完全正確(que)。隨著AI模(mo)型整體都越來越強大,你(ni)所需要一個AI模(mo)型去完成的(de)事項或技能(neng),現在(zai)幾乎(hu)所有市面上的(de)AI模(mo)型都可以做得(de)到(dao)。

本(ben)周(zhou)AI2推出的(de)(de)OLMo 2也是(shi)很有趣(qu)的(de)(de)一(yi)款AI模(mo)(mo)型(xing),它實際上是(shi)一(yi)個(ge)(ge)完全開源的(de)(de)AI模(mo)(mo)型(xing)。那(nei)么,這其中有什么區別呢(ni)?一(yi)個(ge)(ge)完全開源的(de)(de)版本(ben)意味著他(ta)們不僅提(ti)供(gong)(gong)了(le)模(mo)(mo)型(xing)權重,還同時提(ti)供(gong)(gong)了(le)訓練(lian)代(dai)碼、數據集和所有他(ta)們采用的(de)(de)設置,有了(le)這些,你就可以復制這一(yi)個(ge)(ge)AI模(mo)(mo)型(xing)。

你(ni)可以(yi)想象到很多(duo)組織(zhi)會喜歡這種形式,因為他(ta)們可以(yi)查看數據集(ji)的內容,從而發現是否有任何(he)受版權保護的材料,或者是否與(yu)他(ta)們公司的立(li)場相沖突。

對著3個中國AI大模型,兩個美國科技界大佬深聊了半小時

這款(kuan)名為(wei)OLMo 2的AI模(mo)型采用了一種更(geng)恰到好處的開(kai)源方式。我們過往談論的大(da)部分開(kai)源的AI模(mo)型版本都(dou)屬于開(kai)放模(mo)型權重(zhong)的類(lei)型,就(jiu)是雖然我們拿到了該AI模(mo)型,但并沒有(you)獲得其訓練(lian)數據(ju)、訓練(lian)腳(jiao)本等資料。

但是(shi)(shi),這些來自(zi)中國的(de)(de)開源AI模型,大部(bu)分都(dou)獲得了許可(ke)證。就像DeepSeek R1發布后(hou),我們可(ke)以看到它的(de)(de)許可(ke)證是(shi)(shi)怎么樣的(de)(de),公司是(shi)(shi)否能(neng)夠(gou)直接使用(yong)它,使用(yong)后(hou)是(shi)(shi)否能(neng)獲得良好的(de)(de)結果(guo),以及(ji)是(shi)(shi)否能(neng)夠(gou)針(zhen)對特定用(yong)例微(wei)調該(gai)模型?我們暫且還不清楚(chu)他們具體(ti)是(shi)(shi)如何訓練(lian)的(de)(de),如何進行所謂的(de)(de)測試(shi)時間計算。

這些模(mo)型(xing)與你(ni)之前談到(dao)的GPT-4、GPT-3模(mo)型(xing)之間的區別(bie)在于(yu),前者在實際進行(xing)推(tui)理時會(hui)花費更多的計算(suan)量,這是(shi)由于(yu)該模(mo)型(xing)一(yi)直在推(tui)理。過往的那些模(mo)型(xing)只有在訓練時才會(hui)花費較(jiao)多的計算(suan)量,一(yi)旦(dan)訓練完成(cheng),他們將使用更少、更一(yi)致(zhi)的計算(suan)量。

不(bu)同的(de)(de)是,這些(xie)推理(li)模型(xing)會消耗更多的(de)(de)計算(suan)量,并且(qie)它(ta)們(men)(men)(men)可(ke)以自我迭代。這也是人(ren)們(men)(men)(men)將它(ta)們(men)(men)(men)稱之為推理(li)模型(xing)的(de)(de)原因(yin)。它(ta)們(men)(men)(men)會思(si)(si)考(kao)用戶的(de)(de)需(xu)求(qiu),然后(hou)緊(jin)接(jie)著會不(bu)斷回(hui)過(guo)(guo)頭來(lai)重新思(si)(si)考(kao)并自行(xing)完善它(ta)們(men)(men)(men)給出的(de)(de)答案,從(cong)而改善輸出結果。從(cong)中可(ke)以看出,這些(xie)推理(li)模型(xing)有(you)很長(chang)的(de)(de)思(si)(si)考(kao)鏈路,我們(men)(men)(men)現在把這個過(guo)(guo)程叫作“思(si)(si)維鏈”。

Matt Marshall:我看(kan)到(dao)了(le)(le)有部分開發人員測(ce)試了(le)(le)DeepSeek R1的(de)(de)“思維鏈”能力。例如(ru),讓它(ta)計算草莓(strawberry)英文單詞中(zhong)(zhong)R字母的(de)(de)數量,你可以看(kan)到(dao)它(ta)的(de)(de)推(tui)理過程。一般來說(shuo),當(dang)你要計算該(gai)單詞中(zhong)(zhong)R字母的(de)(de)數量時,但(dan)它(ta)可能會轉變(bian)兩(liang)三中(zhong)(zhong)答法,隱(yin)蔽(bi)性比較強。而DeepSeek的(de)(de)R1能做(zuo)(zuo)到(dao),OpenAI的(de)(de)o1卻(que)做(zuo)(zuo)不到(dao)。

OpenAI說(shuo)他們(men)不想公布所有(you)的(de)思維(wei)鏈(lian),這可(ke)能是(shi)出于(yu)競爭原因(yin),但同時(shi)我認為他們(men)不想透露(lu)有(you)偏差的(de)情況(kuang)。如果將推理過程展(zhan)示出來,你(ni)就可(ke)以(yi)看到模(mo)型具(ju)體哪個地方出錯了,那么你(ni)也可(ke)以(yi)重新輸(shu)入(ru)提示。而且(qie)開發(fa)人員和用戶,也可(ke)以(yi)弄清楚問題并改進(jin)這一點。因(yin)此(ci)事(shi)實上,在集(ji)群規模(mo)較小的(de)前提下(xia),中國(guo)這方面(mian)確實做得(de)更好。

不過,有一些人(ren)說你(ni)可(ke)以使用(yong)許(xu)多技巧(qiao),例如(ru)你(ni)所使用(yong)的tokens數量(liang)、計算(suan)量(liang),會對推理(li)效率(lv)產生(sheng)較大(da)影響。我之前(qian)和Cap Gemini的生(sheng)成式(shi)AI執(zhi)行副總(zong)裁史蒂夫·瓊斯(Steve Jones)討論過這件(jian)事(shi)情。他(ta)們與許(xu)多企業合作使用(yong)生(sheng)成式(shi)AI。

瓊斯說,他基本(ben)上都(dou)在使(shi)用ETIC框架(jia),該框架(jia)將正確的(de)(de)Lang圖與一(yi)些計劃和執行框架(jia)混合(he)在一(yi)起(qi)。根據他的(de)(de)經驗,這(zhe)樣做將輕松擊敗o1-preview,以及上述任何一(yi)種模(mo)型。

Sam Witteveen:確實(shi),當o1問世時(shi),我(wo)做過(guo)一個(ge)(ge)“窮人(ren)版”o1測試。我(wo)自己創建了一些模型,其中(zhong)包括(kuo)一個(ge)(ge)Agentic版本和一個(ge)(ge)小模型版本。我(wo)訓練或者微(wei)調它們,以便與(yu)o1對齊。我(wo)發現,Agentic版本更安全,這(zhe)是由于(yu)(yu)你可以在(zai)里(li)面(mian)設(she)置檢查、驗證、制衡等環節(jie)。外加一個(ge)(ge)類似于(yu)(yu)R1這(zhe)種模型,你就擁有了兩(liang)全其美的方(fang)法。

在草莓英文(wen)(wen)單詞(ci)(ci)R字(zi)(zi)母的(de)計數實(shi)驗中,我拋給R1的(de)第一個測(ce)試是(shi)當(dang)(dang)我拼錯了四個字(zi)(zi)母R時,R1怎么回答“數一數你知道的(de)草莓英文(wen)(wen)單詞(ci)(ci)中的(de)R字(zi)(zi)母的(de)數量(How many r’s in ‘strrawberry)”。當(dang)(dang)然,結果是(shi)它仍能夠(gou)正確(que)識別并回答出有4個R字(zi)(zi)母。

三、整合多家模型能力,用一個系統定制專業領域模型

Matt Marshall:總部(bu)位(wei)于(yu)美國舊金山的Fireworks AI于(yu)11月18日發布了一個專門從(cong)事復(fu)雜(za)推理(li)的復(fu)合AI模型,雖然它(ta)沒有針對o1-preview進行基準測試,但它(ta)對標GPT-4o。另外(wai),中國的阿(a)里巴巴和

OpenMMLab同樣發(fa)布了對(dui)標o1-preview的模型版本。這(zhe)其中(zhong)你(ni)認為(wei)有(you)哪些值(zhi)得(de)關注(zhu)的事情呢?

Sam Witteveen:還有(you)一(yi)(yi)(yi)家位于美國舊(jiu)金山的(de)(de)創企(qi)也(ye)在(zai)微調(diao)大(da)模(mo)(mo)(mo)型(xing)等方面做了許(xu)多(duo)事(shi)情(qing),并建立了良好的(de)(de)口碑。這家名(ming)為Nous Research的(de)(de)開源模(mo)(mo)(mo)型(xing)服務公司推出了一(yi)(yi)(yi)款(kuan)模(mo)(mo)(mo)型(xing)Nous Forge。據我(wo)了解(jie),他們的(de)(de)方法(fa)更適合做代理這種事(shi)情(qing),例如(ru)你可以(yi)更換任何模(mo)(mo)(mo)型(xing),這意(yi)味著他們的(de)(de)系統不一(yi)(yi)(yi)定是圍繞某個單一(yi)(yi)(yi)的(de)(de)模(mo)(mo)(mo)型(xing)建立的(de)(de),而是可以(yi)整合當時你需(xu)要的(de)(de)或者你發現(xian)的(de)(de)一(yi)(yi)(yi)個新(xin)模(mo)(mo)(mo)型(xing)。

在(zai)我(wo)看來(lai),所有這些(xie)AI模(mo)型未來(lai)都將朝著(zhu)類似的(de)(de)(de)方向發(fa)展,即(ji)使(shi)我(wo)們還沒有看到完整版(ban)的(de)(de)(de)o1。如(ru)果o1最終呈現的(de)(de)(de)效果比這些(xie)模(mo)型都要(yao)好,那將十分有趣。但(dan)與此同時,其可(ke)能需要(yao)花費更多時間來(lai)推理。因此,我(wo)認(ren)為(wei)他們不會局限于開(kai)發(fa)商用(yong)的(de)(de)(de)標準模(mo)型,而是會面向科學發(fa)現、癌癥治療等(deng)領域開(kai)發(fa)更多的(de)(de)(de)模(mo)型。

人們正(zheng)在(zai)(zai)(zai)研(yan)究如何從OpenAI中(zhong)至少(shao)實現其中(zhong)一(yi)些想(xiang)法(fa)。現在(zai)(zai)(zai),也(ye)許我(wo)們還沒(mei)有(you)像OpenAI那(nei)樣完整的秘密來(lai)源,也(ye)許他們還有(you)更(geng)(geng)有(you)趣的東西要來(lai)。你可以設(she)想(xiang)一(yi)下,未來(lai)我(wo)們不介(jie)意等待模型“思考”一(yi)周的時(shi)間,看(kan)看(kan)它是否會生成某種更(geng)(geng)加深入或創(chuang)新(xin)的結(jie)果。現在(zai)(zai)(zai)關鍵在(zai)(zai)(zai)于o1到底能(neng)達(da)到哪種程(cheng)度。

來源(yuan):VentureBeat