
智東西(公眾號:zhidxcom)
編譯?| 銘滟
編輯 | 云鵬
誰曾想過,引(yin)發人工智(zhi)能革命的(de)(de)突(tu)破竟源自一(yi)個改進機器翻譯的(de)(de)想法?
智東西8月(yue)21日(ri)消(xiao)息(xi),據英國《金融(rong)時報(bao)》報(bao)道,被稱為“ChatGPT奠基(ji)之作”的(de)(de)著名(ming)架構Transformer的(de)(de)八(ba)位作者均已離(li)開(kai)谷(gu)歌(ge)。Transformer的(de)(de)發布如同人工智能(neng)領域的(de)(de)“宇宙大爆炸”。八(ba)位研究人員(yuan)都看到了(le)人工智能(neng)領域的(de)(de)新希望,相繼選擇離(li)開(kai)谷(gu)歌(ge),各自創立企業或加入(ru)新的(de)(de)團隊以實現自己的(de)(de)抱負(fu)。
據悉(xi),八位作者的初始(shi)想(xiang)法(fa)只是(shi)想(xiang)要改進谷歌的機器(qi)翻譯,他們希望讓機器(qi)通(tong)讀整個句子,分析其所有部分,而(er)不是(shi)單個單詞逐個翻譯。這一想(xiang)法(fa)經過他們的討論與碰撞后(hou),成為“Transformer”架構的概念起(qi)點(dian)——“自我注意力(self-attention)”。
在這(zhe)一(yi)基礎上,八位(wei)作者結合各自專長,于2017年(nian)12月發(fa)布論文“Attention Is All You Need(你所(suo)需要的是注意力)”。這(zhe)篇(pian)論文所(suo)描述(shu)的,就是“Transformer”架構。
身處人工(gong)智能浪潮(chao)之中,我(wo)們再度回看“宇宙大(da)爆炸”的(de)瞬間,可(ke)以發(fa)現,與科學發(fa)現中的(de)諸多突(tu)破(po)性進(jin)展一樣,引發(fa)人工(gong)智能革命(ming)的(de)突(tu)破(po)性進(jin)展也湊齊了天時地利(li)人和。
在英(ying)國《金融時報》萬字揭秘中,全文回顧了Transformer架構的(de)前(qian)世今(jin)生、八位作者陸續離開谷歌(ge)的(de)緣由以及他們如今(jin)在人工智能領域的(de)成就等(deng)等(deng),我們將帶你一文看盡。
一、Transformer創始八子:人均身價百萬美元起
在詳細講述Transformer架構的前(qian)世(shi)今生之前(qian),我們(men)可以先(xian)來(lai)認(ren)識一下這八位作(zuo)者(zhe),他們(men)分別(bie)是Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Illia Polosukhin、Noam Shazeer、Llion Jones、Lukasz Kaiser和Aidan Gomez。
▲圖(tu)為Ashish Vaswani(左)和Niki Parmar(右),來源:金融時報
論文一作Ashish Vaswani(左)于2014年在南加(jia)州大學獲得博士學位(wei),并于2016年作為(wei)研究科學家加(jia)入谷歌大腦團隊。2022年4月,他與(yu)團隊8人(ren)之一Niki Parmar共(gong)同創(chuang)辦了Adept AI,但(dan)兩(liang)人(ren)均于12月離開(kai)該公司,并共(gong)同創(chuang)立了另一家人(ren)工智(zhi)能初創(chuang)公司Essential AI。
Niki Parmar(右)來自(zi)印度西(xi)部浦那。在加(jia)入谷歌擔(dan)任軟件工(gong)程(cheng)師之前,Parmar也曾(ceng)就讀于南加(jia)州大學。她在谷歌大腦團隊工(gong)作了四年,之后與Ashish Vaswani共(gong)同創立了Adept AI和Essential AI。
Essential AI的主營(ying)業務是為企業構建(jian)軟件,便于企業使用大型語(yu)言模(mo)型。今(jin)年5月,Essential?Al獲得了由OpenAI投資(zi)者(zhe)“Thrive Capital”領投的800萬美元(約(yue)合(he)人民幣5858萬元)融資(zi)。
▲圖為Jakob Uszkoreit(左)和Illia Polosukhin(右),來源:金融(rong)時報
Jakob Uszkoreit(左)曾在柏林學(xue)習。2008年(nian)(nian)至2021年(nian)(nian),Uszkoreit在谷歌(ge)工作(zuo)。Uszkoreit于(yu)2021年(nian)(nian)離開谷歌(ge),并與他人(ren)共同創立Inceptive。該公(gong)司主營業(ye)務為(wei)人(ren)工智(zhi)能生(sheng)命科學(xue),致力(li)于(yu)使用神經網(wang)絡和高(gao)通(tong)量實驗來(lai)設計(ji)下(xia)一代RNA分子(zi)。
Illia Polosukhin(右)曾在(zai)烏(wu)克蘭哈爾(er)科夫學習。Polosukhin于2014年加(jia)入谷(gu)歌,他(ta)是八人團隊中最早離開的人之(zhi)一,于2017年同(tong)他(ta)人共同(tong)創立了區塊(kuai)鏈公(gong)司NEAR Protocol。
Polosukhin曾任谷歌(ge)深度學(xue)習小組項目(mu)主(zhu)管,帶隊負責核(he)心搜索(suo)算法業務近(jin)10年,也是谷歌(ge)TensorFlow人工智能開源項目(mu)的(de)主(zhu)要代碼貢獻者(zhe)。
他創立(li)的區塊鏈公司NEAR Protocol目前估值約(yue)為(wei)20億(yi)美元(yuan)(約(yue)合人民幣146億(yi)元(yuan)),曾先(xian)后(hou)吸(xi)引(yin)包括a16z、MultiCoin Capital、Metastable、Coinbase Ventures等區塊鏈領域(yu)的著名投資機構。
▲圖為(wei)Noam Shazeer(左)和(he)Llion Jones(右),來源(yuan):金融時報
Noam Shazeer(左)曾于(yu)(yu)2000年(nian)至(zhi)2009年(nian)間和2012年(nian)至(zhi)2021年(nian)期間就職于(yu)(yu)谷(gu)歌。2021年(nian),Shazeer離開谷(gu)歌并與前谷(gu)歌工程師Daniel De Freitas共同創立Character.AI,致力于(yu)(yu)開發生(sheng)成(cheng)式人(ren)工智能聊天機器人(ren)。今年(nian)三(san)月,Character.AI宣(xuan)布完成(cheng)1.5億美元(約(yue)合(he)人(ren)民幣(bi)10.98億元)融資,估值(zhi)達10億美元(約(yue)合(he)人(ren)民幣(bi)73.23億元)。
Llion Jones(右)本碩畢業于(yu)伯明翰大學,曾工作于(yu)Delcam、YouTube。他于(yu)2012年加入谷歌,擔任軟件工程師。直(zhi)到(dao)本月,他表示自(zi)己離開(kai)谷歌,并于(yu)日本創辦人工智能初創企業sakana.ai。
▲圖(tu)為Lukasz Kaiser(左)和Aidan Gomez(右),來(lai)源:金(jin)融時報
Lukasz Kaiser(左)曾(ceng)在(zai)波蘭和德國(guo)學(xue)習,曾(ceng)任法國(guo)國(guo)家(jia)科學(xue)研(yan)究(jiu)中心研(yan)究(jiu)員(yuan)。他于2013年加入谷歌。2021年,他離開谷歌,成(cheng)為OpenAI的研(yan)究(jiu)員(yuan)。
Aidan Gomez(右)畢業于加拿大多(duo)倫多(duo)大學,Transformer論(lun)文發表時(shi),他還是谷歌大腦(nao)團隊(dui)的實習生。他是八人團隊(dui)中第(di)二個離開谷歌的人。
2019年,他(ta)與他(ta)人(ren)共同創立了(le)Cohere,這是一家總部位于(yu)多(duo)倫多(duo)的初(chu)創公司(si),該(gai)公司(si)專注于(yu)提供NLP模型,幫(bang)助企(qi)業改善人(ren)機交互。今年6月,Cohere拿(na)到了(le)由英偉達等參投的2.5億美(mei)元融資,當前估值已達20億美(mei)元。
二、AI的“宇宙起源”:Transformer
2017年(nian)初,兩位(wei)谷歌研(yan)究(jiu)科學家Ashish Vaswani和Jakob Uszkoreit在(zai)谷歌園區中討論如何改進機器翻(fan)譯(谷歌翻(fan)譯背(bei)后的人工智能(neng)技術)的新想(xiang)法(fa)。
在那時,Illia Polosukhin正與(yu)其他人(ren)工智能研究(jiu)員合作(zuo)研究(jiu)一個(ge)他們稱之為“自(zi)我注意(yi)力(self-attention)”的想法。自(zi)我注意(yi)力的概(gai)念是(shi)讓機(ji)器(qi)通讀整(zheng)個(ge)句子,分(fen)析其所有部分(fen),而不是(shi)單(dan)個(ge)單(dan)詞逐(zhu)個(ge)翻(fan)譯(yi)。然后(hou),機(ji)器(qi)就(jiu)可以獲(huo)得(de)更(geng)通順的上下(xia)文,并(bing)生成翻(fan)譯(yi)。他認(ren)為,這一概(gai)念可以從根本上提升計算機(ji)對(dui)語(yu)言的理解能力。
當時,三位(wei)科學家認為這一方(fang)(fang)法將比現有方(fang)(fang)法更快、更準確。經過嘗試(shi)翻(fan)譯了一些英德(de)翻(fan)譯的(de)文本后(hou),他們發現自(zi)我注意力的(de)概念是有效的(de)。
在走廊里聊天時,Uszkoreit和Vaswani的想法也(ye)谷歌老員工(gong)Noam Shazeer無(wu)意中聽到。
Shazeer曾(ceng)經協助構建谷(gu)歌搜索“Did You Mean?”的(de)(de)拼寫檢查功能,他(ta)還參與了其他(ta)幾項人工(gong)(gong)智能創新工(gong)(gong)作(zuo),但(dan)他(ta)對(dui)現(xian)有的(de)(de)語(yu)言生成方法感到失望(wang),并(bing)在尋找新思(si)路。
因此,當他聽到(dao)同事談(tan)論“自我注(zhu)意力(li)”這(zhe)個想法時,他決(jue)定加入并提供幫(bang)助。Shazeer說:“我支持你們,讓我們一起(qi)來做吧,這(zhe)將(jiang)使(shi)所有的人工智能研(yan)究(jiu)員受益匪淺(qian)。”
這次偶然的(de)(de)談(tan)話促成了(le)八(ba)人團隊(dui)為期數月的(de)(de)合作。他們研究了(le)一(yi)種處理語言的(de)(de)架(jia)(jia)構,也就是(shi)“Transformer”。最終,八(ba)人團隊(dui)于2017年發布了(le)一(yi)篇簡(jian)(jian)短的(de)(de)論(lun)(lun)文(wen),論(lun)(lun)文(wen)標題(ti)簡(jian)(jian)潔有力:“Attention Is All You Need(你所(suo)需要的(de)(de)是(shi)注(zhu)意(yi)力)”。這篇論(lun)(lun)文(wen)描(miao)述了(le)“Transformer”架(jia)(jia)構。
Llion Jones說這個標題(ti)是對披頭士樂(le)隊歌曲“All You Need Is Love”的(de)致敬。這篇論文于2017年6月(yue)首次發表,開啟了人工智能的(de)全新時(shi)代(dai):生成式人工智能的(de)崛起。
▲圖為(wei)披頭士樂隊歌曲“All You Need Is Love”封面
如今,絕大(da)多數的人(ren)工智能(neng)應(ying)用都是(shi)以Transformer為基礎架構。它(ta)不僅嵌(qian)入在谷歌搜索和谷歌翻譯中,還(huan)是(shi)所有的大(da)語(yu)言模型(Large Language Model)的基礎架構,包括ChatGPT和Bard等。
三、Transformer:把“前浪”拍在沙灘上
▲圖為Transformer架(jia)構示意(yi),來源:金融時報
像所有科學進步一樣,Transformer建立在之前(qian)幾十(shi)年的人(ren)工智能(neng)相(xiang)關領域(yu)的工作(zuo)基礎上(shang),這些工作(zuo)來自谷(gu)(gu)歌自身(shen)的實驗室(shi),以及其(qi)子公司DeepMind(現已與谷(gu)(gu)歌大腦團隊合并)、Meta和各個大學的研究(jiu)人(ren)員等等。
但在2017年,這些碎(sui)片因(yin)谷歌研究(jiu)部門(men)的八位(wei)成員(yuan)的偶(ou)然集結而得以融合(he)。
最終(zhong)的團隊成員包括Vaswani、Shazeer、Uszkoreit、Polosukhin和(he)Jones,以及當時還在多倫多大學攻讀學位(wei)的實習生Aidan Gomez和(he)Uszkoreit團隊的碩士研(yan)究生Niki Parmar。第八位(wei)作者(zhe)是Lukasz Kaiser,他(ta)也是法(fa)國國家科學研(yan)究中心的兼職學者(zhe)。
盡管八人(ren)(ren)團隊(dui)在教育、職業和地(di)理背景(jing)上具有(you)多樣性。但是(shi),八人(ren)(ren)的共(gong)同興趣都是(shi)人(ren)(ren)工智能研究的新(xin)興領域:自然語言處理。
Uszkoreit在美國和德國長大,他說(shuo):“擁有這(zhe)樣多(duo)樣化的(de)團隊成員(yuan)對這(zhe)項工作的(de)發展絕對至(zhi)關重要。”
Uszkoreit最(zui)(zui)初拒絕(jue)涉足語言(yan)理解領(ling)(ling)域(yu)(yu),因(yin)為他(ta)的(de)(de)父親(qin)是計算語言(yan)學(xue)的(de)(de)教授。但當他(ta)來谷歌(ge)實習時,他(ta)發現當時人工智能領(ling)(ling)域(yu)(yu)最(zui)(zui)有(you)意思的(de)(de)問題是語言(yan)翻譯。盡(jin)管這讓(rang)他(ta)感到(dao)有(you)些惱火(huo),但他(ta)最(zui)(zui)后還是延續了父親(qin)的(de)(de)道路(lu),開始專注(zhu)于機器翻譯領(ling)(ling)域(yu)(yu)。
據他(ta)(ta)們回憶,他(ta)(ta)們最(zui)初(chu)以(yi)三(san)個獨(du)立小組的(de)身份研究“自我注意力(li)”的(de)不(bu)同方面,但后來,他(ta)(ta)們決定集中起來。部分團隊成(cheng)員負(fu)責(ze)編寫初(chu)始代碼、清(qing)洗數(shu)據和進行測試,而其(qi)(qi)他(ta)(ta)人則負(fu)責(ze)圍繞模型(xing)創建架構,并將其(qi)(qi)集成(cheng)到谷歌的(de)基礎設施中,以(yi)確保其(qi)(qi)高效運行,并最(zui)終使(shi)其(qi)(qi)易于操作。
Jones談到,“Transformer的(de)(de)想(xiang)法是我(wo)(wo)們一起在(zai)辦公(gong)(gong)室(shi)工(gong)作(zuo)時(shi)自(zi)然浮現(xian)的(de)(de)。”谷歌(ge)豐富多彩的(de)(de)開放式工(gong)作(zuo)環境一定(ding)程(cheng)度(du)上保證了員(yuan)工(gong)的(de)(de)創造力(li)。“我(wo)(wo)記得(de)當(dang)時(shi)Jakob Uszkoreit騎著自(zi)行(xing)車來到我(wo)(wo)的(de)(de)辦公(gong)(gong)桌前(qian),他(ta)在(zai)我(wo)(wo)身后的(de)(de)白板上潦(liao)草地(di)畫了一個模型,然后收集了當(dang)時(shi)在(zai)場(chang)同事的(de)(de)想(xiang)法。”
八人團(tuan)隊之間的聯(lian)系(xi)源自他們對(dui)語(yu)言的癡迷與追求,他們希望能利用(yong)人工智更好地(di)理(li)解語(yu)言的動機。正(zheng)如資(zi)深工程(cheng)師Shazeer所說:“文本實(shi)際(ji)上(shang)是(shi)我(wo)(wo)們最集中的抽象思維形式(shi)。我(wo)(wo)一直覺得,如果你(ni)想構建真正(zheng)智能的東(dong)西,你(ni)應該從文本入手。”
在論文中提到的(de)模型(xing)(xing)是(shi)對(dui)原(yuan)始“自我注(zhu)意力”概(gai)念(nian)的(de)簡化版。Shazeer發現,當他們去除了所(suo)有(you)花哨的(de)附件后,這種簡化版的(de)運(yun)(yun)(yun)行效果更好。代碼(ma)是(shi)模型(xing)(xing)運(yun)(yun)(yun)行的(de)起點,但(dan)模型(xing)(xing)仍(reng)需要大量微(wei)調才(cai)能使(shi)其在GPU上運(yun)(yun)(yun)行。GPU正是(shi)最適合運(yun)(yun)(yun)行類似Transformer這樣的(de)深(shen)度學習架構(gou)的(de)硬件。
Uszkoreit表示,“在深度學習的(de)概念中,重(zhong)點不僅在架構本身。關鍵在于如何將(jiang)它(ta)們應用到(dao)硬件上(shang)。這像(xiang)是一個巨(ju)大的(de)黑魔法的(de)寶(bao)庫,只有極少數(shu)人才能真正掌握(wo)其(qi)中奧秘。”
這些(xie)硬(ying)件(jian)運行(xing)想法(fa)主要由Shazeer負責實現,他也被(bei)稱為“魔法(fa)師(shi)”。正(zheng)因能夠在(zai)硬(ying)件(jian)中(zhong)運行(xing),Transformer在(zai)每一(yi)項應用(yong)任務(wu)中(zhong)都取得了飛躍式的進步。
它的優點在于它支持并行計算,并能將計算打(da)包,提高(gao)計算效率。Polosukhin說:“提升計算效率這件事非常簡單,因為Transformer的架構非常緊湊。”
▲圖(tu)為Lukasz Kaiser和(he)Illia Polosukhin在NeurIPS會議上,背(bei)景(jing)中可(ke)以看到展示Transformer的海報,來源:金融時報
該(gai)論文于(yu)2017年(nian)12月發(fa)表,恰(qia)好趕上了當(dang)年(nian)在加利(li)福(fu)尼亞南部舉行的最負(fu)盛名的機器學習會議之一——NeurIPS。他們仍(reng)然記(ji)得,當(dang)他們展示工作海報時,他們被會議現場的研(yan)究人員團(tuan)團(tuan)圍住。不久之后,谷歌之外(wai)的科學家們也(ye)開始將Transformer應用于(yu)從(cong)翻譯到人工智能生成答案(an)、圖像標注和識(shi)別等各個領域中。目(mu)前,它在研(yan)究論文中的引用次(ci)(ci)數已經超過82000次(ci)(ci)。
“無論(lun)是(shi)理論(lun)還是(shi)實(shi)踐領(ling)域,Transformer都經歷了(le)一次(ci)大爆發。”Vaswani表示:“Transformer推(tui)動了(le)機器翻譯的(de)發展,語言(yan)模(mo)型Bert出現。當Transformer應用于谷歌(ge)搜索(suo)時,這意(yi)味著Transformer進入(ru)了(le)搜索(suo)領(ling)域,也就是(shi)說,人(ren)工智能(neng)迎來了(le)一個(ge)非常重要(yao)的(de)時刻。”
論文發表(biao)后,Parmar發現Transformer可以(yi)生(sheng)成(cheng)類(lei)似維基百科的(de)長(chang)篇文本(ben)(ben),而以(yi)前的(de)模型很難做(zuo)到(dao)(dao)這件事。她(ta)說(shuo):“當時我們已經意識(shi)到(dao)(dao),以(yi)前的(de)研究根本(ben)(ben)無法生(sheng)成(cheng)長(chang)文本(ben)(ben)。”
Parmar還意識(shi)到了Transformer的(de)一(yi)個關(guan)鍵(jian)特(te)性:當你給Transformer越(yue)來越(yue)多的(de)數據時,它們(men)能夠(gou)學得更好(hao)。這為GPT-4等(deng)大語言(yan)(yan)模(mo)型的(de)出(chu)現(xian)指明了方向。在推理和語言(yan)(yan)能力方面,Transformer比(bi)它們(men)的(de)“前輩”要強得多。
“總的(de)(de)來說,幾乎在任何可(ke)以應用它們的(de)(de)領域里(li),Transformer的(de)(de)表現都優于(yu)以前的(de)(de)舊模型。”Jones說,“我(wo)認為這就是(shi)Transformer被廣泛應用的(de)(de)原因。”
四、八人出逃谷歌的前奏:Transformer太強了
然(ran)而(er),Transformer的(de)真正威力遠超語言范疇。它可(ke)以生成(cheng)帶有重復圖(tu)案或(huo)模(mo)式的(de)所有東西,從(cong)使用DALL·E、Midjourney和Stable Diffusion等工具(ju)生成(cheng)的(de)圖(tu)像(xiang),到(dao)使用GitHub CoPilot等生成(cheng)器生成(cheng)的(de)計算機代(dai)碼,甚至DNA。
▲圖(tu)為GitHub CoPilot示意
Vaswani對音樂特別感興趣,她想知道Transformer是否可以用來生成(cheng)(cheng)音樂。她驚訝地(di)發現它不僅可以生成(cheng)(cheng)古典鋼(gang)琴音樂,還能生成(cheng)(cheng)當時最先進(jin)的(de)人工智能模型。
“Transformer可以(yi)(yi)快速捕(bu)捉(zhuo)輸入的(de)(de)不(bu)同部(bu)分(fen)之(zhi)間的(de)(de)連接方式,一旦它捕(bu)捉(zhuo)到,它就可以(yi)(yi)從中(zhong)(zhong)學(xue)習。”Vaswani說。“這是一種通用方法。Transformer可以(yi)(yi)捕(bu)捉(zhuo)句子(zi)中(zhong)(zhong)各個部(bu)分(fen)之(zhi)間的(de)(de)連接,或者音樂中(zhong)(zhong)的(de)(de)音符,圖(tu)像中(zhong)(zhong)的(de)(de)像素,蛋白質的(de)(de)組成部(bu)分(fen)。它可以(yi)(yi)用于任何(he)任務。”
五、八人團隊陸續離開谷歌:新的種子需要新的土壤
Transformer的(de)(de)(de)(de)起源以及其八人(ren)(ren)團隊的(de)(de)(de)(de)故事有助于解釋人(ren)(ren)類在人(ren)(ren)工智能領域的(de)(de)(de)(de)發展:這是一(yi)個關鍵轉折(zhe)。就像曾經的(de)(de)(de)(de)互聯網和智能手機一(yi)樣,Transformer為(wei)新(xin)一(yi)代企(qi)業家提供(gong)了種子,讓他們為(wei)大眾(zhong)開發出由人(ren)(ren)工智能驅動的(de)(de)(de)(de)消(xiao)費產品。
但與此同時,這也凸顯了在演變為龐大的“官(guan)僚機構”的過(guo)程中,谷歌究(jiu)竟如何扼殺(sha)了本應蓬勃(bo)發展的創業精神(shen)以及快速(su)推出新消費產品的能(neng)力。
哈佛商學院教授Clayton Christensen曾提(ti)出一個概念,名為“創(chuang)新者困(kun)境(jing)”(innovator’s dilemma)。英國《金(jin)融時報(bao)》認為,八人團隊的(de)出逃正是這一概念的(de)鮮(xian)明例證。“創(chuang)新者困(kun)境(jing)”的(de)概念探(tan)討了行業(ye)巨(ju)頭被小而新的(de)企業(ye)超越的(de)原因(yin)。盡管谷(gu)歌聚集了全球領(ling)先的(de)深度學習(xi)和AI人才,并為他們(men)創(chuang)造了一個有利(li)的(de)研究(jiu)環境(jing),但卻無法留住(zhu)他們(men)自己培養的(de)科學家。
谷歌(ge)曾在一份聲明中表示,對于Transformer和其(qi)創(chuang)造的人工(gong)(gong)智能生(sheng)態(tai)系統,他們(men)感到“自豪”。谷歌(ge)承認在如(ru)今(jin)人工(gong)(gong)智能行(xing)業充滿(man)活力的環境(jing)中,有才(cai)華的員工(gong)(gong)可能會選擇離開,堪(kan)稱喜憂(you)參半(ban)。
專(zhuan)家(jia)們認(ren)為(wei),這(zhe)(zhe)些知識(shi)資本的(de)(de)(de)增長帶來了(le)海(hai)量的(de)(de)(de)人(ren)工智能創新(xin)。Alphabet旗下專(zhuan)注于人(ren)工智能投資的(de)(de)(de)成(cheng)(cheng)長型(xing)基金CapitalG的(de)(de)(de)合伙人(ren)Jill Chase表示(shi):“Transformer已(yi)經成(cheng)(cheng)為(wei)幾乎所有使用大語言模型(xing)的(de)(de)(de)生(sheng)成(cheng)(cheng)式AI公(gong)司的(de)(de)(de)基礎。我(wo)的(de)(de)(de)意思是(shi),它無處(chu)不在。因(yin)為(wei)有了(le)Transformer,這(zhe)(zhe)些產品才(cai)得(de)以存在。”
六、“沒人想錯過人工智能研究的豐碩成果”
在Transformer論文引起強烈的反響之(zhi)后,八位研究人員非(fei)常希望盡快將自己的想法推向市場。
那(nei)時,人工智(zhi)能研究(jiu)的(de)步伐正在加快,特別是在使用Transformer生成文本和(he)圖像等領域,但許多創新型貢(gong)獻均來自于谷歌之(zhi)外(wai)的(de)初創公司(si),比如OpenAI。
據英國《金融時報》七位(wei)接受采訪的Transformer共同作者表示,他(ta)(ta)們想知道他(ta)(ta)們所創(chuang)造(zao)的工具能(neng)夠做什么。“Transformer之后(hou)的幾年是研究成果最為豐碩的時期。并且模型會不斷(duan)吸收更(geng)多反饋,從而變(bian)得更(geng)智能(neng),”Vaswani說:“沒有人(ren)想錯過這(zhe)個機(ji)會。”
但(dan)他們(men)也發現(xian),谷歌(ge)公司(si)的組織架構不允許(xu)員工進行冒險創(chuang)業或(huo)迅速推出新(xin)(xin)產品。如果他們(men)想要(yao)深(shen)入(ru)研(yan)究Transformer,他們(men)需要(yao)開發一種(zhong)“可以與計(ji)算機(ji)對話(hua)(hua)的新(xin)(xin)型軟(ruan)件(jian)”,Vaswani補充道,“想做這(zhe)件(jian)事(shi)的話(hua)(hua),離開谷歌(ge)后(hou)會更容易。”最終,他于2021年離開谷歌(ge)。
Polosukhin早(zao)在2017年就離開了(le)谷(gu)歌,創(chuang)辦了(le)一家名為NEAR Protocol的初創(chuang)公司。他的最初想(xiang)法是利用人(ren)工智能教計算機執行編程任務,但后來他轉向(xiang)了(le)區塊鏈支(zhi)付領域。
后來(lai),年(nian)輕且經驗最少的(de)(de)Gomez也(ye)呆不住了(le)。他(ta)曾在Kaiser的(de)(de)團隊實習,他(ta)對時尚和設計充滿熱情,他(ta)認為(wei)自(zi)己正身處于有關(guan)語(yu)言(yan)理解(jie)研究的(de)(de)前沿。
他說,“我(wo)離開谷歌的(de)(de)(de)原因是,我(wo)沒(mei)(mei)有(you)(you)看(kan)到足(zu)夠(gou)多的(de)(de)(de)產品采(cai)納了我(wo)正在使用的(de)(de)(de)技術。谷歌的(de)(de)(de)產品沒(mei)(mei)有(you)(you)改變,沒(mei)(mei)有(you)(you)迭代,沒(mei)(mei)有(you)(you)采(cai)用這(zhe)項新(xin)技術。在谷歌,我(wo)沒(mei)(mei)有(you)(you)看(kan)到大語言模(mo)型真正發揮它的(de)(de)(de)力量(liang)。”
2019年,Gomez離開了(le)谷歌,創辦(ban)了(le)一家名為Cohere的(de)生(sheng)成式人工智能(neng)初(chu)創公司。該公司的(de)估值現已超過(guo)20億美元(約(yue)合人民幣146億元),獲得了(le)Nvidia、Oracle、Salesforce等(deng)公司的(de)投資。Gomez希望(wang)將大語(yu)言(yan)模型應用于(yu)各種(zhong)商業(ye)問題,涵蓋銀行、零售和客戶(hu)服務等(deng)領域。“對我們來(lai)說,重要的(de)是(shi)降(jiang)低企業(ye)用戶(hu)使(shi)用大模型的(de)門檻,”他說,“每個(ge)開發(fa)者都應該能(neng)夠使(shi)用人工智能(neng)技術來(lai)構建應用。”
▲圖為Cohere官網示意(yi)
與(yu)此同(tong)時(shi),Uszkoreit決定(ding)將Transformer應用于一(yi)個完全(quan)不同(tong)的領域。他(ta)的初創公司(si)(si)Inceptive是一(yi)家生(sheng)物(wu)技術(shu)公司(si)(si),正在使用深度學習技術(shu)設計“生(sheng)物(wu)軟件(jian)”。
該公司已經向一家大(da)型制(zhi)藥公司交付了由人工(gong)(gong)智能設計的(de)傳染(ran)病疫苗分子。Uszkoreit表示(shi):“我相信(xin),這是迄今為止在我過去(qu)十年的(de)工(gong)(gong)作基礎上改善甚至拯(zheng)救人們生(sheng)命的(de)最佳方(fang)式。”
Shazeer于(yu)(yu)2021年離開了(le)谷歌,這(zhe)正是他在谷歌的(de)(de)第二十年。他與他人共同(tong)創(chuang)辦了(le)Character.AI。該公司致力于(yu)(yu)開發生成式人工(gong)智能(neng)聊天機(ji)器人。他說(shuo):“在大公司,我們(men)(men)可(ke)能(neng)很難推出(chu)新產品(pin),但初創(chuang)公司可(ke)以更快地(di)實現(xian)我們(men)(men)的(de)(de)想法。”
Vaswani和Parmar于2021年(nian)(nian)同時離開谷歌(ge),并合作(zuo)創辦了(le)一(yi)家(jia)名為Essential.AI的人(ren)工(gong)智能公(gong)司(si),該公(gong)司(si)致力于為企業構(gou)建軟件(jian)、便于企業用(yong)戶使(shi)用(yong)大語言模型。今年(nian)(nian)5月,這家(jia)初創公(gong)司(si)獲得了(le)由OpenAI投資(zi)者“Thrive Capital”領投的800萬美元融資(zi)。
“谷歌是(shi)一個很棒的(de)公司,但他們希望(wang)優(you)化現(xian)有的(de)產(chan)品(pin),所以我們很難(nan)推出新產(chan)品(pin)。”Parmar說:“我希望(wang)利用Transformer構建新產(chan)品(pin),這(zhe)是(shi)我離開谷歌的(de)重要原因之一。”
七、聚則為Transformer,散則成人工智能宇宙
如今,八人(ren)團隊(dui)仍然時(shi)常聯系。他們不僅(jin)共同慶祝(zhu)彼此的成功(gong),也會在成為初創企業家時(shi)盡可能互相扶持,渡過各種難關。
如果說Transformer的發布(bu)是那個“大爆炸(big bang)”時刻,那么(me)現在,屬(shu)于它(ta)的宇宙已(yi)經展開(kai)。絕大部(bu)分大語言模型都是以Transformer為基礎架構,包括AlphaFold、ChatGPT等等。
▲圖為(wei)Attention Is All You Need論文八位作者署(shu)名(ming)示意
這也導致(zhi)了硅(gui)谷業內人(ren)士稱之(zhi)為“技(ji)術過(guo)剩”(technology overhang)的(de)時(shi)期——即使研究沒有取得任何(he)進展,各行業也會花費時(shi)間將最新的(de)人(ren)工智能技(ji)術應用到產(chan)品中。
“人(ren)(ren)(ren)(ren)(ren)們(men)已經(jing)感(gan)受到了Transformer的深刻(ke)影響(xiang),人(ren)(ren)(ren)(ren)(ren)工(gong)智能(neng)吸引了海量(liang)研究人(ren)(ren)(ren)(ren)(ren)員(yuan)、技(ji)術(shu)(shu)專家和產品(pin)(pin)人(ren)(ren)(ren)(ren)(ren)員(yuan)進入這一(yi)領域。現在(zai),我(wo)們(men)認(ren)為(wei)人(ren)(ren)(ren)(ren)(ren)工(gong)智能(neng)技(ji)術(shu)(shu)已經(jing)過剩,這一(yi)技(ji)術(shu)(shu)可以應用于各種(zhong)產品(pin)(pin)中,并實現不同的價值。”Vaswani說(shuo):“在(zai)某種(zhong)程度上,這也是我(wo)們(men)八人(ren)(ren)(ren)(ren)(ren)團(tuan)隊分散于不同領域,試圖(tu)讓人(ren)(ren)(ren)(ren)(ren)類(lei)真(zhen)正用上人(ren)(ren)(ren)(ren)(ren)工(gong)智能(neng)產品(pin)(pin)的原因。”
結語:人工智能領域正在野蠻生長
Transformer八人(ren)團(tuan)隊因一個初始想法而相(xiang)聚,進而發揮各(ge)自專(zhuan)長,共同發布Transformer架構(gou)。此后,八個人(ren)依照各(ge)自興(xing)趣,相(xiang)繼離開谷歌,并創(chuang)立了聚焦(jiao)于(yu)不同領域的(de)人(ren)工智(zhi)能(neng)創(chuang)企。當初的(de)星星之火,現(xian)在早已燎原(yuan)。
僅以2023年(nian)上半年(nian)的(de)融資情況來看,人(ren)(ren)工智能(neng)企(qi)業(ye)(ye)的(de)相關(guan)融資可以說(shuo)在經濟下行時期展現出逆勢上揚的(de)態(tai)(tai)勢。國內外(wai)均(jun)對(dui)人(ren)(ren)工智能(neng)領域保持(chi)高(gao)度(du)關(guan)注,相繼(ji)發布各類政策與文件。未(wei)來人(ren)(ren)工智能(neng)技(ji)術,或(huo)將(jiang)應用于人(ren)(ren)類生(sheng)活的(de)各個方(fang)面。關(guan)于人(ren)(ren)工智能(neng)企(qi)業(ye)(ye)的(de)各類動(dong)態(tai)(tai),我們也(ye)將(jiang)持(chi)續關(guan)注。
來源:英國《金融時報》