
智東西(公眾號:zhidxcom)
編譯 |? 陳駿達
編輯 |? Panken
智(zhi)東西(xi)7月18日消息,據外媒報道,由于AI算力集群價格高(gao)(gao)企與大企業訂單擠兌,許多美國高(gao)(gao)校正面臨算力的(de)(de)嚴重短缺,這導(dao)致(zhi)了(le)高(gao)(gao)校AI研究的(de)(de)滯后(hou)與AI研究人才(cai)的(de)(de)流(liu)失。
高校的算力荒由來已久,連頂級高校和學術大牛們也被這一問題困擾。今年5月,斯坦福大學教授李飛飛稱學術界正在面臨AI計算資源的嚴重短缺,斯坦福大學的NLP實驗室只有64塊GPU(英偉達A100)。圖靈獎得主杰弗里·辛頓(Geoffery Hinton)更是在學生求助時直言:“我不知道這個問題除了求政府之外還有什么辦法。”
與之產生鮮明對比的是,Facebook母公司Meta預計將在2024年底擁有算力相當于60萬塊英偉達H100的龐大算力集群,幾(ji)乎是斯(si)坦福NLP實驗(yan)室集群的10000倍。
但斯坦福大學NLP實驗室的這64塊GPU,在不少其它高校的學生看來已是天方夜譚了。實際上除了像普林斯頓大學、德國亞琛工業大學等少數頂尖院校外,不少高校甚至連1塊英偉達A100 GPU也沒有。
在Reddit論壇上的一則相關討論中,有北美高校博士生反映小型高校只能獲得多年前英偉達發布的V100 GPU。而歐洲和亞洲的高校情況則更為嚴峻,有不少高校只能使用英偉達的消費級顯卡做AI研究。即(ji)便這樣(yang),算(suan)(suan)力也(ye)極為(wei)短(duan)缺,有(you)些學生必須自費(fei)購買顯卡(ka)或(huo)者從英(ying)偉達、亞(ya)馬遜云服務(AWS)等處申請算(suan)(suan)力補貼。
不(bu)少高校也在努力改變現(xian)狀(zhuang),比如通(tong)過校際合作建(jian)立(li)共享計(ji)算集群,或是轉(zhuan)而從(cong)事其它對(dui)算力要求(qiu)更低的(de)AI研究方向。
一、算力短缺人才流失,高校的GPU荒有多嚴重?
其實,在過去的很長一段時間里,高校一直處在AI研究的最前沿,有不少突破性的進展都是由高校的研究人員做出的。例如(ru),2015年,斯坦福大學的(de)博士后雅沙(sha)·索(suo)爾·迪克斯坦(Jascha Sohl-Dickstein)便發明了全世界第一個擴散模(mo)型,這成為后續不少(shao)圖片(pian)和視頻生成模(mo)型的(de)基(ji)礎。
雖然高校的基礎研究(jiu)對于技術(shu)創新(xin)浪潮至關重要(yao),但近期(qi)的生成(cheng)式(shi)AI研究(jiu)一直由私營公(gong)司主(zhu)導。這主(zhu)要(yao)是(shi)因為他(ta)們能(neng)夠獲得構建(jian)和訓練類似ChatGPT和Gemini這樣的大模(mo)型所需(xu)的算力和數據。
生成式AI研究是十分昂貴的。OpenAI首席執行官薩姆·阿爾特曼(Sam Altman)曾估計,訓練GPT-4的成本約為1億美元。而Meta首席執行官馬克·扎克伯格(Mark Zuckerberg)曾在2024年初宣布計劃購買35萬塊英偉達H100 GPU,將Meta的算力擴展到相當于60萬塊英偉達H100 GPU的水平。按照H100近4萬美元的售價來算,這將是一筆百億美元量級的大訂單。
目前,全球沒有任何高校能負擔得起這種量級的AI算力基礎設施。普林斯頓大學作為CS強校,擁有美國高校中最大的幾個單一AI算力集群之一,但這一集群也僅有300塊英偉達H100 GPU,還是今年3月才正式引入的。
普林斯頓大學語言與智能中心主任桑吉夫(fu)·阿羅拉(la)(Sanjeev Arora)在談及這一問題時說道,“如果你沒有算力,就沒辦法開展大規模研究,這樣你連參與對話的資格都沒有”。
在(zai)Reddit論(lun)壇上(shang)的一(yi)則相(xiang)關討論(lun)中,一(yi)位(wei)來(lai)自美國(guo)排名(ming)前5的機器(qi)學習(xi)實驗室(shi)的博士生(sheng)稱,他們迄今為止連1塊英偉達H100都沒有。
▲來自(zi)美(mei)國排(pai)名前5的機(ji)器學習實驗室(shi)的博(bo)士生的提問(圖(tu)源:Reddit)
一位來自亞洲的博士生也面臨著同樣的困境。他自己使用的GPU大部分都是消費級的,并且只有一兩塊而非集群。他的學校直到最近才擁有了一個配備8塊H100的的服務器,并且只能限時訪問。這位博士生說,在他有幸使用H100 GPU進行訓練的兩周時間里,他取得的數據比之前半年收集到的數據還要多。
▲一位在亞洲(zhou)從(cong)事CV研究(jiu)的(de)學生回憶(yi)自己(ji)曾使用過的(de)一系(xi)列GPU(圖(tu)源:Reddit)
還有一位學生分享道,自己的學校沒辦法提供任何算力上的支持。他只能通過自己的實習公司獲取1000美元AWS云算力額度,如果用這些額度來跑8塊H100的集群,大概只能用1天,這種量級的(de)算力(li)根本做不出高質量研究。他(ta)還稱這是第三(san)世界國家搞(gao)AI研究的(de)常態(tai)。
▲一位(wei)碩士(shi)生分享自(zi)己通過實習公司(si)獲取計算額度的(de)經歷(圖源:Reddit)
而歐洲高校的算力資源也不容樂觀。有位在德國上學的學生分享道,自己十分幸運,因為他的學校還能提供的16塊A100 GPU和數十塊其它型號的GPU。而在歐洲,許多大學和研究實驗室基本不提供算力支持。
▲一位(wei)歐洲學生對自(zi)己擁有的(de)計算資源感到慶幸(xing)(圖(tu)源:Reddit)
另一位(wei)來自(zi)德國亞琛工業大(da)學(xue)的學(xue)生(sheng)分(fen)享,他的學(xue)校擁有(you)超過200塊英偉達H100 GPU,這引得許多網(wang)友的羨慕。但這些資源是所有(you)學(xue)院共(gong)享的,還要(yao)與外部(bu)機構共(gong)用,如(ru)果需(xu)要(yao)較長的計算時間,需(xu)要(yao)特別申請。
▲德(de)國(guo)亞琛工(gong)業大(da)學(xue)學(xue)生分(fen)享學(xue)校算力情況(圖(tu)源:Reddit)
來自產業界的人士對高校的GPU短缺情況感到意外。一名業界人士稱,自己在一家主要的云計算提供商工作,日常經常接觸H100 GPU,為其開發和修復軟件。還有另一位業(ye)界人士稱,H100等需求量(liang)較(jiao)大的尖端GPU在(zai)添加到數據中心之前,通常(chang)就被大企業(ye)客戶大量(liang)預訂(ding)了,因此H100對大多(duo)數研(yan)究人員(yuan)來說(shuo)是“罕見的”。
▲產業界人士對高校GPU短缺感到(dao)意外(wai)(圖源:Reddit)
在(zai)計算(suan)資(zi)源不(bu)足的(de)情況下(xia),進行長時(shi)間(jian)的(de)訓(xun)(xun)練是極(ji)為奢侈(chi)的(de)。高(gao)校的(de)AI算(suan)力集群(qun)往(wang)往(wang)需要提前幾天甚(shen)至數(shu)周申請(qing),即便是用(yong)(yong)上(shang)了,使(shi)用(yong)(yong)時(shi)長也有限制。許(xu)多(duo)較大的(de)訓(xun)(xun)練任務很難在(zai)一個使(shi)用(yong)(yong)周期內完成(cheng),研(yan)究人員還必須(xu)花額外的(de)精(jing)力構建checkpoint和恢復(fu)代碼。
計算資源的短缺也帶來了高校人才流失的問題,那些有志(zhi)于做生成(cheng)式AI研(yan)究的學(xue)生轉向(xiang)了大公司(si)。因為大型科技公司(si)普遍(bian)擁有比(bi)高校多上(shang)成(cheng)百上(shang)千倍的算力,這對AI人才來說極具吸引力。
二、建立算力聯盟、轉變研究方向,高校既不甘也不能落后
面臨著AI研(yan)(yan)究落后和AI人才流失的危機,不少高校(xiao)正在爭取(qu)額外的算力,并(bing)將研(yan)(yan)究重點轉向非算力密集(ji)型的AI研(yan)(yan)究領域。
哥倫比亞大學機械工程系主任霍德·利普森(Hod Lipson)稱:“學術機構正在爭先恐后地獲得算力。”他還強調,雖然工業界和政府在AI研究中的參與很重要,但為了平衡這兩股力量,學術界、開源開發者等其它人士也應該對這項技術的發展有發言權。
為(wei)緩(huan)解高校的算力(li)緊缺問題,不(bu)少高校讓政府(fu)參與(yu)(yu)到了(le)算力(li)集群的建設(she)過(guo)程中。2024年初,包括哥倫比亞大(da)學(xue)(xue)(xue)、康奈爾大(da)學(xue)(xue)(xue)、紐約大(da)學(xue)(xue)(xue)和倫斯勒(le)理(li)工學(xue)(xue)(xue)院(yuan)在內的7所大(da)學(xue)(xue)(xue)和科研機構,聯合紐約州政府(fu)與(yu)(yu)慈善機構創(chuang)建了(le)一個名為(wei)Empire AI的算力(li)聯盟。
▲Empire AI的聯盟成員(圖源(yuan):Empire AI官網)
這(zhe)一(yi)算力聯(lian)盟籌集了近(jin)4億(yi)美元(yuan)的(de)資金。其中的(de)2.75億(yi)美元(yuan)來自政府,剩余資金則來自參與聯(lian)盟的(de)7所高校和研究(jiu)機構。他們將利用這(zhe)筆資金建立一(yi)個先進的(de)AI計算中心,而聯(lian)盟成(cheng)員(yuan)間可(ke)以(yi)共享這(zhe)些計算資源,同時也有效地分攤了持有成(cheng)本。
談及建立這一聯盟的理由,紐約州州長辦公室稱,目前AI算力資源越來越集中在大型科技公司手中,他們對AI開發生態系統有巨大的控制權。因此,研究人員、公益組織和小公司被拋在了后面,這對AI安全和整個社會產生了巨大影響。
學(xue)術界(jie)(jie)和產業(ye)界(jie)(jie)也(ye)在積極開展合作,這(zhe)在硅谷、西雅圖和奧斯(si)汀等美國的(de)科(ke)技(ji)中心城市已經(jing)比較常見了。華盛(sheng)頓大學(xue)計(ji)算(suan)機科(ke)學(xue)與工程學(xue)院(yuan)副院(yuan)長丹·格羅斯(si)曼稱,他(ta)們(men)有一(yi)些項目(mu)允許學(xue)術研究人(ren)(ren)員(yuan)也(ye)能(neng)在工業(ye)界(jie)(jie)工作。學(xue)術人(ren)(ren)員(yuan)能(neng)獲得更好的(de)資源,而大學(xue)也(ye)還可(ke)以留住這(zhe)些人(ren)(ren)才。
其實,有不少具有重要意義的AI研究對算力的要求并不高,比如AI可解釋性(xing)研(yan)(yan)究(jiu)、AI計劃和推理能力(li)研(yan)(yan)究(jiu)等。在算(suan)力(li)限制下,大學(xue)研(yan)(yan)究(jiu)人(ren)員開始做更有(you)針對性(xing)的研(yan)(yan)究(jiu),確保學(xue)界不會完全被(bei)業界超越。
康(kang)奈爾大(da)學計算與信息科學學院(yuan)院(yuan)長卡(ka)維塔(ta)·巴拉(Kavita Bala)稱(cheng),高校可(ke)以減(jian)少對構建和訓練大(da)語言模型的(de)投(tou)入(ru),而(er)更多地(di)關注開發(fa)(fa)基于大(da)語言模型的(de)應用(yong)。這樣的(de)應用(yong)仍然可(ke)以是最前沿的(de),在獨特的(de)應用(yong)領域發(fa)(fa)揮(hui)巨大(da)作(zuo)用(yong)。
麻(ma)省理工學院教授阿爾(er)曼多(duo)·索(suo)拉爾(er)·萊薩馬(Armando Solar-Lezama)的工作(zuo)重點是利用AI進(jin)行代碼(ma)開發(fa),他認為(wei)從頭開始構(gou)建大模(mo)型(xing)在學術界根本不可(ke)行。學生和研究人(ren)員可(ke)以專注于開發(fa)應用程序(xu),甚至創(chuang)建可(ke)用于訓練大語言模(mo)型(xing)的合成數據。
索拉爾·萊薩馬稱自己學院的教授們也主動出資購買服務器和芯片,但資金并非唯一的問題。即便有資金,獲得頂級的GPU也是十分困難的。
結語:高校AI算力荒持續,多方合作或有破局希望
在(zai)目(mu)前大(da)型(xing)科技企(qi)業(ye)主導AI研究的(de)現狀下(xia),高(gao)校的(de)AI研究是對這些(xie)研究的(de)有效補充。高(gao)校的(de)研究者(zhe)不會像企(qi)業(ye)內部的(de)研究者(zhe)那(nei)樣,受(shou)財報、市場(chang)需求等短期因(yin)素的(de)影響。他們若能(neng)獲得更多的(de)計(ji)算(suan)資源,或(huo)許(xu)能(neng)在(zai)那(nei)些(xie)企(qi)業(ye)不會關注、不愿關注的(de)領域,做出有重大(da)影響力(li)的(de)成果。
其(qi)實在過去幾(ji)十(shi)(shi)年中,AI一(yi)直是(shi)一(yi)個(ge)不被看好(hao)的(de)研(yan)(yan)究(jiu)領(ling)域,還不得(de)不披上深(shen)度學(xue)習(xi)(xi)、機器學(xue)習(xi)(xi)的(de)馬(ma)甲。但正是(shi)因為高校中有(you)諸如(ru)(ru)辛頓、楊立昆(Yann LeCun)和約書亞(ya)·本吉奧(Yoshua Bengio)這樣(yang)持之(zhi)以恒的(de)研(yan)(yan)究(jiu)者,幾(ji)十(shi)(shi)年如(ru)(ru)一(yi)日地堅(jian)持相關研(yan)(yan)究(jiu),如(ru)(ru)今(jin)的(de)AI熱(re)潮才有(you)了(le)實現的(de)基礎。
除(chu)了(le)在紐約州有Empire AI這(zhe)樣的(de)(de)算(suan)力(li)聯(lian)盟(meng)(meng)之外,北美的(de)(de)不少高(gao)校(xiao)和研究(jiu)機構也開(kai)展了(le)規模大小各異的(de)(de)跨機構合作,共享算(suan)力(li)資源。2023年底,中(zhong)國的(de)(de)十余所院校(xiao)也成立了(le)中(zhong)國高(gao)校(xiao)算(suan)力(li)聯(lian)盟(meng)(meng)。或(huo)許這(zhe)種合作能給高(gao)校(xiao)的(de)(de)算(suan)力(li)荒帶來破局的(de)(de)希望(wang)。
來源(yuan):《華爾街日報(bao)》、Reddit