智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影

進入2024年,隨著大模型加速產業化落地,以及MoE(混合專家模型)等大模型技術發展,Llama 2等百億級參數的模型大有可為,有(you)望在實戰場景中(zhong)以低成本(ben)趕超GPT-4等萬億級參數超大規模(mo)的模(mo)型(xing)。

潞晨科技創始人尤洋告訴智東西:“我們完全可以用一臺一體機完成模型的微調和部署。”開源大模(mo)型讓(rang)更(geng)多企業(ye)無需(xu)從頭(tou)開始訓練,可(ke)以更(geng)注重低成(cheng)本的微調和(he)部署,因此大模(mo)型開發的過程也可(ke)以變得(de)更(geng)加輕(qing)量化(hua)。

潞晨科技(ji)創立于2021年(nian)7月,創始人(ren)尤(you)洋(yang)是加州伯克利(li)大(da)學(xue)博士、新加坡國立大(da)學(xue)計算(suan)機系的校(xiao)長青年(nian)教(jiao)授,曾創造(zao)了ImageNet、BERT、AlphaFold、ViT訓練速度(du)的世界紀錄,技(ji)術至(zhi)今被微軟、谷(gu)歌(ge)、英偉達等科技(ji)巨頭廣泛采用。

2023年11月,潞晨科技推出了大模型訓推一體機,單機支持千億參數大模型,能夠幫助企業像做PPT一樣簡單快速地完成大模型開發,模型訓練/推理加速2-10倍,且效率和成本數倍優化。這意味著大模型開發與應用的門檻被大大降低。

尤洋透露,推出僅僅一個多月之后,這款名為Colossal-AI大模型一體機的產品已獲得了金融、醫學、能源、零售等領域的標桿客戶,為公司獲取數千萬元營收。而加持一體機的大模型開發系統Colossal-AI,目前已獲得GitHub星數超3.5萬顆,細分賽道排名世界第一。

2024年有望成為大模型的落地元年。行業將面臨什么樣的新趨勢?開源大模型如何跑贏GPT-4等超大模型?“單機煉模”在實戰中表現如何?通過對話尤洋,智東(dong)西(xi)對此進行了深入探討。

「百模大戰」2024走向何方?對話潞晨科技尤洋:像做PPT一樣開發大模型

▲潞晨科技創始人、新加坡(po)國立(li)大學計(ji)算機系(xi)的校長青年教授(shou)尤洋

一、大模型進入落地元年,“單機煉模”成新趨勢

在2023年(nian),大(da)模(mo)型(xing)規模(mo)動輒上萬億參數(shu),用(yong)一臺服務器去訓練(lian),幾乎是不敢(gan)想的(de)事。

進入2024年,情(qing)況正在改(gai)變:

市場不再一味地追求模型的超大規模參數。「百(bai)模(mo)大(da)(da)戰」的焦點由2023年(nian)的大(da)(da)模(mo)型轉向大(da)(da)模(mo)型產業化(hua)落地,大(da)(da)模(mo)型需(xu)要驗證(zheng)應用效果。在這(zhe)種背景下(xia),一方面(mian),市(shi)面(mian)上的萬億級(ji)參(can)數(shu)的通(tong)用大(da)(da)模(mo)型繼(ji)續拼(pin)殺,最(zui)終可(ke)能(neng)只剩下(xia)幾家;另(ling)一方面(mian),百(bai)億級(ji)參(can)數(shu)大(da)(da)模(mo)型依靠傳(chuan)統行(xing)業數(shu)據(ju),結合(he)場(chang)(chang)景,有望開(kai)拓出一片新市(shi)場(chang)(chang)。

同時,很難說Llama 2等百億級參數規模開源模型不夠用了。

尤洋告訴智東(dong)西,近期歐(ou)洲Mistral AI開源的MoE模(mo)型(xing),加上(shang)Llama 2這類開源大模(mo)型(xing),其(qi)實已經能滿(man)足大部分用戶業務(wu)需求。

MoE是(shi)(shi)一種(zhong)基于稀(xi)疏MoE層的(de)(de)模(mo)型(xing)架構,處理輸入(ru)數(shu)據時只有(you)少數(shu)專(zhuan)家(jia)模(mo)型(xing)被激活或者(zhe)使(shi)用,在訓練(lian)和推(tui)理上表現出顯(xian)著優勢,達到節(jie)省(sheng)計算(suan)資源的(de)(de)效(xiao)果(guo),Mistral AI、MiniMax等知名大模(mo)型(xing)創(chuang)企最近都透露(lu)了(le)MoE進展;此前7月,外(wai)媒SemiAnalysis曾曝GPT-4采用的(de)(de)就是(shi)(shi)MoE方案(an),16個(ge)千億級(ji)參數(shu)的(de)(de)專(zhuan)家(jia)模(mo)型(xing)結(jie)合而來。現在,MoE成為創(chuang)企突圍(wei)GPT-4的(de)(de)一大重(zhong)要捷徑。

與此(ci)同(tong)時(shi),全球基于Llama 2系列等模型開發(fa)的金融、辦公(gong)、醫療(liao)、教育等各行業的大(da)模型已經開始嶄露(lu)頭角,在(zai)一些領域落地效果并不比GPT-4差(cha)。

這些(xie)跡象,都(dou)意味著百(bai)到千(qian)億級別的(de)大模型將(jiang)有較大市場發展空間。

尤洋告訴智東西,我們完全可以用一臺一體機去微調和部署,讓訓練大模型像做PPT一樣簡單,并實現成本和效果最優化。

很多時候,用戶并不(bu)需要(yao)從頭(tou)做大模(mo)型(xing)(xing)預訓練(lian)(lian),而只需要(yao)對(dui)Llama 2等開源大模(mo)型(xing)(xing)結(jie)合業務(wu)數(shu)(shu)(shu)據進行微調(diao)(diao),微調(diao)(diao)數(shu)(shu)(shu)據可(ke)能只有預訓練(lian)(lian)大模(mo)型(xing)(xing)的(de)(de)1%~1‰,因此訓練(lian)(lian)的(de)(de)時間和成本也會降低(di)數(shu)(shu)(shu)個數(shu)(shu)(shu)量級。當模(mo)型(xing)(xing)訓練(lian)(lian)完后投入應用,需要(yao)高效的(de)(de)推理部(bu)署優化(hua)。隨著業務(wu)的(de)(de)發展,模(mo)型(xing)(xing)又會有多次(ci)小規模(mo)迭(die)代的(de)(de)需求。

這些工(gong)作,在(zai)2024年都將可(ke)以(yi)被一(yi)臺服務器勝任。

可以預測,隨著大模進入產業(ye)化落地(di)元年(nian),“單機煉模”將成為一個新的趨勢。

二、直擊行業痛點,讓大模型開發像做PPT一樣簡單

并不(bu)是所有的服務器(qi)都(dou)適合“單(dan)機煉模”。

部署大(da)模型(xing)(xing)算力,很多投入企業(ye)面(mian)臨這樣(yang)的(de)痛(tong)點:拿到服務器(qi)后(hou)還有很多工(gong)作要做,可(ke)能需(xu)要長達(da)30天甚至(zhi)更久才能把(ba)環境、框(kuang)架、模型(xing)(xing)搭建起(qi)來,訓練需(xu)要多次試(shi)錯(cuo)迭代,最終還需(xu)要優化(hua)推(tui)理部署進業(ye)務。模型(xing)(xing)開(kai)發的(de)技(ji)術門檻和團隊成(cheng)本(ben)不低不說,開(kai)發模型(xing)(xing)的(de)算力和時間(jian)成(cheng)本(ben)負擔也很嚴峻,產品迭代還可(ke)能趕不上(shang)競品。

潞晨科技Colossal-AI大模型一(yi)體機直擊這一(yi)行(xing)業痛點。

Colossal-AI是潞晨科技自研的(de)一(yi)個(ge)集成了高性能計算(suan)和AI先進(jin)技術的(de)系統,目前已(yi)成為全球基礎軟件市場增長最(zui)快(kuai)的(de)軟件之一(yi),基礎開源(yuan)部(bu)分已(yi)在GitHub上獲超3.5萬(wan)顆星。Colossal-AI大(da)模型一(yi)體機則是將這一(yi)系統及(ji)解決方案,與算(suan)力硬件相結合的(de)最(zui)新(xin)產品。

“它真正把訓練部署AI大模型變得像做PPT一樣簡單。”尤(you)洋對智東西說,“比(bi)如做PPT,用戶不需(xu)要(yao)關注PowerPoint軟件的版(ban)本,以(yi)后(hou)甚至無需(xu)下載PowerPoint軟件,通過文本對話就能生成幻(huan)燈(deng)片。未來(lai)只有(you)達到這種狀態(tai),整個AI生產力才會解放。”

尤洋告訴智東西,Colossal-AI大模型一體機剛剛推出一個多月時間已落地多家客戶,取得階段性成果。客(ke)戶(hu)大(da)致分為兩類:一是有數據隱私(si)要求(qiu)的,比如金融(rong)行業客(ke)戶(hu);二是眾多傳統行業,如車廠、醫(yi)藥、石油等行業客(ke)戶(hu)。目前Colossal-AI大(da)模型已為公司(si)取得了數千萬元的營收,并保持高速增長。

“95%有AI需求的用(yong)戶(hu)都可以用(yong)Colossal-AI大模(mo)型一體機滿足。即便(bian)是(shi)愿景規(gui)模(mo)比較大的用(yong)戶(hu),將其作為早期選擇也(ye)是(shi)非常合適的。”尤洋告(gao)訴(su)智東西。

同時,Colossal-AI大模型一體機易擴展。面對其他5%有大規模模型訓練需求的用戶,潞晨科技推出了Colossal-AI云平臺及私有化部署服務,可以在云端或私有算力集群,提供從數臺服務器到千卡集群的算力支持和全面高性能解決方案。

「百模大戰」2024走向何方?對話潞晨科技尤洋:像做PPT一樣開發大模型

▲潞晨科技(ji)Colossal-AI大模型一體機(ji)簡介

用Colossal-AI大模型一體機“煉模”,將更加省錢、省時、省事:

1、省(sheng)錢:一臺機器解決(jue)模(mo)(mo)型(xing)開發(fa)全(quan)流程問(wen)題和實(shi)現模(mo)(mo)型(xing)應(ying)用(yong)部(bu)署。一體機支持(chi)大模(mo)(mo)型(xing)訓(xun)練和推理兩用(yong),提供Llama、Falcon、MoE等(deng)豐富(fu)的大模(mo)(mo)型(xing)案例,支持(chi)用(yong)戶用(yong)更少的算力(li)成本開發(fa)大模(mo)(mo)型(xing)。

2、省時(shi):把(ba)技(ji)術落地成標準化(hua)解決方案(an),結(jie)合其多(duo)年在系統層面的(de)加速(su)技(ji)術,支持(chi)模型(xing)訓練/推(tui)理(li)加速(su)2-10倍,提升(sheng)客(ke)戶產(chan)品(pin)的(de)迭代效率。

3、省事:提供充(chong)足的易用性,讓開(kai)發大(da)模型(xing)像做(zuo)PPT一樣簡(jian)單,用戶只(zhi)需要(yao)改幾(ji)行(xing)代碼,最多花兩三個小時就把大(da)模型(xing)搭建起來。潞晨(chen)科技(ji)的理念是為用戶屏蔽底層(ceng)技(ji)術難題,讓用戶只(zhi)需要(yao)關注速度、成本、模型(xing)效(xiao)果等核心(xin)事宜。

可以(yi)看到,“單(dan)機煉模”不僅意味(wei)著(zhu)(zhu)機器少(shao)了,更意味(wei)著(zhu)(zhu)大模型開發及應用的門檻顯著(zhu)(zhu)降低。

三、硬件不夠用,大模型行業向軟件要效率

雖然大(da)模型(xing)開發(fa)和應(ying)用的門(men)檻正(zheng)在降低,但面臨的算力(li)挑(tiao)戰(zhan)依(yi)然嚴峻(jun),提高算力(li)效率仍是(shi)2024年(nian)大(da)模型(xing)行業(ye)的重(zhong)中之重(zhong)。

“高(gao)端芯(xin)片不(bu)足,更能體現出軟件的價(jia)值(zhi)。”尤洋告訴智東西。

比如未來H100等高性能GPU在國內可能難以獲得,可獲得的GPU硬件效率可能縮水數倍。在這一情況下,我們可以把多個性能相對較低的GPU聯合起來,去模擬出一個高性能GPU的效果,這就是(shi)Colossal-AI最擅長的部分。同(tong)時,對于替代硬件,Colossal-AI也早已與多家廠商(shang)達成合作,實現低成本兼容適配和性能優(you)化(hua)。

向軟件要(yao)算力效率,尤洋及其團隊已(yi)深耕(geng)多年(nian)。

2018年(nian)(nian),尤(you)洋提出的LARS優(you)(you)化器將AlexNet模型的訓(xun)練(lian)(lian)時間縮短(duan)到24分鐘(zhong),成果(guo)獲(huo)國(guo)際并行處理大會(ICPP)最佳論文獎;2019年(nian)(nian),他又提出了LAMB優(you)(you)化器,將BERT的預(yu)訓(xun)練(lian)(lian)時間從(cong)三天三夜縮短(duan)至76分鐘(zhong),比Adam優(you)(you)化器快72倍,創造機器學習(xi)領域的新(xin)紀錄(lu)。

基于這(zhe)樣的積累,潞晨科技推出的Colossal-AI在大模(mo)型浪潮(chao)中脫穎而(er)出,成為(wei)享譽全球的AI大模(mo)型基礎設施。

用戶在進行分布式大模型訓練和部署時面臨極高成本遷移、內存效率優化、擴展性等多個方面難題,Colossal-AI在大模型一體機的構建時就已為用戶解決。

具體來說,Colossal-AI在異構內存管理系統、N維并行系統和低延時推理系統三部分打造了護城河:

1、異構內存管理系統:基于Colossal-AI的異構調度系(xi)統,用(yong)戶只需要(yao)寫一行代(dai)碼就能對GPU內(nei)存、CPU內(nei)存、硬(ying)盤實(shi)現高效動(dong)態管理,可將硬(ying)件的模型容(rong)量提升(sheng)百倍。

2、高效N維并行系統:基于Colossal-Al的N維并行(xing)技術,潞晨(chen)科技獨創序列并行(xing),打(da)造了更高維度的張量并行(xing)在內的多種(zhong)并行(xing)策(ce)略(lve),易用性極佳,僅需極少量修改即可快速部署各(ge)種(zhong)復雜并行(xing)策(ce)略(lve),最(zui)大(da)化發揮(hui)硬件性能。

3、低延時推理系統:潞晨科技(ji)(ji)采用了包括內存管理、張量并行技(ji)(ji)術,以及(ji)剪枝蒸(zheng)餾(liu)等一系列優化技(ji)(ji)術,從(cong)整體的(de)部署方(fang)式和模型本身的(de)優化兩(liang)方(fang)面下手,最大化加速模型推理。

羅馬(ma)非一日建成。正是由于在(zai)大模型系(xi)統優化有多年積累(lei),潞晨(chen)科技(ji)才(cai)能(neng)夠在(zai)這(zhe)波大模型浪潮中拔得(de)頭籌。近期,潞晨(chen)科技(ji)剛剛完成了近億(yi)元的A+輪融(rong)資,背后則是對其(qi)技(ji)術、產品、生(sheng)態、客戶及團隊等多方面能(neng)力的認(ren)可。

「百模大戰」2024走向何方?對話潞晨科技尤洋:像做PPT一樣開發大模型▲潞晨科技展臺

結語:降低大模型開發門檻,解放AI生產力

進(jin)入2024年,「百(bai)模大(da)(da)(da)戰(zhan)」中(zhong)的(de)(de)更多大(da)(da)(da)模型(xing)將(jiang)進(jin)入產業(ye)實戰(zhan),一(yi)方(fang)面,萬億(yi)級(ji)的(de)(de)頭部大(da)(da)(da)模型(xing)依然(ran)在(zai)許多場景中(zhong)占據統治地位,需要大(da)(da)(da)規模算(suan)力集(ji)群;另一(yi)方(fang)面,很難說百(bai)億(yi)到(dao)千(qian)億(yi)級(ji)別的(de)(de)大(da)(da)(da)模型(xing)不(bu)夠用,結(jie)合行業(ye)數據,可能(neng)發揮出比大(da)(da)(da)規模模型(xing)更好(hao)的(de)(de)效果,這(zhe)也(ye)使(shi)得“單機煉模”成為可能(neng)。

工欲善(shan)其事,必(bi)先利其器。潞晨科技Colossal-AI大(da)模型(xing)一(yi)體(ti)機的推出,為有(you)大(da)模型(xing)需求的廠商提供(gong)了(le)大(da)模型(xing)訓練(lian)的加(jia)(jia)速器、算力(li)的加(jia)(jia)成包(bao)和效果的放大(da)器。其背后的理念(nian)更值得提倡,那就是(shi)讓(rang)大(da)模型(xing)開發變得像做PPT一(yi)樣(yang)簡(jian)單,這(zhe)也是(shi)構建AI基礎設施,所(suo)能直接展現的解放AI生(sheng)產力(li)的意義(yi)所(suo)在(zai)。