智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影

AI上市公司深圳云天勵飛,最近在算力產品及服務業務板塊完成諸多大額訂單。

首先是11月5日,云天勵飛宣布已完成近16億元的(de)(de)AI大單(dan)的(de)(de)交付(fu)工(gong)(gong)作(zuo),為北(bei)京德(de)元(yuan)方(fang)惠科技開發(fa)有限責任公司(簡(jian)稱“德(de)元(yuan)方(fang)惠”)提供AI訓練及推理算(suan)(suan)力(li)(li)服務。同時(shi),第一(yi)批算(suan)(suan)力(li)(li)服務(對(dui)應(ying)合同中約60%的(de)(de)算(suan)(suan)力(li)(li)規模)的(de)(de)驗收相關(guan)工(gong)(gong)作(zuo)已完成,上線(xian)日期(qi)為2024年10月1日。

狂攬16億大單!云天勵飛:做最懂大模型的邊緣計算產品及服務
▲云天勵飛最新(xin)公告部分截取

而就在不久前的9月,云天勵飛剛中標了約1.3億元的(de)“天府智算中心(一期(qi))項(xiang)目設(she)備采購及監理服務采購項(xiang)目”,連(lian)下(xia)兩城。

自(zi)去年(nian)以來,大(da)模型催生了大(da)量訓練及推理算(suan)力(li)需(xu)求(qiu),全(quan)球(qiu)各路云計算(suan)大(da)廠、服務(wu)器廠商、AI企業以及一些跨(kua)界玩家紛(fen)紛(fen)開始進入智算(suan)行業。

作(zuo)為(wei)一(yi)家(jia)做(zuo)AI算法起家(jia)的企(qi)業,云天勵飛拿(na)下這些(xie)項目的背后,有什么(me)樣的技術和(he)商業邏輯?這又能為(wei)AI企(qi)業同行帶來什么(me)樣的啟示?

通(tong)過(guo)對話云天勵飛副(fu)CFO兼(jian)資(zi)本中心(xin)總經理陳騰宇,本文對此(ci)進(jin)行(xing)了深入探討(tao)。

一、大模型狂飆500天,訓練及推理算力需求激增

自2023年大(da)模型(xing)爆火以來,催生了(le)大(da)量訓練及推理(li)算力(li)需求。

大(da)模型朝超大(da)參數(shu)(shu)規模發(fa)展,OpenAI提(ti)出的(de)百(bai)萬卡的(de)智(zhi)算(suan)(suan)集群(qun)思路已(yi)經(jing)被(bei)驗證,推(tui)動(dong)智(zhi)算(suan)(suan)中(zhong)心(xin)如雨(yu)后(hou)春筍般(ban)涌現。根據(ju)工信(xin)部最新數(shu)(shu)據(ju),截至2024年上半年,國內已(yi)經(jing)建(jian)設和正在建(jian)設的(de)智(zhi)算(suan)(suan)中(zhong)心(xin)超過(guo)250個。2024年上半年智(zhi)算(suan)(suan)中(zhong)心(xin)招投標相關事件791起(qi),同比增長高達407.1%。

提早預判到這樣的趨勢,云天勵飛于2023年初涉足異構算力領域,這是國內AI企業最早布局智算的步伐之一。陳騰(teng)宇向(xiang)智東西談及當時的(de)(de)(de)契機:短期(qi)來(lai)看,云天勵飛在研(yan)發(fa)過(guo)程中有大量的(de)(de)(de)技術沉淀可以支撐異構算力集群的(de)(de)(de)高效(xiao)率運行,而其盈利能力亦較為可觀;另一方面,訓練背后的(de)(de)(de)推理需求(qiu)是更大的(de)(de)(de)藍海,將給云天勵飛自研(yan)推理芯(xin)片提供廣闊的(de)(de)(de)應用(yong)場(chang)景。

籌謀(mou)一(yi)年多,時間來(lai)到2024年7月(yue),云(yun)天(tian)勵飛與德元(yuan)方(fang)惠一(yi)舉簽下16億元(yuan)的AI大單(dan),在產業(ye)里一(yi)戰成名。

狂攬16億大單!云天勵飛:做最懂大模型的邊緣計算產品及服務
按照合(he)約(yue),云天勵飛將為后者提供智能算力調度及(ji)AI大模型開發服務平臺配套服務,算力總規模約(yue)4000PFLOPS,用于大模型訓練及(ji)推理。

項目規模之大、業務之聚焦,很多業內人士好奇,云天勵飛能搞定這個項目嗎?

陳騰宇告訴智東西,目前這一項目已全面完成交付,并進入調試及驗收階段。同時,項目商業化也不成問題,根據云天勵飛官方公告,這一項目未來三年預計每年為公司新增營收約5億元,三年累計產生利潤5.39億元

狂攬16億大單!云天勵飛:做最懂大模型的邊緣計算產品及服務

今(jin)年9月,云天勵飛(fei)緊接著(zhu)再下(xia)一城,中標了約(yue)1.3億元的(de)天府(fu)智算中心項目。

據(ju)悉,該項目目前(qian)也(ye)已經進入交(jiao)付過程,預計進一步為云天勵飛的業績帶來直接收益。

大項目紛紛交付,標志著云天勵飛異構算力業務步入正軌,成為一條新的增長曲線。

可以看到,相比國內其他AI領域同行,云天勵飛是在該領域跑得較快的AI企業。究其原因,首先還是因為公司較快地看到并抓住了這波AI機遇。

但提早布局AI算力的企業不在少數,為什么云天勵飛能夠突圍?

二、為什么是云天勵飛?左手算法,右手芯片

AI算力混戰局面(mian)持續已一年多。

自去年以來,盡管云(yun)巨頭(tou)相繼(ji)推出令人眼饞(chan)的大(da)模型訓推“全家(jia)桶(tong)”,但實際可用(yong)的算力(li)仍是(shi)稀缺資源(yuan),服(fu)務器廠商、AI企業都(dou)在布(bu)局(ju)智算,甚至跨界(jie)玩家(jia)都(dou)入(ru)局(ju)了,競(jing)爭好不激烈(lie)。

之所以能夠在群雄混戰的AI算力市場站住腳,陳騰宇認為,云天勵飛的核心競爭力還在于技術儲備,主要體現在算法芯片兩大方面。

1、自研大模型經驗沉淀工具,助客戶提升算力利用效率

在算法層面,云天勵飛于2023年推出了自研千億級“云天天書”大模型,并在大模型的研發過程中積累了一系列算力調優、提升模型訓練效率的技術平臺和相應工具

這些經驗及工具都被云天勵飛沉淀到產品和服務中,可幫助客戶提升模型訓練及算力利用效率,以更低成本訓練大模型

具體到集群管理方面,云天勵飛智能訓練平臺(tai)及算力調度(du)平臺(tai),能夠按任(ren)(ren)務調度(du)到卡,并進行任(ren)(ren)務管(guan)理、任(ren)(ren)務編排(pai)、訓練告警(jing)、大模型斷(duan)點續(xu)訓。

狂攬16億大單!云天勵飛:做最懂大模型的邊緣計算產品及服務

此外,其(qi)數據管(guan)理(li)(DataHub)支(zhi)持數據可視化、挖掘、治理(li)等多(duo)維管(guan)理(li),在保證數據安全性的基礎上(shang)實現數據資(zi)產化;此外在集群管(guan)理(li)中(zhong)的通信優化、日志集群、監控(kong)告警等方面也(ye)積累了多(duo)個(ge)工具鏈(lian)。

狂攬16億大單!云天勵飛:做最懂大模型的邊緣計算產品及服務

具體到(dao)軟件(jian)平臺方(fang)面,云天(tian)勵飛推出了智能(neng)算法標注(zhu)平臺,為算法訓練提(ti)供(gong)了可靠的底(di)層數據支(zhi)持,可支(zhi)持圖像和文本自動化標注(zhu),據稱相比人工標注(zhu)效(xiao)率提(ti)高40%左右(you)。

狂攬16億大單!云天勵飛:做最懂大模型的邊緣計算產品及服務

除此之外,支(zhi)持大(da)(da)模(mo)型(xing)(xing)負載均衡的部署平(ping)臺,支(zhi)持在多(duo)個(ge)主流硬件平(ping)臺進行零代(dai)碼、自(zi)動化的模(mo)型(xing)(xing)發(fa)布的模(mo)型(xing)(xing)發(fa)布平(ping)臺,提供(gong)完整工具和資(zi)源的模(mo)型(xing)(xing)評測平(ping)臺,全面覆蓋(gai)內容(rong)審(shen)核過濾的智能(neng)內容(rong)審(shen)核平(ping)臺等,都可以大(da)(da)大(da)(da)提高(gao)算法訓練(lian)效率。

狂攬16億大單!云天勵飛:做最懂大模型的邊緣計算產品及服務

2、算法芯片化,自研大模型芯片提供高效推理服務

在芯片層面,云天勵飛基于對AI算法技術特點及行業場景計算需求的理解,通過自定義指令集、處理器架構及工具鏈的協同設計,實現算法技術芯片化,構建了神經網絡處理器平臺,可以支持(chi)其(qi)算力產品(pin)及服務(wu)。

同時,云天勵飛已具備自研的推理卡,依托(tuo)創新的(de)D2D chiplet架構,可承載大(da)模型應用落(luo)地的(de)大(da)規(gui)模推理(li)計算(suan)。據悉,從(cong)2022年(nian)開始其就開始針對(dui)大(da)模型的(de)Transformer架構做(zuo)優化,實現(xian)流片,可見其對(dui)市場感(gan)知的(de)前瞻性。

盡管在(zai)軟件(jian)生態上(shang)還存(cun)在(zai)差距,但(dan)與(yu)海外高性能算力相比較,一些國產推理(li)芯片已經(jing)在(zai)某些專(zhuan)項上(shang)占(zhan)據優(you)勢。比如(ru)(ru)說云天勵飛X6000一體機,采(cai)用Mesh互聯(lian)技術,在(zai)多卡互聯(lian)時(shi)可實現存(cun)儲共(gong)享、最大化(hua)發揮(hui)帶寬優(you)勢,從而(er)提升大模型推理(li)效率(lv),針(zhen)對(dui)70B模型的(de)推理(li)效率(lv)已達(da)(da)60 Tokens/s,而(er)針(zhen)對(dui)MoE架(jia)構模型,如(ru)(ru)mistral08*7B,推理(li)效率(lv)達(da)(da)到(dao)260 Tokens/s。

具體到(dao)大(da)模(mo)型推理(li)的(de)實務(wu)中,很多客戶更多關注的(de)是帶寬能不能充分(fen)利(li)用起(qi)來這(zhe)個問題。云(yun)天勵飛(fei)在卡間互(hu)聯、堆疊式設(she)計等多方面的(de)研發(fa)儲備,使其能夠(gou)滿足客戶的(de)這(zhe)一核心(xin)需求(qiu)。

可以看到,之所以能夠拿下近20億元大單,還因為云天勵飛建立了雙重護城河:左手算法,右手芯片,使其(qi)在群雄混戰的AI算(suan)力市場(chang)殺出(chu)一條血路。

三、技術立身,做最懂大模型的算力產品及服務

縱(zong)觀(guan)算力產(chan)業,動輒一(yi)個項目的金額達(da)數億(yi)甚至數十億(yi)元,周期長(chang)、工程量大(da)、后(hou)續運營服務需求高(gao)。

針對這樣的業務特征,陳騰宇告訴智東西,對于大客戶來說,他們在選擇算力服務提供商時,首先還是要考慮這家公司是否靠譜。主要考察的方面除了技術儲備,還包括行業經驗、供應鏈和交付能力、運營穩定性及資金實力等一系列綜合能力。

而隨著百模大戰繼續推進,集群運營面臨的最大挑戰還在于整體的運營能力,以及隨著市場趨勢變化,通過軟硬件協同迭代,不斷滿足客戶的新需求

談及云天勵飛在這些“軟實力”方面的儲備,陳騰宇談道,云天勵飛已經搭建能力板塊較為齊全的業務團隊,包含技(ji)術研發(fa)、運(yun)營及銷售、技(ji)術運(yun)維及交付等人員,保障業務順(shun)利開展、進行。

同時,該業務板塊已有規模化落地。根(gen)據云(yun)天勵飛(fei)官方(fang)公(gong)告,其已落地西南(nan)、華(hua)南(nan)區域(yu)三個高性能算(suan)力(li)(li)集群,運(yun)營算(suan)力(li)(li)規模接近5000P。在拿下兩個巨額大單前,截至(zhi)2024年5月末(mo),公(gong)司已搭(da)建異構計(ji)算(suan)集群算(suan)力(li)(li)超800P。

狂攬16億大單!云天勵飛:做最懂大模型的邊緣計算產品及服務

此外,云天勵飛還積累了多個行業的客戶資源。通過前期業(ye)務拓展(zhan)觸達(da)、上下游(you)生態(tai)搭建等方式,云天勵飛積累較(jiao)多具(ju)備大模型(xing)訓練及推理需(xu)求客戶,包括AI初創公司、科研院所、互(hu)聯網(wang)企業(ye)、自動(dong)駕(jia)駛企業(ye)、運營商等客戶資源。

可以看到,正是(shi)這樣(yang)的(de)團隊(dui)儲備、落地案(an)例及客戶資源(yuan)積累,配合“算(suan)法芯(xin)片(pian)化(hua)”戰(zhan)略(lve)及技術儲備,讓云天(tian)勵飛的(de)異構算(suan)力業務穩(wen)步發(fa)展起來。

對于AI行業來說,云天勵飛開辟了一條AI企業在大模型時代的新出路——不止于算法攻關,而是將算法與算力經驗結合布局算力產品和服務,這對AI同行有一定的(de)啟迪作用。

結語:順勢而為,構筑AI企業新價值

回顧過去一年多(duo),AI算(suan)力在(zai)“百模大戰”狂潮(chao)之中成為(wei)競爭焦點;站在(zai)現在(zai)看未(wei)來,行業已經歷過一波大浪淘沙,突出重(zhong)圍的(de)玩家如云天勵飛,正真槍實劍披掛(gua)上陣,構筑AI企業的(de)新價值(zhi)壁(bi)壘。

智算中心正從“建起來”走向“用(yong)起來”,也對云(yun)天(tian)勵(li)飛(fei)們提出了(le)(le)新挑戰(zhan)。“我們的能(neng)力構建和(he)商業(ye)化已經(jing)做得比較(jiao)好了(le)(le),下一步我們會繼續做深,綁定多(duo)個行(xing)業(ye)龍頭(tou),盡可(ke)能(neng)地挖(wa)掘(jue)客戶(hu)需求,同時借(jie)用(yong)他們的行(xing)業(ye)經(jing)驗(yan)去(qu)迭(die)代自己的推理算力。”陳騰宇說。