智算集群已成(cheng)為(wei)大模(mo)型基建軍備競(jing)賽(sai)的標配。

在大(da)模型(xing)訓(xun)練(lian)場景下(xia),隨(sui)著模型(xing)參數規模從千億向萬(wan)億邁進,算力(li)(li)(li)需求(qiu)激增。同時,隨(sui)著大(da)模型(xing)在不同領域的(de)應用(yong)落地,推理(li)算力(li)(li)(li)需求(qiu)也迎來爆發式(shi)增長。據中信建設證券數據顯示(shi),2024年(nian)至2027年(nian)全球大(da)模型(xing)推理(li)的(de)峰(feng)值算力(li)(li)(li)需求(qiu)量的(de)年(nian)復合增長率為113%,遠高于訓(xun)練(lian)的(de)78%。

為了(le)應對不(bu)斷增(zeng)長的算(suan)力(li)需求,全球各地智算(suan)集群建設正(zheng)在如(ru)火如(ru)荼地進(jin)行之中,且規(gui)模也(ye)從早期的千卡(ka)、萬卡(ka)快速(su)增(zeng)長到十(shi)萬卡(ka),甚(shen)至(zhi)向(xiang)百萬卡(ka)級(ji)別發展。但(dan)是,集群規(gui)模的線(xian)性擴展并不(bu)直(zhi)接等同(tong)于算(suan)力(li)的線(xian)性提升(sheng)。智算(suan)集群要發揮(hui)出極致有效(xiao)的算(suan)力(li),需要從卡(ka)間(jian)和(he)節點間(jian)的互聯網絡、軟硬(ying)件適配、海量(liang)數據(ju)處理策略(lve)、運(yun)維保障(zhang)等多(duo)個方面進(jin)行協同(tong)優化。

12月13日19:30智猩猩智算集群公開課第6期將開講,由阿里云智能集團智算集群產品專家陳祎主講,主題為《大模型時代的智算GPU集群》。

本次公開課,陳祎(yi)(yi)老師將(jiang)從(cong)產業一線的(de)角度(du),分(fen)享AI技術演進下的(de)GPU集(ji)群(qun)需(xu)求(qiu)變化,并(bing)從(cong)Scale Up、Scale Out兩個(ge)層面,闡述(shu)集(ji)群(qun)算(suan)力(li)的(de)擴展(zhan)路徑(jing)。之后,陳祎(yi)(yi)老師還將(jiang)重(zhong)點講解大規(gui)模(mo)GPU集(ji)群(qun)的(de)性能優(you)化方法,以(yi)及穩定(ding)性挑(tiao)戰(zhan)和優(you)化實現,并(bing)對AI基礎設施2025年的(de)發展(zhan)趨勢進行展(zhan)望(wang)。

公開課預告:大模型時代的智算GPU集群|阿里云智能集團智算集群產品專家陳祎主講

公開課內容

主題:大模型時代的智算GPU集群
提綱:
1、AI技術演進催生GPU集群的需求
2、集群算力擴展:Scale Up vs. Scale Out
3、大規模GPU集群性能優化
4、集群的穩定性挑戰與優化實現
5、AI基礎設施的(de)2025展望

主講人

陳祎,阿里云(yun)智(zhi)(zhi)能集(ji)(ji)團智(zhi)(zhi)算(suan)集(ji)(ji)群產品(pin)專(zhuan)家(jia),負責阿里云(yun)AI智(zhi)(zhi)算(suan)場景的異構(gou)計(ji)算(suan)集(ji)(ji)群產品(pin)規劃及設計(ji)。

直播時間

12月13日19:30-20:30