
10月25日,上海交(jiao)通(tong)大學(下稱上海交(jiao)大)AI計算(suan)平臺完成技(ji)術驗(yan)收,正式上線服務。
上(shang)海交大AI計(ji)算(suan)平(ping)臺(tai)由8臺(tai)NVIDIA DGX-2組(zu)建,包(bao)含128張NVIDIA Tesla V100計(ji)算(suan)卡,深度學習張量計(ji)算(suan)能力(li)可以達到16PFLOPS;通過(guo)搭載(zai)NVIDIA NVSwitch技術,GPU間(jian)帶寬高達 2.4 TB/s;AI計(ji)算(suan)平(ping)臺(tai)采(cai)用可擴展(zhan)架(jia)構,使得模(mo)型的(de)復雜性和規模(mo)不再受傳(chuan)統(tong)架(jia)構的(de)限制,可以應對眾多復雜的(de)人工智能挑戰(zhan)。
然(ran)而搭建AI計(ji)算平(ping)臺(tai),除了需要考慮基礎硬(ying)(ying)件(jian)的(de)(de)算力(li)能否滿足日益復雜(za)的(de)(de)AI計(ji)算需求之外,還要考慮應用部(bu)署(shu)的(de)(de)便捷性、計(ji)算資源調度的(de)(de)靈(ling)活性等因素,因為AI計(ji)算平(ping)臺(tai)不僅僅是(shi)(shi)具(ju)有超強算力(li)的(de)(de)簡單的(de)(de)硬(ying)(ying)件(jian)堆砌,而是(shi)(shi)一個復雜(za)的(de)(de)軟硬(ying)(ying)件(jian)一體化系統。
在應用(yong)部(bu)署(shu)方(fang)面,由于(yu)現在的(de)(de)人(ren)工(gong)智能和(he)高性(xing)能計(ji)算應用(yong)往(wang)往(wang)需要使用(yong)大(da)量(liang)更(geng)新(xin)頻繁(fan)的(de)(de)框架(jia)、庫、驅動(dong)程(cheng)(cheng)序(xu)等復(fu)雜的(de)(de)組件(jian),所以如果單(dan)純依靠人(ren)工(gong)來調試和(he)維護運(yun)行環(huan)境(jing),不僅需要耗費大(da)量(liang)的(de)(de)人(ren)力,工(gong)作效率(lv)也會受到很大(da)的(de)(de)影響。上(shang)海交大(da)AI計(ji)算平臺采(cai)用(yong)NVIDIA NGC容器技術,將應用(yong)程(cheng)(cheng)序(xu)與其依賴的(de)(de)系統庫一起打包發布(bu),簡化了(le)軟件(jian)部(bu)署(shu)流程(cheng)(cheng)和(he)軟硬件(jian)協同優化,大(da)大(da)降低了(le)應用(yong)部(bu)署(shu)的(de)(de)復(fu)雜性(xing)和(he)用(yong)戶使用(yong)平臺的(de)(de)成本(ben);
在資源調度(du)方面,如(ru)何避免不同負載在計算平(ping)臺(tai)(tai)內的相互(hu)干擾,提高不同應用(yong)在平(ping)臺(tai)(tai)上(shang)的運行效率也是搭建AI計算平(ping)臺(tai)(tai)不得(de)不考慮的要素之一。上(shang)海交大AI計算平(ping)臺(tai)(tai)創新性的采用(yong)了“SLURM + Singularity”的管理模式,可(ke)以為用(yong)戶提供可(ke)伸縮(suo)、可(ke)擴展、高可(ke)靠(kao)的資源調度(du)功能(neng)和最佳性能(neng)的應用(yong)支持。
上(shang)海(hai)交大(da)AI計(ji)(ji)算(suan)(suan)平(ping)(ping)臺(tai)自部(bu)署以(yi)(yi)來,極大(da)地(di)加速了全校(xiao)人工智能和高性能計(ji)(ji)算(suan)(suan)科(ke)(ke)研(yan)應用,使(shi)科(ke)(ke)研(yan)計(ji)(ji)算(suan)(suan)運行效(xiao)率提升30-18000倍;在一些關鍵任務(wu)上(shang),使(shi)原本(ben)需(xu)要數(shu)周甚至數(shu)月才(cai)能完成(cheng)的計(ji)(ji)算(suan)(suan)任務(wu),可(ke)(ke)以(yi)(yi)在幾小時內完成(cheng)計(ji)(ji)算(suan)(suan),大(da)大(da)提高了科(ke)(ke)研(yan)實驗的迭代速度(du)和科(ke)(ke)研(yan)效(xiao)率。可(ke)(ke)以(yi)(yi)說上(shang)海(hai)交大(da)AI計(ji)(ji)算(suan)(suan)平(ping)(ping)臺(tai)已經成(cheng)為了高校(xiao)打造AI計(ji)(ji)算(suan)(suan)平(ping)(ping)臺(tai)的成(cheng)功典范(fan)。
11月19日,智東西公(gong)開課聯合NVIDIA推出深(shen)度(du)學(xue)習&GPU加速公(gong)開課NVIDIA專場(chang),由上海交大網絡信(xin)息中(zhong)心工程(cheng)師韋建(jian)(jian)文主講,主題(ti)為《為深(shen)度(du)學(xue)習和科學(xue)研究搭建(jian)(jian)AI計算平(ping)臺的(de)關鍵與挑戰》。
韋(wei)建(jian)文老(lao)師將從上海(hai)(hai)交(jiao)大(da)(da)AI計算(suan)(suan)平臺的搭(da)建(jian)、遇到(dao)的挑戰、架(jia)構特(te)性、不同(tong)容(rong)器技術的差異、如何利用Spack創建(jian)自己的容(rong)器鏡像到(dao)如何實(shi)現計算(suan)(suan)資源的靈(ling)活(huo)調度、實(shi)際應用優化(hua)案(an)例(li)等(deng)方面進(jin)行系統講解,為(wei)你解密(mi)上海(hai)(hai)交(jiao)大(da)(da)AI計算(suan)(suan)平臺。
課程時間
時間:11月19日
地點:智東西公開課小程序(xu)
課程詳情
主題:為深度學習和科學研究搭建AI計算平臺的關鍵與挑戰
講(jiang)師;上海交(jiao)大網絡中心工(gong)程師韋建文
提綱:
1、上海交通大學校級人工智能平臺建設的最新進展;
2、基于NVIDIA DGX-2的上海交通大學校級AI計算平臺的搭建與特性
3、如何利用容器技術在AI計算平臺實現高效的應用部署
4、上(shang)海交大用戶在(zai)DGX-2上(shang)應用優(you)化(hua)的成功案例
講師介紹
韋建文,上海(hai)(hai)交通大學(xue)碩士,上海(hai)(hai)交大網絡信息中心工程(cheng)師(shi),負責校級“π”超算(suan)系(xi)統的運維和(he)數據密(mi)集應用(yong)的優化。先后協(xie)助物理與天文學(xue)院(yuan)(yuan)、瑞金(jin)醫院(yuan)(yuan)等多個研究團隊(dui)完(wan)成應用(yong)優化,并積極參與HPC軟件包管理器Spack的開(kai)發工作(zuo),以及容(rong)器化HPC應用(yong)的研究。所開(kai)發的軟件部署方(fang)法(fa)(fa)和(he)異常作(zuo)業診斷(duan)方(fang)法(fa)(fa)已應用(yong)于(yu)生產(chan)平臺,極大提(ti)高了運維效率和(he)用(yong)戶滿意度。
入群路徑
本(ben)次課程(cheng)我們將(jiang)設(she)置主講(jiang)群(qun)(qun)(qun),講(jiang)師(shi)將(jiang)親自入(ru)群(qun)(qun)(qun)交(jiao)流(liu)。希望(wang)進(jin)入(ru)主講(jiang)群(qun)(qun)(qun)與老師(shi)認識和交(jiao)流(liu)的朋友,掃描海報下方二維碼添加(jia)智東西公開課聯絡員“大越(xdxaxx)”為好友,添加(jia)時(shi)請備注“姓名-公司-職位或姓名-學(xue)校(xiao)-專業”,申(shen)請進(jin)入(ru)課程(cheng)群(qun)(qun)(qun)交(jiao)流(liu)。
社群規則
1、智東西社群堅持實名學習、交流和合作,入群后需要修改群昵稱為:姓名-公司-所在領域,違者踢群;
2、禁止在群內廣告和(he)發(fa)送二維碼等無關信(xin)息,違者踢群。