10月起,智猩猩芯片與算力教研組全新策劃推出「智猩猩智算集群公開課」,聚焦集群構建、互聯網絡、算力調度、存儲等關鍵(jian)技術。

目前,「智(zhi)(zhi)(zhi)猩猩智(zhi)(zhi)(zhi)算集(ji)群(qun)公開課」前四期已順利完結。騰訊(xun)專有云首席架構師方天(tian)戟、矩向科(ke)(ke)技(ji)CEO黃(huang)朝波、云脈芯(xin)聯產品總(zong)監孫偉、益(yi)思芯(xin)科(ke)(ke)技(ji)解決方案副總(zong)裁唐杰四位主(zhu)講人,分別(bie)以《智(zhi)(zhi)(zhi)算集(ji)群(qun)技(ji)術概述》、《智(zhi)(zhi)(zhi)算中(zhong)心(xin)融合算力調度(du)》、《智(zhi)(zhi)(zhi)算集(ji)群(qun)網(wang)絡互連(lian)技(ji)術創新應(ying)用與展(zhan)望》、《智(zhi)(zhi)(zhi)算中(zhong)心(xin) AI Scale-Up 網(wang)絡技(ji)術》為主(zhu)題,進行了直播講解。

12月4日19:30,智猩猩智算集群公開課第5期將開講,由中國移動研究院網絡與IT技術研究所技術經理李鍇主講,主題為《OISA構建開放高性能GPU卡間互聯體系》。

大(da)(da)模(mo)型的(de)爆發(fa),對智能(neng)(neng)(neng)算力的(de)需求(qiu)指(zhi)數級(ji)提升(sheng),集群(qun)規(gui)(gui)模(mo)邁入(ru)萬(wan)卡、十萬(wan)卡級(ji)別。大(da)(da)模(mo)型的(de)訓練嚴重(zhong)依賴集群(qun)內(nei)GPU之間(jian)頻繁的(de)數據交互,帶(dai)來的(de)龐大(da)(da)的(de)通(tong)信開銷導致集群(qun)的(de)有效(xiao)算力無法(fa)隨GPU數量(liang)增加而線(xian)性增長,這也意味著互聯性能(neng)(neng)(neng)將是決定集群(qun)規(gui)(gui)模(mo)擴展和性能(neng)(neng)(neng)提升(sheng)的(de)關鍵所在。

智算集群互聯體系的構建需要GPU芯片、交(jiao)換機、網卡(ka)、網絡協議等軟硬件的緊密(mi)結合,技術體系復雜,難度極高(gao)。

為了應(ying)對GPU卡間(jian)互聯的(de)(de)帶寬和(he)時(shi)延要求,中國移動聯合(he)產(chan)業合(he)作伙伴共(gong)同發布OISA協議,旨在打造(zao)一(yi)(yi)個高(gao)效、智(zhi)能、靈(ling)活(huo)開放的(de)(de)GPU卡間(jian)互聯體(ti)系。OISA采用(yong)全(quan)向連接設計(ji),能夠確保大(da)規模GPU之間(jian)的(de)(de)對等(deng)通(tong)(tong)信(xin)(xin);同時(shi),引入智(zhi)能感(gan)(gan)知(zhi)設計(ji),通(tong)(tong)過(guo)定義流量感(gan)(gan)知(zhi)標簽,并(bing)結合(he)流控和(he)重傳機制,優化數據(ju)傳輸效率(lv)。在協議層面(mian),OISA采用(yong)統一(yi)(yi)報文(wen)格式、多(duo)語義融(rong)合(he)、多(duo)層次流控和(he)重傳以及集(ji)合(he)通(tong)(tong)信(xin)(xin)加速等(deng)四大(da)關鍵技術,能夠實(shi)現高(gao)速、低時(shi)延、無損和(he)高(gao)可靠的(de)(de)GPU通(tong)(tong)信(xin)(xin)。

本次公開課,李(li)鎧(kai)(kai)老師首先會介紹智算及GPU卡間互聯(lian)的發(fa)展背景,并進一步(bu)分析為(wei)什么要重塑GPU卡間互聯(lian)體(ti)系(xi)。之后,李(li)鎧(kai)(kai)老師將著重講解(jie)如何(he)利(li)用OISA協議實現高效的GPU卡間互聯(lian),并分享當前OISA的最新(xin)進展及下一步(bu)計劃。

公開課預告:OISA構建開放高性能GPU卡間互聯體系|中國移動研究院李鍇主講

公開課內容

主題:OISA構建開放高性能GPU卡間互聯體系
提綱:
1、智算及GPU卡間互聯背景
2、為什么要重塑GPU卡間互聯體系
3、如何通過OISA實現高效互聯能力
4、當前OISA進(jin)展及下(xia)一(yi)步計劃

主講人

李鍇(kai),中(zhong)國移動(dong)研(yan)究院網(wang)絡(luo)與IT技(ji)術研(yan)究所技(ji)術經理(li),主要職責集中(zhong)在構建通用(yong)和智能(neng)(neng)算(suan)(suan)力技(ji)術體(ti)系、NFV網(wang)絡(luo)基礎(chu)設(she)施以(yi)及先進計算(suan)(suan)等關(guan)鍵(jian)領(ling)域。致力于解決數(shu)據(ju)(ju)中(zhong)心內部處(chu)理(li)器、加速器、存儲器等核(he)心組件之(zhi)間(jian)的(de)效率(lv)提升問題,特(te)別強調通過采用(yong)開放的(de)互聯(lian)技(ji)術來提高(gao)智算(suan)(suan)中(zhong)心GPU卡間(jian)的(de)數(shu)據(ju)(ju)傳輸效率(lv)和性能(neng)(neng)。以(yi)推動(dong)新型智算(suan)(suan)中(zhong)心的(de)創新,實現更高(gao)效、更靈活的(de)數(shu)據(ju)(ju)處(chu)理(li)。

直播時間

12月4日19:30-20:30