
DeepSeek通過軟(ruan)硬(ying)件協同的的全棧優化策略,在有限(xian)的硬(ying)件資源下實(shi)現了極致的性能提升。
比如(ru)利(li)用FlashMLA技術(shu)針(zhen)對(dui)多頭潛(qian)在注意力進(jin)行優化,能夠充分(fen)釋(shi)放GPU算(suan)力。此外,DeepSeek還通過底層編程語(yu)言PTX直接對(dui)硬(ying)件(jian)資源進(jin)行調配(pei),實現了(le)寄(ji)存(cun)(cun)器分(fen)配(pei)、線程調度的細(xi)粒度優化。在軟件(jian)層面,DeepSeek通過FP8混合精度訓練、KV Cache緩存(cun)(cun)優化、并(bing)行計(ji)算(suan)等(deng)技術(shu),進(jin)一步提升了(le)系統的整體(ti)效率。
DeepSeek的(de)成(cheng)功,充分證明了(le)軟硬(ying)件協同優化的(de)巨(ju)大潛(qian)力,也(ye)為AI Infra的(de)未來(lai)技術發展提供(gong)了(le)新的(de)思考方(fang)向和借鑒思路。
3月18日19點,智猩猩「DeepSeek大解讀」系列公開課第5期將開講,由清華大學電子工程系博士后曾書霖主講,主題為《DeepSeek對軟硬件協同優化的啟示與思考》。
曾書霖(lin)博士主要從事(shi)軟硬協同優化研究(jiu)和AI加速器(qi)設計,實現(xian)了全球(qiu)首個多模(mo)態大模(mo)型推理(li)LPU IP,并首次在單卡FPGA上(shang)實現(xian)7B大模(mo)型和文(wen)生(sheng)視頻的端(duan)到端(duan)推理(li),獲得了FPGA 2025最佳論文(wen)。
本次公開課,曾(ceng)書霖博士(shi)首(shou)先(xian)會分(fen)享DeepSeek在軟硬件(jian)協同優化(hua)方(fang)面的創新和思考(kao),之后(hou)會圍繞(rao)大(da)語言模(mo)型推理 IP FlightLLM、視頻生(sheng)成大(da)模(mo)型推理 IP FlightVGM,闡述團(tuan)隊基(ji)于(yu)FPGA的大(da)模(mo)型軟硬件(jian)協同工作。最(zui)后(hou),曾(ceng)書霖博士(shi)還將深入講解面向(xiang)智(zhi)能終端(duan)的推理LPU IP設(she)計。
公開課內容
主題:DeepSeek對軟硬件協同優化的啟示與思考
提綱:
1、從DeepSeek看軟硬件協同優化
2、基于FPGA的大模型軟硬件協同
3、面向(xiang)智能終端的推理LPU IP設計(ji)
主講人
曾書霖,清華(hua)大(da)學電子工程(cheng)系博士(shi)、博士(shi)后,博士(shi)期間(jian)主要從事軟硬協(xie)同(tong)優化研究和AI加速器設計,發表高水平國際會議/期刊(kan)論(lun)文(wen)(wen)(wen)20余篇。實現(xian)全球(qiu)首(shou)個多模態大(da)模型推理(li)LPU IP,首(shou)次在單卡FPGA上實現(xian)7B大(da)模型和文(wen)(wen)(wen)生視(shi)頻的端(duan)到端(duan)推理(li),獲FPGA 2025最(zui)佳論(lun)文(wen)(wen)(wen)。
直播時間
3月(yue)18日(ri)19:00-20:00