
4月1日-2日,2025中國生成式AI大會(北京站)「GenAICon 2025北京站」將在北京中關村東升科技園萬麗酒店盛大舉辦。中國生成(cheng)式AI大會(hui)已(yi)(yi)成(cheng)功(gong)舉辦三(san)屆(jie),現已(yi)(yi)成(cheng)為(wei)國內人工智能領域最具影響力的產業峰會(hui)之一。
本次大會繼續由智一科技旗下智猩猩、智東西共同發起,以“大拐點 新征程”為主題,邀請到50+位重(zhong)量級嘉賓同臺分享和(he)交鋒,深入解構DeepSeek引發的(de)變(bian)革狂潮(chao),全面展示國內(nei)生成式AI重(zhong)大進展。大會(hui)也是“智領未(wei)來”北京人(ren)工智能系列活動之一。
大會主會場首日將進行開幕式、GenAI應用論壇,次日全天將進行大模型峰會;分會場則會先后組織DeepSeek R1與推理模型技術研討會、AI智能體技術研討會和具身智能大模型技術研討會。其中,三(san)場研討(tao)會為閉(bi)門制,主(zhu)要面向持有閉(bi)門專享(xiang)票(piao)、貴賓通票(piao)的觀眾開放。
作為本次峰會的三場技術研討會之一,DeepSeek R1與推(tui)理模型技術(shu)研討會將在4月1日的下午進行,由主題報告(gao)和圓(yuan)桌(zhuo)Panel兩個(ge)環節組(zu)成。
目前,DeepSeek R1與推理模型技術研討會邀請到360智腦算法資深專家鄒昊晟,中國人民大學高瓴人工智能學院在讀博士陳志朋,東南大學計算機學院碩士研究生、LMM-R1一作 、螞蟻金服實習算法研究員彭英哲,浙江大學軟件學院碩士研究生、LightThinker一作張錦添,華中科技大學Hust Vision Lab與地平線聯合培養博士生蔣博5位來自(zi)學術(shu)界(jie)和工業界(jie)的青(qing)年學者和技術(shu)專家帶來報(bao)告。
性能領先、開源普惠、國產易獲取的三重勢能,造就了2025年初DeepSeek的技術平權狂熱。然而,在端側部署DeepSeek模型時,研究者需在高計算成本和低推理質量之間權衡。3月4日,360智腦開源了Light-R1模型及全部訓練數據和代碼,用較低的訓練成本即可從零訓練得到推理模型,在開源時首次實現領域內評測超越DeepSeek-R1-Distill。本次研討會,?360智腦算法資深專家鄒昊晟將以《Light-R1:低成本復現推理模型之路》為主(zhu)題,介紹Light-R1背后的課程學習SFT、RFT、DPO等(deng)方法(fa)上(shang)的數據(ju)心得和(he)訓練(lian)策略,和(he)QwQ-32B、TinyR1等(deng)相關工作在訓練(lian)資源、方法(fa)等(deng)各方面進行比較(jiao)。
傳統通用大型語言模型的思維方式更像是“快思考”,其主要依靠算力對海量數據進行學習,實現對后續空白內容的快速預測,回答人類提出的各類問題,本質上是基于概率模型對可能的答案進行“猜測”。相比之下,推理大模型更有意識和邏輯,會在回答之前進行一段時間“慢思考”,依據特定思維鏈條,提供更全面解答。本次研討會,中國人民大學高瓴人工智能學院陳志朋博士將以《類o1模(mo)型復現(xian)探索與行業(ye)思(si)考(kao),慢思(si)考(kao)的外置(zhi)、內化與提升》為(wei)題,闡述如何通(tong)過獎勵引(yin)導的(de)(de)(de)外置樹搜索、“模仿、探索和自我改進”的(de)(de)(de)框(kuang)架來增強大語(yu)言模型的(de)(de)(de)推(tui)理能(neng)力。陳志朋博士負責推(tui)進“STILL”系(xi)列研究工(gong)作,探索大模型慢思考能(neng)力這一前沿課題,為(wei)提(ti)升大模型的(de)(de)(de)深(shen)度推(tui)理能(neng)力提(ti)供了新的(de)(de)(de)思路。
大型多模態模型在處理視覺與語言信息時面臨著顯著的推理能力挑戰,尤其是在多模態環境下實現高質量的邏輯推理更是難上加難。LMM-R1提出了一種創新的兩階段框架,通過規則強化學習實現了模型推理能力從文本到多模態的跨域遷移與泛化。本次研討會,LMM-R1一作彭英哲將以《LMM-R1:探索增強多模態模型推理能力的兩階段強化學習》為題,深入剖(pou)析LMM-R1的(de)技術原(yuan)理、實現細節與評估結果,探討這一方法(fa)如何推動多模態(tai)AI技術在實際應用(yong)中的(de)落地,以及對未來研究(jiu)方向的(de)啟示。
大型語言模型在復雜推理任務中生成冗長的中間思維步驟會導致顯著的內存與計算開銷,限制其實際應用效率。本次研討會,LightThinker一作張錦添將以《長思維鏈高效推理方法——動態壓縮思維過程》為題,闡述通過訓練的(de)方式,讓大型語言模型在合適的(de)時機(ji)自主壓(ya)縮冗長的(de)思維為緊(jin)湊的(de)表征(zheng),并(bing)基(ji)于壓(ya)縮后的(de)內容繼續推理,從(cong)而降低(di)顯存開(kai)銷,提升推理速度。張錦添主導并(bing)開(kai)源MachineSoM、OneGen、LightThinker等研究項目(mu),參(can)與agents(github累(lei)積5.3k star)項目(mu)的(de)構建。
DeepSeek R1驗證了強化學習在模型自主探索和提升模型能力/訓練效率上的顯著優勢,結合推理策略,有效增強了模型的復雜問題解決能力。在自動駕駛領域,終極任務是planning,這也是一項涉及場景理解、分析、和決策的復雜任務。本次研討會,華中科技大學Hust Vision Lab與地平線聯合培養博士生蔣博以《探索DeepSeek強化學習和推理策略在自動駕駛中的巨大潛力》為題(ti),介紹將DeepSeek R1的(de)(de)強化(hua)(hua)學習(xi)和推理(li)策(ce)略遷移(yi)應用于駕(jia)駛(shi)(shi)領域(yu),并做出(chu)一系列針對駕(jia)駛(shi)(shi)規(gui)(gui)劃的(de)(de)策(ce)略優(you)化(hua)(hua),顯(xian)著提升大模型自動(dong)駕(jia)駛(shi)(shi)決策(ce)規(gui)(gui)劃的(de)(de)效果(guo),并展(zhan)現(xian)出(chu)涌現(xian)的(de)(de)多模態規(gui)(gui)劃能力。蔣博(bo)是AlphaDrive的(de)(de)一作,代表作VAD/VADv2,已(yi)成(cheng)為端到(dao)端自動(dong)駕(jia)駛(shi)(shi)的(de)(de)基準(zhun)算(suan)法。
一、DeepSeek R1與推理模型技術研討會議程
二、技術研討會報告人及報告主題介紹
報告嘉賓:360智腦算法資深專家 鄒昊晟
報告主題:Light-R1:低成本復現推理模型之路
內容概要: 360智腦(nao)在(zai)3月4日開(kai)源了Light-R1模型(xing)(xing)及(ji)全部訓(xun)(xun)練(lian)(lian)數(shu)(shu)據和代碼,用較低(di)的(de)訓(xun)(xun)練(lian)(lian)成(cheng)本即(ji)可(ke)從零訓(xun)(xun)練(lian)(lian)得到推(tui)(tui)(tui)理模型(xing)(xing),在(zai)開(kai)源時首次實(shi)現領域內評測(ce)超越DeepSeek-R1-Distill。報告將介紹Light-R1背后的(de)課程(cheng)學習(xi)SFT、RFT、DPO等(deng)(deng)方(fang)法上的(de)數(shu)(shu)據心得和訓(xun)(xun)練(lian)(lian)策略,和QwQ-32B、TinyR1等(deng)(deng)相關(guan)工作在(zai)訓(xun)(xun)練(lian)(lian)資源、方(fang)法等(deng)(deng)各方(fang)面的(de)比(bi)較。雖然Light-R1僅使(shi)用數(shu)(shu)學數(shu)(shu)據訓(xun)(xun)練(lian)(lian)了模型(xing)(xing)的(de)長推(tui)(tui)(tui)理能力,但在(zai)非數(shu)(shu)學任務上也表(biao)現出了泛化性及(ji)有(you)效性。隨著(zhu)訓(xun)(xun)練(lian)(lian)和推(tui)(tui)(tui)理技術的(de)不斷發展,未(wei)來長推(tui)(tui)(tui)理模型(xing)(xing)將更加(jia)普及(ji),Light-R1正為低(di)成(cheng)本快速訓(xun)(xun)練(lian)(lian)一個(ge)領域專(zhuan)精推(tui)(tui)(tui)理模型(xing)(xing)提(ti)供了重(zhong)要參考。
報告嘉賓:中國人民大學高瓴人工智能學院二年級博士研究生 陳志朋
報告主題:類o1模型復現探索與行業思考,慢思考的外置、內化與提升
內容概要:
最近(jin),測試(shi)時擴展(Test-time Scaling )引起(qi)了研(yan)(yan)究界的(de)(de)(de)廣泛關注,這在很(hen)大(da)(da)程度上得益于OpenAI o1模型(xing)和DeepSeek R1模型(xing)的(de)(de)(de)重大(da)(da)進(jin)(jin)展。通(tong)過在推理(li)階段分(fen)配更(geng)(geng)多的(de)(de)(de)計算資源,大(da)(da)型(xing)語言模型(xing)(LLMs)可以(yi)通(tong)過生(sheng)成更(geng)(geng)多的(de)(de)(de)思考標(biao)記或多樣的(de)(de)(de)解(jie)(jie)決(jue)方案,廣泛探索解(jie)(jie)決(jue)空間,從而(er)產生(sheng)更(geng)(geng)準確的(de)(de)(de)響(xiang)應。然而(er),研(yan)(yan)發和訓練類似的(de)(de)(de)推理(li)模型(xing)具有挑戰性,研(yan)(yan)究人員一直在進(jin)(jin)行各(ge)種嘗試(shi),以(yi)推動這一開放研(yan)(yan)究領域(yu)的(de)(de)(de)發展。我們(men)先后(hou)從以(yi)下三個方面對復現(xian)類R1的(de)(de)(de)慢思考系統做出了探索。
1.如何通過獎勵引導的外置樹搜索增強大(da)型語言模型的推理能力?
2.如何通(tong)過內化慢思考過程(cheng)長程(cheng)思維鏈,使用“模(mo)仿、探索和(he)自我改進(jin)”的框架來(lai)增強大語言模(mo)型的推理能力?
3.如何對已(yi)經具備慢思(si)考能(neng)力的(de)大語言模型進行進一步(bu)提升?
報告嘉賓:東南大學計算機學院碩士研究生二年級、LMM-R1一作 、螞蟻金服實習算法研究員 彭英哲
報告主題: LMM-R1:探索增強多模態模型推理能力的兩階段強化學習
內容概要:
大(da)型多(duo)(duo)(duo)模(mo)(mo)態(tai)模(mo)(mo)型(LMMs)在(zai)(zai)處理視覺(jue)與(yu)語(yu)言(yan)信息時面臨著顯著的(de)(de)(de)推(tui)理能(neng)(neng)力(li)挑戰,尤其(qi)是在(zai)(zai)多(duo)(duo)(duo)模(mo)(mo)態(tai)環境下(xia)實(shi)現高(gao)質量(liang)的(de)(de)(de)邏輯推(tui)理更是難上加難。LMM-R1提出(chu)了(le)(le)一(yi)種(zhong)創新(xin)的(de)(de)(de)兩階段框(kuang)架,通過(guo)規則強(qiang)化學(xue)習實(shi)現了(le)(le)模(mo)(mo)型推(tui)理能(neng)(neng)力(li)從文本(ben)到多(duo)(duo)(duo)模(mo)(mo)態(tai)的(de)(de)(de)跨(kua)域遷移與(yu)泛化。在(zai)(zai)第(di)一(yi)階段”基礎推(tui)理增強(qiang)”(FRE)中,LMM-R1利用(yong)純文本(ben)數(shu)據(ju)集進行規則強(qiang)化學(xue)習,克服了(le)(le)直接多(duo)(duo)(duo)模(mo)(mo)態(tai)訓(xun)練中數(shu)據(ju)稀缺與(yu)質量(liang)不足的(de)(de)(de)瓶頸,構建(jian)(jian)起(qi)堅(jian)實(shi)的(de)(de)(de)推(tui)理基礎。隨后在(zai)(zai)第(di)二階段”多(duo)(duo)(duo)模(mo)(mo)態(tai)泛化訓(xun)練”(MGT)中,模(mo)(mo)型將已獲得(de)的(de)(de)(de)推(tui)理能(neng)(neng)力(li)自然擴(kuo)展(zhan)到視覺(jue)-語(yu)言(yan)交互場(chang)景,展(zhan)現出(chu)強(qiang)大(da)的(de)(de)(de)跨(kua)模(mo)(mo)態(tai)泛化能(neng)(neng)力(li)。實(shi)驗表(biao)明,該方法在(zai)(zai)多(duo)(duo)(duo)種(zhong)基準(zhun)測試(shi)中取得(de)了(le)(le)顯著進步,多(duo)(duo)(duo)模(mo)(mo)態(tai)任(ren)務平均提升(sheng)(sheng)4.83%,純文本(ben)任(ren)務提升(sheng)(sheng)4.5%,特別在(zai)(zai)需要復(fu)雜推(tui)理的(de)(de)(de)場(chang)景中表(biao)現尤為突出(chu)。更重(zhong)要的(de)(de)(de)是,LMM-R1建(jian)(jian)立了(le)(le)一(yi)種(zhong)數(shu)據(ju)高(gao)效的(de)(de)(de)訓(xun)練范式(shi),巧妙(miao)規避了(le)(le)對(dui)大(da)量(liang)高(gao)質量(liang)多(duo)(duo)(duo)模(mo)(mo)態(tai)訓(xun)練數(shu)據(ju)的(de)(de)(de)依賴,為大(da)模(mo)(mo)型推(tui)理能(neng)(neng)力(li)的(de)(de)(de)提升(sheng)(sheng)開辟(pi)了(le)(le)新(xin)途徑。本(ben)次演(yan)講將深入剖析LMM-R1的(de)(de)(de)技術原理、實(shi)現細(xi)節與(yu)評(ping)估結果,探(tan)討這(zhe)一(yi)方法如(ru)何推(tui)動(dong)多(duo)(duo)(duo)模(mo)(mo)態(tai)AI技術在(zai)(zai)實(shi)際應(ying)用(yong)中的(de)(de)(de)落地,以及對(dui)未來研究(jiu)方向的(de)(de)(de)啟示。
報告嘉賓:浙江大學軟件學院碩士研究生二年級、LightThinker一作 張錦添
報告主題:長思維鏈高效推理方法——動態壓縮思維過程
內容概要:
大型(xing)語言(yan)模型(xing)(LLM)在(zai)復雜推(tui)(tui)(tui)理(li)任務中生成冗(rong)長(chang)的(de)中間(jian)思維(wei)步驟會導致(zhi)顯(xian)著的(de)內存與(yu)計算開銷,限制了(le)其實際應用(yong)效(xiao)率。現有高效(xiao)長(chang)思維(wei)推(tui)(tui)(tui)理(li)方(fang)(fang)法可(ke)以分(fen)為兩類,第一(yi)類通(tong)過(guo)提示工程(cheng)或者訓練的(de)方(fang)(fang)式(shi)讓LLM學會使用(yong)較(jiao)少的(de)詞進(jin)行推(tui)(tui)(tui)理(li),第二類通(tong)過(guo)在(zai)LLM推(tui)(tui)(tui)理(li)過(guo)程(cheng)中對kv緩存進(jin)行裁(cai)剪進(jin)行。本次演講提出(chu)LightThinker,一(yi)種基于(yu)動(dong)態(tai)思維(wei)壓(ya)縮的(de)推(tui)(tui)(tui)理(li)加速方(fang)(fang)法,其核心是(shi)通(tong)過(guo)訓練的(de)方(fang)(fang)式(shi)讓LLM在(zai)合適的(de)時(shi)機自主壓(ya)縮冗(rong)長(chang)的(de)思維(wei)為緊湊的(de)表征,并基于(yu)壓(ya)縮后的(de)內容繼續推(tui)(tui)(tui)理(li),從而降低(di)顯(xian)存開銷,提升推(tui)(tui)(tui)理(li)速度。
報告嘉賓:華中科技大學Hust Vision Lab與地平線聯合培養博士生 蔣博
報告主題:探索DeepSeek強化學習和推理策略在自動駕駛中的巨大潛力
內容概要:
DeepSeek R1驗(yan)證了強化(hua)學習在模型(xing)自主探索和(he)提升(sheng)模型(xing)能(neng)力/訓(xun)練效(xiao)(xiao)率上(shang)的顯著(zhu)優(you)(you)勢(shi),結合(he)Reasoning策(ce)(ce)(ce)(ce)略,有效(xiao)(xiao)增強了模型(xing)的復雜(za)問題(ti)解決能(neng)力。在自動駕(jia)(jia)駛領(ling)域(yu)(yu),終極(ji)任務(wu)是(shi)planning,這也是(shi)一(yi)項涉(she)及(ji)場(chang)景理解、分析(xi)、和(he)決策(ce)(ce)(ce)(ce)的復雜(za)任務(wu),我們首次(ci)嘗試將DeepSeek R1的強化(hua)學習和(he)推(tui)理策(ce)(ce)(ce)(ce)略遷移應(ying)用(yong)于駕(jia)(jia)駛領(ling)域(yu)(yu),并做(zuo)出一(yi)系列針(zhen)對駕(jia)(jia)駛規(gui)劃的策(ce)(ce)(ce)(ce)略優(you)(you)化(hua),顯著(zhu)提升(sheng)大模型(xing)自動駕(jia)(jia)駛決策(ce)(ce)(ce)(ce)規(gui)劃的效(xiao)(xiao)果,并展現出涌現的多模態規(gui)劃能(neng)力。
三、報名方式
DeepSeek R1與推理模型技術研討會將在4月1日下午的分會場進行,主要向持有閉門專享票、貴賓通票的觀眾開放。
希望參加研討會的朋友,可以掃描下方二維碼,添加小助手“泡泡”咨詢和購票。已添加過“泡泡”的老朋友,給“泡泡”私信,發送“GenAICon25”即可。
除了閉門專享票、貴賓通票,大會還設有主會場觀眾票、主會場VIP票,在主會場的座位分布(bu)如下。有需要的朋友(you)可(ke)以進行免(mian)費申請(qing)或購買。