
4月1日-2日,2025中國生成式AI大會(北京站)「GenAICon 2025北京站」將在北京中關村東升科技園萬麗酒店盛大(da)舉辦。中國生成(cheng)式AI大(da)會已成(cheng)功舉辦三屆,現已成(cheng)為(wei)國內(nei)人工智能(neng)領域最具影響(xiang)力的產(chan)業峰(feng)會之一。
本次大會繼續由智一科技旗下智猩猩、智東西共同發起,以“大拐點 新征程”為主題,邀請到50+位重量級(ji)嘉(jia)賓同臺分享和交(jiao)鋒,深入解(jie)構DeepSeek引發的(de)變革狂潮,全面(mian)展示國內生成式AI重大進展。大會也是(shi)“智(zhi)領未來”北京人工(gong)智(zhi)能系列(lie)活動(dong)之一。
大會主會場首日將進行開幕式、GenAI應用(yong)論壇,次日全天將進行大模型峰會;分會場則會先后組織DeepSeek R1與推理模型技術研討會、AI智能體技術研討會和具身智能大模型技術研討會。其中,三場研討(tao)會為(wei)閉門制,主要面向持有閉門專享票、貴(gui)賓通票的觀眾開放。
作為本次大會的三場技術研討會之一,具(ju)身智(zhi)能大模型技術研討會將在4月2日下午(wu)進行,由(you)主題報告和(he)圓桌(zhuo)Panel兩個(ge)環節(jie)組成。
目前邀請到北京智源人工智能研究院研究員郝孝帥,北京大學在讀博士、RoboMamba一作劉家銘,清華大學ISRLab在讀博士生、星動紀元實習研究員郭彥江,清華大學TSAIL團隊博士生、RDT一作劉松銘,上海人工智能實驗室具身智能中心青年研究員汪汗青,群核科技科研算法專家汪仁涵6位來自學(xue)術(shu)界(jie)和(he)工業界(jie)的青年學(xue)者和(he)技術(shu)專家帶來主題報(bao)告。
圓桌Panel環節由郝孝帥老師、劉家銘博士、郭彥江博士、汪汗青老師以及光輪智能具身數據交付負責人甘宇飛5位嘉賓(bin)參與,其中,郭(guo)彥江(jiang)博士作為特邀主持,主持研討會及圓桌(zhuo)Panel環節。
郝孝帥老師將為本次研討會帶來開場報告。郝孝帥老師目前是智源研究院的具身多模態大模型研究員,曾在CVPR和ICCV等頂級會(hui)議上獲得6項國(guo)際前3名的成(cheng)績(ji)。本次報告將重點講(jiang)解北大(da)聯合(he)智源研究(jiu)院、港(gang)大(da)等提出的統一(yi)具身多(duo)模態大(da)腦模型(xing)RoboBrain。該模型(xing)首(shou)次實(shi)現了任務規劃-可操作(zuo)區域(yu)感知-軌跡預測的三維能(neng)力融合(he),相關(guan)論文已收錄于CVPR 2025頂會(hui)。
北京大學聯合智平方、BAAI推出了高效的端到端VLA具身大模型RoboMamba,僅需調整0.1%的模型參數就能掌握操作技能,推理速度比現有VLA模型快3倍。劉家銘博士是RoboMamba一作,論(lun)文已收錄于(yu)NeurIPS 2024。本次研討會劉家銘(ming)博士將從(cong)VLA 模型(xing)的輸入(ru)方式、VLA架構(gou)設(she)計、VLA訓(xun)練策略、VLA輸出機制這(zhe)四個方面進(jin)行(xing)深(shen)入(ru)討論(lun),詳解RoboMamba。
清華大學ISRLab在讀博士生、星動紀元實習研究員郭彥江師從(cong)陳(chen)建宇教(jiao)授。郭(guo)彥江博士參與的(de)論文成(cheng)果Advancing Humanoid Locomotion曾獲RSS 2024最佳論文提名(ming)獎。本次研討會郭(guo)博士將探(tan)討如何基于視頻世界模(mo)型構建通用的(de)機器(qi)人操(cao)作策(ce)略,具體包括收錄于NeurIPS 2024頂會的(de)成(cheng)果Prediction with Action(PAD),以及(ji)Video Prediction Policy(VPP)等兩項成(cheng)果。
清華大學TSAIL團隊開源的擴散基座模型RDT,擁有模型參數量1.2B,是目前最大的用于用于雙臂機器人操作的擴散基座模型,還曾登頂HF具身熱榜。劉松銘博士是RDT一作,研究方向是具身智能和AI for Science。本次研討會劉松銘博士將以《雙臂機器人操作擴散大模型RDT》為主題帶來報告。
今年2月,上海AI Lab發布通用具身智能仿真平臺桃源2.0。在首個城市級大規模仿真平臺桃源1.0的基礎上,桃源2.0全新升級,具備大規模數據生產能力,數據采集方式實現了三大方面的革新,并可以多樣化和易用性適配多類型機器人。汪汗青老師作為主要負責人帶領實驗室團隊開發了桃源,提出了虛實貫通(tong)技術框架(jia)以系統(tong)化解(jie)決現存問題,以桃源2.0平(ping)臺作為關鍵紐帶(dai),構建了”真(zhen)(zhen)實-仿真(zhen)(zhen)-真(zhen)(zhen)實”閉環技術路徑。
3月19日,被稱為“杭州六小龍”之一群核科技自主研發的空間理解模型SpatialLM正式開源。該模型突破了大語言模型對物理世界幾何與空間關系的理解局限,為具身智能提供空間理解基礎訓練框架。而群核空間智能解決方案SpatialVerse與SpatialLM模型之間協同合作,打通了”真實-仿真-真實” 的閉環路徑,為智能體提供無限迭代的感知-決策-行動閉環訓練,驅動具身智能從“有限訓練”邁向“無限進化。本次研討會群核科技科研算法專家汪仁涵將帶來報告,主題為《打破數據之困,讓具身智能走進物理世界》。
一、具身智能大模型技術研討會議程
二、報告嘉賓及主題概要介紹
報告嘉賓:北京智源人工智能研究院研究員 郝孝帥
報告主題:統一具身多模態大腦模型RoboBrain
內容概要:本次報告我將從以下兩方面進行解讀(du):
(1)我們(men)提(ti)出了(le)ShareRobot,一個(ge)大規模、高質量(liang)、細粒度的(de)(de)異構數(shu)據集,涵蓋102個(ge)場景、12種機器(qi)(qi)人本體(ti)和107種原子任務(wu)(wu),包含百萬級問答對(dui)(dui)。數(shu)據集標注(zhu)了(le)任務(wu)(wu)規劃(hua)、對(dui)(dui)象可操作區域和末端執(zhi)行器(qi)(qi)軌(gui)跡等多維信息(xi),填補了(le)現有數(shu)據在多樣(yang)性、粒度和任務(wu)(wu)復(fu)雜性上的(de)(de)不(bu)足(zu),為(wei)機器(qi)(qi)人學習(xi)與規劃(hua)提(ti)供了(le)全(quan)面支(zhi)持(chi)。
(2)基(ji)于ShareRobot,我(wo)們提出了(le)(le)RoboBrain,一(yi)個統一(yi)具(ju)身多模(mo)態大腦(nao)模(mo)型,首次實現任(ren)務規(gui)劃-可操作區域感(gan)知-軌跡預測(ce)的(de)三維(wei)能力(li)融合。RoboBrain將抽象(xiang)(xiang)指(zhi)令(如(ru)“準備(bei)一(yi)杯茶”)映(ying)射為(wei)具(ju)象(xiang)(xiang)動(dong)作序列(如(ru)抓取、對準、傾倒),并同步生成可操作區域與精確(que)軌跡,顯著提升機(ji)器人在具(ju)身長程操作任(ren)務中的(de)能力(li)。該模(mo)型通過多模(mo)態協同,解決了(le)(le)傳統方法在任(ren)務分解、感(gan)知與動(dong)作生成中的(de)割裂問題,為(wei)復(fu)雜機(ji)器人操作提供了(le)(le)全新解決方案。
報告嘉賓:北京大學在讀博士、 Robomamba一作 劉家銘
報告主題:構建魯棒且高效的視覺-語言-動作大模型RoboMamba
內容概要:本報告(gao)旨在探討(tao)如何構(gou)建(jian)更 魯棒且高(gao)(gao)效(xiao)(xiao) 的(de)(de)(de)(de) 視覺-語(yu)言-動(dong)作(zuo)(zuo)(VLA)大(da)(da)模(mo)(mo)型,并從以(yi)下四(si)個方面展(zhan)開(kai)深入討(tao)論:1)VLA 模(mo)(mo)型的(de)(de)(de)(de)輸入方式,2)VLA架構(gou)設(she)計,3)VLA訓練(lian)策略,4)VLA輸出機(ji)制。同時,我們還將(jiang)分析當前行業內 VLA 發(fa)展(zhan)的(de)(de)(de)(de)最新趨勢,并介紹自研的(de)(de)(de)(de) 高(gao)(gao)效(xiao)(xiao) VLA 模(mo)(mo)型—RoboMamba。具體來說,RoboMamba是一(yi)個高(gao)(gao)效(xiao)(xiao)的(de)(de)(de)(de)端到端VLA具身大(da)(da)模(mo)(mo)型,專(zhuan)為機(ji)器人場景優(you)化設(she)計,旨在實現高(gao)(gao)效(xiao)(xiao)的(de)(de)(de)(de)推理與操作(zuo)(zuo)能力(li)。這(zhe)一(yi)成(cheng)果以(yi)題為《RoboMamba:具備機(ji)器人推理與操控能力(li)的(de)(de)(de)(de)高(gao)(gao)效(xiao)(xiao)視覺-語(yu)言-動(dong)作(zuo)(zuo)大(da)(da)模(mo)(mo)型》的(de)(de)(de)(de)論文,發(fa)表在全(quan)球頂級學術(shu)會(hui)議NeurIPS 2024上。
報告嘉賓:清華大學ISRLab在讀博士生、星動紀元實習研究員 郭彥江
報告主題:基于世界模型的通用機器人策略學習
內容概要:構(gou)建(jian)通用(yong)的(de)(de)(de)操作(zuo)模型是(shi)通用(yong)機(ji)(ji)(ji)器(qi)人最有挑(tiao)戰(zhan)性(xing)的(de)(de)(de)一個部(bu)分(fen),機(ji)(ji)(ji)器(qi)人需(xu)要具(ju)備豐富的(de)(de)(de)物(wu)(wu)理(li)先驗(yan)知(zhi)識,才(cai)能泛化到新(xin)任(ren)務。視頻(pin)(pin)生(sheng)成大模型在互聯網視頻(pin)(pin)數據上進(jin)行了大規模預訓練(lian),能夠預測合理(li)的(de)(de)(de)未來發展(zhan)軌跡(ji),壓縮了豐富的(de)(de)(de)物(wu)(wu)理(li)先驗(yan)知(zhi)識。本次演講主題是(shi)如(ru)何(he)基(ji)于視頻(pin)(pin)世界模型構(gou)建(jian)通用(yong)的(de)(de)(de)機(ji)(ji)(ji)器(qi)人操作(zuo)策略,具(ju)體包括(kuo)Prediction with Action(PAD),Video Prediction Policy(VPP)等兩項(xiang)工(gong)作(zuo)。
報告嘉賓:清華大學TSAIL團隊博士生、RDT一作 劉松銘
報告主題:雙臂機器人操作擴散大模型RDT
內容概要:我們(men)提(ti)出了(le)一(yi)(yi)種(zhong)(zhong)用于雙(shuang)(shuang)臂機器(qi)(qi)人操作(zuo)(zuo)的(de)(de)(de)(de)(de)(de)擴散(san)基座模(mo)(mo)型(xing)——Robotics Diffusion Transformer(RDT),該模(mo)(mo)型(xing)以擴散(san)模(mo)(mo)型(xing)作(zuo)(zuo)為基礎,能夠有效地表示(shi)多(duo)(duo)峰的(de)(de)(de)(de)(de)(de)人類動作(zuo)(zuo)分布,并(bing)(bing)采用可(ke)擴展(zhan)的(de)(de)(de)(de)(de)(de)Transformer架(jia)構來處理異(yi)構的(de)(de)(de)(de)(de)(de)多(duo)(duo)模(mo)(mo)態輸入(ru),捕捉機器(qi)(qi)人數據(ju)(ju)中的(de)(de)(de)(de)(de)(de)非線性和(he)高頻特性。為了(le)解(jie)(jie)決數據(ju)(ju)稀缺問題,文章(zhang)(zhang)進一(yi)(yi)步(bu)引入(ru)了(le)一(yi)(yi)種(zhong)(zhong)物理可(ke)解(jie)(jie)釋的(de)(de)(de)(de)(de)(de)統一(yi)(yi)動作(zuo)(zuo)空間(jian)(jian),該空間(jian)(jian)可(ke)以統一(yi)(yi)各種(zhong)(zhong)機器(qi)(qi)人的(de)(de)(de)(de)(de)(de)動作(zuo)(zuo)表示(shi),并(bing)(bing)保留原始動作(zuo)(zuo)的(de)(de)(de)(de)(de)(de)物理含義,方(fang)便學(xue)習可(ke)遷(qian)移(yi)的(de)(de)(de)(de)(de)(de)物理知識。通(tong)過這些設計,我們(men)成功地在(zai)目(mu)前(截(jie)止文章(zhang)(zhang)公布時,下同)最(zui)(zui)大的(de)(de)(de)(de)(de)(de)多(duo)(duo)機器(qi)(qi)人數據(ju)(ju)集(ji)上對RDT進行了(le)預訓練,并(bing)(bing)將其擴展(zhan)到12億個參(can)數,這是目(mu)前用于機器(qi)(qi)人操作(zuo)(zuo)的(de)(de)(de)(de)(de)(de)最(zui)(zui)大的(de)(de)(de)(de)(de)(de)基于擴散(san)建模(mo)(mo)的(de)(de)(de)(de)(de)(de)基礎模(mo)(mo)型(xing)。最(zui)(zui)后,我們(men)在(zai)一(yi)(yi)個自(zi)己收集(ji)的(de)(de)(de)(de)(de)(de)多(duo)(duo)任務(wu)雙(shuang)(shuang)臂數據(ju)(ju)集(ji)上對RDT進行了(le)微調,以提(ti)高其雙(shuang)(shuang)臂操作(zuo)(zuo)能力。在(zai)真(zhen)實機器(qi)(qi)人實驗(yan)中,RDT明顯優于現有方(fang)法。它能夠零樣本泛化到未見過的(de)(de)(de)(de)(de)(de)物體和(he)場景,理解(jie)(jie)和(he)遵循語(yu)言指(zhi)令,僅需1~5個演示(shi)就能學(xue)習新的(de)(de)(de)(de)(de)(de)技能,并(bing)(bing)有效地處理復雜(za)的(de)(de)(de)(de)(de)(de)靈(ling)巧任務(wu)。該項(xiang)目(mu)的(de)(de)(de)(de)(de)(de)代(dai)碼、模(mo)(mo)型(xing)和(he)數據(ju)(ju)均已開源,請訪問項(xiang)目(mu)主(zhu)頁//rdt-robotics.github.io/rdt-robotics/。
報告嘉賓:上海人工智能實驗室具身智能中心青年研究員 汪汗青
報告主題:桃源2.0推動通用具身智能邁向虛實貫通之路
內容概要:在實(shi)(shi)現(xian)通用具身智(zhi)能所面(mian)臨的(de)關鍵(jian)挑戰中(zhong),首當其(qi)沖的(de)是可用數(shu)據(ju)(ju)的(de)稀(xi)缺(que)問(wen)題(ti)(ti)(ti)(ti):底層海量互(hu)聯網數(shu)據(ju)(ju)存在質量低、標注缺(que)失(shi)等問(wen)題(ti)(ti)(ti)(ti);頂層的(de)同構真(zhen)(zhen)機數(shu)據(ju)(ju)成本極高,且存在多樣性(xing)(xing)問(wen)題(ti)(ti)(ti)(ti)。仿真(zhen)(zhen)數(shu)據(ju)(ju)雖具理論(lun)無限(xian)性(xing)(xing),卻受限(xian)于(yu)數(shu)字資(zi)產、專家演示和虛實(shi)(shi)鴻溝難題(ti)(ti)(ti)(ti)。針對上述問(wen)題(ti)(ti)(ti)(ti),我們提出”虛實(shi)(shi)貫通”技術框架以(yi)系統化解決(jue)現(xian)存問(wen)題(ti)(ti)(ti)(ti),通過(guo)”桃源(GRUtopia)2.0″平臺作為關鍵(jian)紐帶(dai),構建了”真(zhen)(zhen)實(shi)(shi)-仿真(zhen)(zhen)-真(zhen)(zhen)實(shi)(shi)”閉環技術路徑(jing)。桃源2.0具有以(yi)下特(te)性(xing)(xing):
– 模(mo)塊(kuai)化仿真框架(jia):支持導航(hang)、操作、運(yun)動(dong)控制等全任務類型,通過”三行代碼(ma)”快速定義具身任務,實現多(duo)任務開發平(ping)臺統一;
– 智能場景生成:集成十萬級場景庫(ku)與(yu)百(bai)萬級物(wu)體(ti)庫(ku),結(jie)合自動(dong)化(hua)生成與(yu)隨機(ji)化(hua)工具,實(shi)現復雜場景一鍵(jian)構建與(yu)數(shu)據無限擴(kuo)增;
– 高效數據工(gong)場:提供操(cao)作/全身控制遙操(cao)作工(gong)具(ju)與導航批量(liang)化采(cai)集系(xi)統(tong),單(dan)機單(dan)日(ri)可獲取15,000條高質(zhi)量(liang)導航軌跡,大(da)幅降低多(duo)元數據采(cai)集門檻(jian)。
我(wo)(wo)們通(tong)(tong)過一系(xi)列實驗驗證了“虛實貫通(tong)(tong)”技術框架(jia)在(zai)突破仿真內容生產瓶頸的同(tong)時能夠(gou)有效(xiao)彌(mi)合虛實鴻溝。相(xiang)信通(tong)(tong)過相(xiang)關模型、工具(ju)鏈(lian)的研發和開(kai)源(yuan)開(kai)放,我(wo)(wo)們能夠(gou)和具(ju)身智能領(ling)域的研究人員共同(tong)探(tan)索一條新的通(tong)(tong)往通(tong)(tong)用具(ju)身智能的降本增效(xiao)路(lu)徑。
報告嘉賓:群核科技科研算法專家 汪仁涵
報告主題:打破數據之困,讓具身智能走進物理世界
內容概要:數據生成(cheng)能力(li)是具(ju)身AI的(de)“創新引擎(qing)”!如何賦予AI跨模態認知(zhi)與未知(zhi)環境(jing)自適應(ying)能力(li),為(wei)智能體提供無(wu)限(xian)迭代(dai)的(de)感知(zhi)-決策(ce)-行動閉環訓練(lian),驅動具(ju)身智能從“有(you)限(xian)訓練(lian)”邁向“無(wu)限(xian)進(jin)化”。
報告嘉賓:光輪智能具身數據交付負責人 甘宇飛
嘉賓介紹:甘(gan)宇(yu)飛現任(ren)光輪(lun)智(zhi)能(neng)具(ju)身數(shu)據(ju)交付(fu)負(fu)責人,負(fu)責從資產(chan)生產(chan)、場景搭建、遙操作(zuo)數(shu)據(ju)采集到算法(fa)驗證(zheng)的(de)全流程質量控制,保障具(ju)身資產(chan)合(he)成技術方案的(de)可行(xing)性及規模(mo)化(hua)落地。他在(zai)(zai)合(he)成數(shu)據(ju)技術領域(yu)擁有豐富實踐經驗,技術方案曾覆蓋互聯網、自(zi)動駕(jia)駛及具(ju)身智(zhi)能(neng)等方向。加入(ru)光輪(lun)前,甘(gan)宇(yu)飛曾擔(dan)任(ren)蔚來汽車4D BEV自(zi)動標注(zhu)負(fu)責人,在(zai)(zai)螞蟻集團作(zuo)為某海外事業線算法(fa)團隊負(fu)責人。
三、報名方式
具身智能大模型技術研討會將在大會次日分會場下午進行,主要向持有閉門專享票、貴賓通票的觀眾開放。
希望參加研討會的朋友,可以掃描下方二維碼,添加小助手“泡泡”咨詢和購票。已添加過“泡泡”的老朋友,給“泡泡”私信,發送“GenAICon25”即可。
除了閉門專享票、貴賓通票,大會還設有主會場觀眾票、主會場VIP票,在(zai)主會場的座位分布如下。有需(xu)要的朋友可以進行免費申請或購買。