2024年已行進尾聲,但對于生成式AI而言,這又是波(bo)瀾壯闊(kuo)的(de)(de)一(yi)年(nian)。Sora掀起視頻生成熱(re)潮,多(duo)模(mo)態(tai)世界模(mo)型的(de)(de)研究熱(re)度漸(jian)起。更(geng)具革命性的(de)(de)推理模(mo)型o1悄(qiao)然出世,帶(dai)來的(de)(de)思維鏈CoT+強化(hua)學習這一(yi)新(xin)范式(shi),正推動生成式(shi)AI邁入新(xin)的(de)(de)階(jie)段。

大(da)語言模(mo)(mo)型(xing)仍在(zai)狂飆,但價格(ge)戰、營銷戰硝煙(yan)燃起,融資熱(re)度正在(zai)降(jiang)溫。不過行業賦能持續進(jin)行,應用層的(de)興起更(geng)加(jia)受到期待。同時,大(da)模(mo)(mo)型(xing)向邊端下(xia)沉的(de)趨勢日趨明顯,AI手機(ji)、AI PC等(deng)AI硬件(jian)(jian)紛紛站(zhan)上風口。GPT-4o的(de)出(chu)現,將輕量化模(mo)(mo)型(xing)和端側(ce)(ce)大(da)模(mo)(mo)型(xing)推向新高度之(zhi)余,端側(ce)(ce)設(she)備的(de)交互革新也有(you)了前進(jin)方向。不止AI硬件(jian)(jian),大(da)模(mo)(mo)型(xing)驅動(dong)下(xia)的(de)具身(shen)智能更(geng)是熱(re)度空前,人形機(ji)器人正開啟星辰大(da)海(hai)。

作為支撐大模型運行以及生成式AI應(ying)用開發(fa)(fa)的關(guan)鍵,AI Infra走到了(le)臺前,從(cong)智算集群到基礎軟件,發(fa)(fa)展勢頭強(qiang)勁,但(dan)挑(tiao)戰不少。

在上述背景下,2024中國生成式AI大會(上海站)「GenAICon 2024」將于12月5-6日上海中星鉑爾曼大酒店盛(sheng)大(da)舉辦。中國生成(cheng)式(shi)AI大(da)會已(yi)成(cheng)功舉辦兩屆,迅速成(cheng)長為國內(nei)生成(cheng)式(shi)AI領(ling)域(yu)最(zui)具影響力的(de)產業峰會之一。

此次也是中國生成式AI大會首次登陸上海舉辦。大會由智一科技旗下智能產業第一媒體智東西、AI與硬科技知識分享社區智猩猩共同發起主辦。上海市人工智能行業協會為大會的指導單位。

大會(hui)上(shang)海站以“智能(neng)躍進 創(chuang)造無(wu)限(xian)”為(wei)主題,50+位嘉賓將帶來致辭(ci)、演講、報(bao)告和對話討論,基于前(qian)瞻性視角解構和把(ba)脈(mo)生成式AI的技術(shu)產品(pin)創(chuang)新、商業落地(di)解法、未來趨勢走向與(yu)前(qian)沿研究焦點。

上海站由“主會場峰會+分會場研討會+展覽區”組成。主會(hui)場將(jiang)進行大模型峰會(hui)、AI Infra峰會(hui),分會(hui)場將(jiang)進行端側生成式AI技(ji)(ji)術(shu)(shu)研(yan)討(tao)會(hui)、AI視(shi)頻(pin)生成技(ji)(ji)術(shu)(shu)研(yan)討(tao)會(hui)和具身智能技(ji)(ji)術(shu)(shu)研(yan)討(tao)會(hui)。展覽區則緊(jin)鄰會(hui)場門口設置,14家企業(ye)將(jiang)進行技(ji)(ji)術(shu)(shu)產品展示。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

其中,端(duan)側生(sheng)成式AI技(ji)術(shu)研(yan)討會(hui)將于12月5日下午(wu)進(jin)行,AI視頻生(sheng)成技(ji)術(shu)研(yan)討會(hui)于12月6日上(shang)午(wu)進(jin)行,具身智能技(ji)術(shu)研(yan)討會(hui)于12月6日下午(wu)進(jin)行。

目前,分會(hui)(hui)場(chang)三場(chang)研討會(hui)(hui)邀請(qing)到(dao)17位來(lai)自學術(shu)界和(he)工業界的(de)青年學者和(he)技術(shu)專家與會(hui)(hui),并帶來(lai)主題報告和(he)圓(yuan)桌Panel。今天將為大家正式揭曉分會(hui)(hui)場(chang)研討會(hui)(hui)的(de)完整(zheng)議程。

一、分會場研討會完整議程

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

二、端側生成式AI技術研討會報告介紹

本次研討會將于12月5日下午進行,目前邀請到上海人工智能實驗室博士后研究員羅根,西湖大學工學院助理教授王歡,聯想集團首席研究員、聯想研究院人工智能實驗室研發總監師忠超,vivo AI全球研究院AI技術總監李方圓,愛芯元智智慧IoT事業部產品總監吳煒5位青年(nian)學者和技術專家帶來報告(gao)。

主題報告環節結束后,商湯科技研究院模型計算部系統研究員雷丹將受邀參與并主持(chi)圓桌Panel。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:上海人工智能實驗室博士后研究員 羅根
報告主題:《多模態大模型的高效感知、建模與計算》
內容概要:近(jin)年來,多(duo)模(mo)(mo)態(tai)大模(mo)(mo)型(xing)的不斷進步也對端側設備的部(bu)署和(he)使用(yong)提出了(le)更(geng)大的要(yao)求(qiu)。針(zhen)對該問題(ti),羅根博士(shi)將(jiang)從(cong)感知(zhi)、建模(mo)(mo)與計(ji)算三個方面進行深入探討:在感知(zhi)層(ceng)面,主要(yao)介紹通(tong)過(guo)混合(he)分(fen)辨率視覺(jue)融合(he)實(shi)現(xian)高效的視覺(jue)感知(zhi);在建模(mo)(mo)層(ceng)面,主要(yao)介紹通(tong)過(guo)內(nei)生視覺(jue)專(zhuan)家實(shi)現(xian)緊湊的一體(ti)化(hua)多(duo)模(mo)(mo)態(tai)建模(mo)(mo);在計(ji)算層(ceng)面,主要(yao)介紹通(tong)過(guo)混合(he)深度計(ji)算實(shi)現(xian)稀疏的模(mo)(mo)型(xing)動態(tai)推理。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:西湖大學工學院助理教授 王歡
報告主題:《神經網絡剪枝、蒸餾在Efficient AI中的發展與應用》
內容概要:AI模型深(shen)刻改(gai)變了我們的(de)生(sheng)活,但這(zhe)些(xie)模型無論是(shi)訓練還(huan)是(shi)測(ce)試階(jie)段(duan)都需要(yao)消耗(hao)大量資源,導致速度慢、能(neng)耗(hao)高(gao)、存儲及運存冗余等問題,解決(jue)(jue)這(zhe)些(xie)問題亟(ji)需提(ti)(ti)高(gao)AI模型的(de)效能(neng)(Efficiency),因此需要(yao)Efficient AI。Efficient AI涉及軟(ruan)硬(ying)件、算法(fa)(fa)等多個(ge)維度的(de)協同設計和優(you)化,硬(ying)件不(bu)足時往(wang)(wang)往(wang)(wang)可(ke)以通過在(zai)算法(fa)(fa)上的(de)改(gai)進(jin)來(lai)補齊(qi)短板。在(zai)算法(fa)(fa)層面,要(yao)想實現(xian)提(ti)(ti)高(gao)效能(neng),需要(yao)解決(jue)(jue)兩個(ge)問題:(1)效能(neng)如(ru)何提(ti)(ti)高(gao),(2)性能(neng)如(ru)何保證。前者一般是(shi)通過縮小模型大小來(lai)實現(xian),最(zui)具(ju)代表性的(de)方法(fa)(fa)就是(shi)神經網絡剪(jian)枝(zhi)(Pruning);后者一般是(shi)通過重(zhong)訓練(Retraining)、微調(Fine-tuning)得到,最(zui)具(ju)代表性的(de)方法(fa)(fa)就是(shi)知(zhi)識蒸餾(Knowledge Distillation)。

在這次交(jiao)流中(zhong),我將介紹(shao)剪枝和(he)(he)蒸餾的(de)主要(yao)歷史背景和(he)(he)當前研究(jiu)現(xian)狀(zhuang),結合我的(de)研究(jiu)經歷,重點(dian)介紹(shao)如(ru)何利用剪枝和(he)(he)蒸餾實(shi)現(xian)對神經輻射場(chang)(NeRF)、文(wen)生圖(tu)(T2I)等任務進行效能提(ti)升。其(qi)中(zhong)文(wen)生圖(tu)加速的(de)工作SnapFusion(NeurIPS’23)是世界(jie)上(shang)首個端上(shang)文(wen)生圖(tu)時間小于2s、且性能可以對標SD-v1.5的(de)模型。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:聯想集團首席研究員、聯想研究院人工智能實驗室研發總監 師忠超
報告主題:《聯想AIPC端側智能體》
內容概要:本次(ci)演(yan)講將重點介紹聯(lian)(lian)(lian)想(xiang)AIPC端(duan)(duan)側(ce)智(zhi)能體的獨(du)特架構(gou),旨在(zai)(zai)通(tong)過開發端(duan)(duan)側(ce)智(zhi)能體,顯著提升端(duan)(duan)側(ce)大模型在(zai)(zai)處理復雜(za)任務和場景(jing)應(ying)用(yong)(yong)時(shi)的性(xing)能。我們將深入探討聯(lian)(lian)(lian)想(xiang)端(duan)(duan)側(ce)個人智(zhi)能體如何(he)(he)結合(he)大模型的關(guan)鍵能力定向增強(qiang)與端(duan)(duan)側(ce)異構(gou)加速(su)技術,在(zai)(zai)設(she)備資源有限的條件下達到(dao)卓越的性(xing)能。此外,本次(ci)演(yan)講也(ye)將展示聯(lian)(lian)(lian)想(xiang)如何(he)(he)運用(yong)(yong)混合(he)意圖理解(jie)與復雜(za)任務自動分(fen)解(jie)策略等創新方法,優化(hua)個人知識庫及工具(ju)庫的應(ying)用(yong)(yong),進而為用(yong)(yong)戶提供更智(zhi)能、更個性(xing)化(hua)的服(fu)務體驗。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:vivo AI全球研究院AI技術總監 李方圓
報告主題:《智能手機的未來:端側大模型重塑用戶體驗》
內容概要:手機(ji)是從早到晚伴隨我們工作、學習、生活(huo)、娛樂最長時(shi)間(jian)的(de)(de)(de)(de)智能(neng)設備。在AIGC時(shi)代,現有(you)的(de)(de)(de)(de)手機(ji)AI功能(neng)已無(wu)法滿足用(yong)戶(hu)對更(geng)高層次(ci)體驗(yan)的(de)(de)(de)(de)追(zhui)求,主要表(biao)現在單(dan)點功能(neng)與系統融合不夠(gou)緊密、機(ji)械的(de)(de)(de)(de)被動(dong)執行缺(que)乏主動(dong)性,通(tong)用(yong)的(de)(de)(de)(de)功能(neng)難以(yi)與用(yong)戶(hu)個性化需求相結合等不足。手機(ji)終端大模型憑(ping)借其強大的(de)(de)(de)(de)語義理(li)解、語言生成和邏輯推理(li)能(neng)力,一方(fang)面能(neng)夠(gou)大幅提升傳統AI功能(neng)的(de)(de)(de)(de)準確(que)性和效(xiao)果(guo),另(ling)一方(fang)面能(neng)夠(gou)理(li)解執行用(yong)戶(hu)更(geng)加復雜的(de)(de)(de)(de)指令,結合用(yong)戶(hu)使用(yong)手機(ji)的(de)(de)(de)(de)情景(jing),提供(gong)更(geng)加主動(dong)、個性化的(de)(de)(de)(de)智能(neng)服(fu)務。

本次演講(jiang),將分(fen)享vivo如何從傳(chuan)統的AI時代邁向大模型AI時代的技術演進之路(lu)。圍繞記憶、端(duan)(duan)側化(hua)、主動(dong)執行3個(ge)方面(mian)探索(suo)更懂用戶、更懂手機、更加(jia)主動(dong)的個(ge)人智(zhi)能(neng)的應(ying)用場景,并與(yu)大家揭(jie)秘背后的核心技術藍(lan)心端(duan)(duan)側大模型的構建思路(lu)與(yu)方案。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:愛芯元智智慧IoT事業部產品總監 吳煒
報告主題:《多模態大模型在端側的創新實踐與挑戰》
內容概要:隨著大(da)模(mo)(mo)型(xing)(xing)的(de)(de)(de)(de)發(fa)(fa)展,AI已從簡(jian)單的(de)(de)(de)(de)圖像分(fen)類識別(bie)功能,升級為(wei)對視頻(pin)(pin)、音頻(pin)(pin)、文字(zi)等多(duo)模(mo)(mo)態(tai)信息(xi)的(de)(de)(de)(de)整合分(fen)析(xi),實(shi)現對內容更深刻的(de)(de)(de)(de)理解。多(duo)模(mo)(mo)態(tai)大(da)模(mo)(mo)型(xing)(xing)已成為(wei)推動各行各業發(fa)(fa)展的(de)(de)(de)(de)重要(yao)力(li)量(liang)。然而,要(yao)將大(da)模(mo)(mo)型(xing)(xing)應(ying)用于端側設備,面臨著算力(li)、帶寬、功耗和成本(ben)之間(jian)的(de)(de)(de)(de)多(duo)重平衡(heng)挑戰(zhan)。愛芯(xin)元智致力(li)于打造世界領先的(de)(de)(de)(de)AI芯(xin)片(pian),積極布局多(duo)模(mo)(mo)態(tai)大(da)模(mo)(mo)型(xing)(xing),助(zhu)力(li)大(da)模(mo)(mo)型(xing)(xing)在端側的(de)(de)(de)(de)普及和高效(xiao)部署(shu)。

本次演(yan)講(jiang),將通過展示實際應(ying)(ying)用案(an)例,探討(tao)多(duo)模態大模型(xing)如(ru)何在(zai)更廣泛的(de)應(ying)(ying)用場景中發揮更大的(de)價值。同(tong)時,還將與(yu)行業伙伴共同(tong)探索(suo)大模型(xing)在(zai)端側應(ying)(ying)用的(de)無限可(ke)能(neng),推動(dong)“普惠AI,造就美(mei)好生活”的(de)使命。

三、AI視頻生成技術研討會報告介紹

本次研討會將于12月6日上午進行,目前邀請到中存算董事長陳巍,上海交通大學人工智能研究院助理教授晏軼超,新壹科技AI算法主任架構師李璋,井英科技聯合創始人、CTO王健,曠視研究院高級研究員李華東5位青年(nian)學者和技術專家帶來報告。

主(zhu)題報告環節結束后的圓桌Panel,將由中存算董事長陳巍,上海交通(tong)大學人工智(zhi)能(neng)研(yan)(yan)究(jiu)院助理教授晏軼(yi)超,井英(ying)科技聯合創(chuang)始(shi)人、CTO王健,以及(ji)曠(kuang)視研(yan)(yan)究(jiu)院高級研(yan)(yan)究(jiu)員李華東一起帶來。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:中存算董事長 陳巍
報告主題:《視頻大模型架構對比及長序列模型加速》
內容概要:隨(sui)著大模型(xing)技(ji)術的快速發展(zhan),視頻大模型(xing)(VLM)正與短視頻產業結合并迎來新(xin)的爆發機(ji)遇,逐漸成為互(hu)聯(lian)網應用的熱點。

本次分享(xiang)從視(shi)頻(pin)大(da)(da)模型(xing)與世(shi)界模型(xing)的(de)角度,對比主(zhu)流視(shi)頻(pin)生成大(da)(da)模型(xing)架(jia)構,探討(tao)視(shi)頻(pin)生成的(de)關鍵(jian)技術(shu)(包括NaViT、RADM等),分析視(shi)頻(pin)生成類大(da)(da)模型(xing)的(de)主(zhu)要挑戰與發(fa)展趨勢;探討(tao)內存墻(Memory Wall)和通信墻對視(shi)頻(pin)大(da)(da)模型(xing)GPGPU/TPU集群訓(xun)練(lian)和部(bu)署的(de)挑戰,并針對這類視(shi)頻(pin)長序(xu)列模型(xing)的(de)算力芯片級訓(xun)練(lian)部(bu)署,結合具體項目給出軟硬結合的(de)解(jie)決方案與系統經驗。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:上海交通大學人工智能研究院助理教授 晏軼超
報告主題:《先驗引導的三維數字人視頻生成》
內容概要:“人”一(yi)(yi)直是(shi)視(shi)頻(pin)生(sheng)成(cheng)(cheng)的核心(xin)對象,面(mian)對大(da)規模(mo)視(shi)頻(pin)的生(sheng)成(cheng)(cheng)需求,利(li)用生(sheng)成(cheng)(cheng)式(shi)人工智能技(ji)(ji)術(shu)產生(sheng)高擬真,規模(mo)化的虛擬數字(zi)人正逐漸成(cheng)(cheng)為研究熱點(dian)。三維(wei)(wei)高斯、大(da)模(mo)型(xing)等技(ji)(ji)術(shu)在過去一(yi)(yi)年快(kuai)速發展,并與數字(zi)人技(ji)(ji)術(shu)進(jin)行(xing)了廣泛結合(he),本次報告將從(cong)數字(zi)人重建(jian)、生(sheng)成(cheng)(cheng)、編輯(ji)等方向介紹數字(zi)人視(shi)頻(pin)生(sheng)成(cheng)(cheng)領域的最近進(jin)展,對三維(wei)(wei)數字(zi)人技(ji)(ji)術(shu)的發展趨(qu)勢進(jin)行(xing)探討。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:新壹科技AI算法主任架構師 李璋
報告主題:《視頻垂直大模型在智能數字人生成中的應用》
內容概要:在(zai)生(sheng)(sheng)成(cheng)式AI技術蓬勃發展的(de)背景下,智能數字人已成(cheng)為內容創作、虛(xu)擬助手和人機交互(hu)等(deng)領域的(de)重要應(ying)用(yong)之一。然而,傳統生(sheng)(sheng)成(cheng)模(mo)型在(zai)高精度、多模(mo)態的(de)智能數字人生(sheng)(sheng)成(cheng)中(zhong)仍面臨諸多挑戰。為此,垂直領域的(de)大模(mo)型提(ti)供了(le)一條全新路徑(jing)。

本次演講,首先會介(jie)紹從通用(yong)大模型(xing)到垂直大模型(xing)的(de)(de)演進(jin),之后將著(zhu)重講解新壹視頻(pin)大模型(xing)的(de)(de)整體架(jia)構設計及其在(zai)數字(zi)人視頻(pin)生成(cheng)與優(you)化中的(de)(de)核(he)心(xin)技(ji)術突破;此外,還將對智(zhi)能數字(zi)人生成(cheng)的(de)(de)技(ji)術難點(dian),包括(kuo)數字(zi)人生成(cheng)中實現(xian)自然語(yu)言驅動動作與表情(qing)生成(cheng)的(de)(de)關(guan)鍵技(ji)術等進(jin)行(xing)深入(ru)分析,并分享視頻(pin)垂直大模型(xing)驅動的(de)(de)智(zhi)能數字(zi)人在(zai)相關(guan)領域的(de)(de)典(dian)型(xing)應(ying)用(yong)案例。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:井英科技聯合創始人、CTO 王健
報告主題:《AI短劇拐點背后的技術突破》
內容概要:自今年2月OpenAI發布Sora起,視(shi)(shi)頻(pin)生(sheng)成(cheng)大模(mo)型成(cheng)為了(le)熱點方(fang)向。但其具體落地(di)的(de)業務場景卻一(yi)直不明確。近期,井英科技(ji)通過視(shi)(shi)頻(pin)生(sheng)成(cheng)模(mo)型實現了(le)100分鐘以上短視(shi)(shi)頻(pin)的(de)制(zhi)作,并(bing)成(cheng)功實現了(le)用戶付費(fei)觀看的(de)商業模(mo)式。

本(ben)次分享(xiang)將介(jie)紹(shao)AI短劇(ju)從(cong)最初(chu)的不可行到現(xian)如(ru)今可行的關鍵技術突破,并(bing)探討(tao)了除視頻(pin)生成大模型之外(wai)的其他關鍵技術進(jin)展。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:曠視研究院高級研究員李華東
報告主題:《可控人物視頻生成》
內容概要:短視(shi)(shi)頻(pin)、影視(shi)(shi)和游戲動畫創作正在迅速發(fa)展。然而,傳(chuan)統的視(shi)(shi)頻(pin)制作過(guo)程耗時耗力,通常需要大(da)(da)量(liang)的人(ren)工后期編輯。視(shi)(shi)頻(pin)生(sheng)成(cheng)大(da)(da)模型算法(fa)提供了一種低成(cheng)本、高(gao)效的高(gao)質量(liang)視(shi)(shi)頻(pin)內容生(sheng)成(cheng)解決方案。但視(shi)(shi)頻(pin)生(sheng)成(cheng)算法(fa)生(sheng)成(cheng)的內容可控性不足,限制了其實(shi)際應用的有效性。因此,如何實(shi)現(xian)視(shi)(shi)頻(pin)生(sheng)成(cheng)內容的可控性仍是一大(da)(da)關鍵(jian)挑戰。

在本(ben)次報告中,我(wo)將(jiang)介紹 MegActor 系(xi)列(lie)工作,這是一種支持混合(he)模(mo)態控(kong)制的(de)人(ren)像視頻生成算法(fa)。該算法(fa)支持角色(se)自定義(包括真實(shi)(shi)人(ren)物、二次元人(ren)物和游戲(xi)人(ren)物等(deng)),并(bing)能夠(gou)通過視頻、音頻和文本(ben)輸入(ru)實(shi)(shi)現單獨和混合(he)控(kong)制。其功能涵蓋了(le)控(kong)制角色(se)說(shuo)話、唱歌和生成表(biao)情(qing)動畫等(deng)。MegActor 系(xi)列(lie)是社區內的(de)首個開源可控(kong)人(ren)物視頻生成大模(mo)型,將(jiang)持續優化以推動技(ji)術的(de)不斷(duan)發展。

四、具身智能技術研討會報告介紹

本次研討會將于12月6日下午進行,目前邀請到上海人工智能實驗室青年科學家王泰,上海科技大學信息科學與技術學院助理教授、博士生導師顧家遠,上海交通大學在讀博士、穹徹智能實習研究員呂峻,國地共建具身智能機器人創新中心數據智能負責人李廣宇,哈爾濱工業大學計算學部在讀博士王雪松,中國科學院空天信息創新研究院特別研究助理姚方龍6位青年學者(zhe)和技術專家(jia)帶來報告。

主題報告(gao)環節結(jie)束后的(de)圓桌Panel,也(ye)將(jiang)由上述(shu)6位嘉賓一(yi)起帶來。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:上海人工智能實驗室青年科學家 王泰
報告主題:《大規模具身多模態三維感知》
內容概要:近年來,大模(mo)型的(de)成功以及模(mo)仿(fang)學習、強化學習等方法的(de)突破持續推動著(zhu)具身智能(neng)的(de)快速(su)發展。但這一(yi)領域仍(reng)然(ran)面臨著(zhu)數(shu)據匱乏(fa)的(de)核心(xin)問題,大規模(mo)訓練(lian)和(he)評測(ce)仍(reng)存在客觀瓶頸。生成式 AI 的(de)進(jin)展為解決(jue)這一(yi)問題提(ti)供了重要路(lu)徑。

本報(bao)告將聚焦(jiao)于三維場景中具身(shen)多(duo)模(mo)(mo)(mo)(mo)態感(gan)知相關的(de)(de)具體任(ren)務(wu),詳細(xi)介紹團隊利用(yong)多(duo)模(mo)(mo)(mo)(mo)態大模(mo)(mo)(mo)(mo)型(xing)的(de)(de)生(sheng)成能力設(she)計三維多(duo)模(mo)(mo)(mo)(mo)態數據(ju)(ju)的(de)(de)自(zi)動化標注管線,從而形成大規模(mo)(mo)(mo)(mo)三維物體、場景在不(bu)同(tong)粒度全方(fang)位的(de)(de)語料(liao)標注,構(gou)建帶有(you)顯(xian)式三維建模(mo)(mo)(mo)(mo)和(he)空(kong)間(jian)感(gan)知能力的(de)(de)具身(shen)感(gan)知基礎模(mo)(mo)(mo)(mo)型(xing),并最(zui)終(zhong)利用(yong)大模(mo)(mo)(mo)(mo)型(xing)實(shi)現更符合(he)人(ren)類判斷的(de)(de)自(zi)動化評測。最(zui)后,報(bao)告將展(zhan)望生(sheng)成式 AI 在機器人(ren)交互(hu)數據(ju)(ju)方(fang)面的(de)(de)巨大潛(qian)力,同(tong)時探討(tao)其潛(qian)在的(de)(de)局(ju)限(xian)性。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:上海科技大學信息科學與技術學院助理教授、博士生導師 顧家遠
報告主題:《服務于具身智能的仿真評估平臺和數字資產》
內容概要:在(zai)具身(shen)智(zhi)能(neng)領域(yu),通用機(ji)器人決策模型的(de)(de)(de)開發取得了(le)顯著進展(zhan)。然(ran)而,收集(ji)真(zhen)實世界的(de)(de)(de)訓練數(shu)據(ju)和對這(zhe)些模型進行真(zhen)實環(huan)(huan)境下的(de)(de)(de)評估仍然(ran)成本高昂。仿真(zhen)技術提供(gong)了(le)一(yi)種(zhong)可(ke)行的(de)(de)(de)替代方案,但其有(you)效性高度(du)依賴于(yu)多樣(yang)(yang)且(qie)逼(bi)(bi)真(zhen)的(de)(de)(de)數(shu)字資(zi)(zi)產(chan)。傳統上,這(zhe)些資(zi)(zi)產(chan)主要由游(you)戲產(chan)業創建,但隨著具身(shen)智(zhi)能(neng)的(de)(de)(de)發展(zhan),對高質量數(shu)字資(zi)(zi)產(chan)的(de)(de)(de)需求(qiu)激增,以提高仿真(zhen)環(huan)(huan)境的(de)(de)(de)多樣(yang)(yang)性和逼(bi)(bi)真(zhen)度(du)。這(zhe)引發了(le)一(yi)系列(lie)關鍵(jian)問題:這(zhe)些資(zi)(zi)產(chan)的(de)(de)(de)真(zhen)實程度(du)應達到何種(zhong)水(shui)平(ping)?我們(men)如何有(you)效地創建這(zhe)些仿真(zhen)環(huan)(huan)境?在(zai)此(ci)過程中,哪些工(gong)具是必不(bu)可(ke)少(shao)的(de)(de)(de)?

在本次報告中(zhong),我(wo)將介(jie)紹最近的工作SimplerEnv,一個(ge)專(zhuan)為(wei)評估基于真實世(shi)界數據(ju)訓(xun)練的決策模型而開發的仿真環境平臺(tai)。該平臺(tai)支持(chi)對(dui)多種(zhong)通(tong)用機(ji)器人操作模型的評估,如RT-1和Octo。此(ci)外,我(wo)還將討論另一個(ge)研究(jiu)成果(guo)Point-SAM,一個(ge)3D原生工具,能夠對(dui)三維部(bu)件(jian)(jian)和物(wu)體進行(xing)交互式分割。理解物(wu)體的功能性部(bu)件(jian)(jian)對(dui)具身智能的研究(jiu)至關重要,這一工具為(wei)此(ci)提供了重要支持(chi)。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:上海交通大學在讀博士、穹徹智能實習研究員 呂峻
報告主題:《Real2Sim2Real:一種基于多信息源的具身操作技能開發系統》
內容概要:數(shu)據是具身智能在(zai)今天面臨的核心問(wen)題(ti)之一。如何利(li)用(yong)來自不同信息源的數(shu)據,例如仿(fang)真數(shu)據、人類(lei)演示數(shu)據、靜(jing)態視(shi)覺數(shu)據等,構建數(shu)據金字塔(ta),共同實現具身操作(zuo)技巧開發(fa),降低對真實機器人數(shu)據的依賴(lai)與(yu)數(shu)據成(cheng)本成(cheng)為值得(de)關(guan)注的課題(ti)。過去幾年,我們(men)構建了包含Real2Sim、Learn@Sim、Sim2Real模塊的具身智能系統,旨(zhi)在(zai)通(tong)過各類(lei)感知技術對現實物理世(shi)界進行建模,基于建模在(zai)人類(lei)演示數(shu)據、自然(ran)語(yu)言提示詞等的指導(dao)下(xia)于仿(fang)真環境中(zhong)(zhong)學(xue)習開發(fa)特定的機器人操作(zuo)技巧,并將(jiang)仿(fang)真中(zhong)(zhong)學(xue)習到技能遷移到真實環境中(zhong)(zhong)。相關(guan)成(cheng)果發(fa)表(biao)在(zai)IJRR、RSS、CoRL、ICRA等期刊與(yu)會議上,曾獲選RSS 2023 Best System Finalist。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:國地共建具身智能機器人創新中心數據智能負責人 李廣宇
報告主題:《數據視角下的具身操作》
內容概要:數(shu)據稀(xi)缺是目前困擾具身(shen)操(cao)(cao)作(zuo)(zuo)(zuo)研究的(de)共識(shi)。從各(ge)(ge)種機器人整(zheng)機、機械臂、靈巧手等本體廠家紛紛推(tui)出的(de)遙操(cao)(cao)作(zuo)(zuo)(zuo)采(cai)集系統(tong),到以UMI為(wei)代表的(de)低成(cheng)本采(cai)集設(she)備,再到各(ge)(ge)類(lei)(lei)人類(lei)(lei)操(cao)(cao)作(zuo)(zuo)(zuo)動作(zuo)(zuo)(zuo)捕捉方(fang)案,以及各(ge)(ge)種仿真數(shu)據合成(cheng)方(fang)法。如(ru)何高效的(de)獲取具身(shen)操(cao)(cao)作(zuo)(zuo)(zuo)數(shu)據,已(yi)經成(cheng)為(wei)學術界和(he)產業界的(de)研究重點。

另(ling)一(yi)方面,針對(dui)不同(tong)途徑獲(huo)(huo)取(qu)的(de)數(shu)(shu)據(ju),具身(shen)數(shu)(shu)據(ju)金字(zi)塔(ta)的(de)概念已(yi)經廣為傳(chuan)播:下層是數(shu)(shu)據(ju)量大(da)、獲(huo)(huo)取(qu)成本低,但單(dan)位(wei)價(jia)值較低的(de)互(hu)聯網數(shu)(shu)據(ju)和仿(fang)真(zhen)合(he)成數(shu)(shu)據(ju);頂層是采集(ji)成本昂貴,單(dan)位(wei)價(jia)值高的(de)真(zhen)機遙(yao)操作(zuo)數(shu)(shu)據(ju);而中間層是介于真(zhen)機遙(yao)操作(zuo)和仿(fang)真(zhen)合(he)成之間的(de),人類動作(zuo)捕捉數(shu)(shu)據(ju)和仿(fang)真(zhen)遙(yao)操作(zuo)數(shu)(shu)據(ju)。同(tong)時當(dang)前的(de)機器(qi)人數(shu)(shu)據(ju)中,本體構(gou)型(xing)豐富多樣,傳(chuan)感器(qi)配置各異。如何有效融合(he)多種(zhong)來源,多種(zhong)本體的(de)具身(shen)數(shu)(shu)據(ju),也是研究者(zhe)和工(gong)程師(shi)的(de)關注點。

本次(ci)報告中(zhong),我(wo)將梳理(li)具(ju)身數據方向的(de)各種(zhong)技術路線,并介(jie)紹具(ju)身智(zhi)能(neng)國創中(zhong)心在數據方面的(de)進(jin)展,包括(kuo)數據采(cai)集和訓練基地(di)建設(she)情(qing)況、數據集開(kai)源開(kai)放情(qing)況,以及(ji)一些圍繞數據融合方向的(de)探(tan)索和嘗(chang)試。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:哈爾濱工業大學計算學部在讀博士 王雪松
報告主題:《具身智能大模型研究的關鍵問題與展望》
內容概要:隨著(zhu)深(shen)度學(xue)習、大模(mo)型技術的突破性(xing)進(jin)展(zhan),人(ren)(ren)工智(zhi)(zhi)能(neng)的發(fa)展(zhan)從感知(zhi)智(zhi)(zhi)能(neng)和(he)認知(zhi)智(zhi)(zhi)能(neng),逐步向能(neng)夠與(yu)真(zhen)實物理(li)(li)環境(jing)進(jin)行(xing)交(jiao)互的具(ju)身智(zhi)(zhi)能(neng)階段發(fa)展(zhan),并在(zai)大模(mo)型在(zai)多(duo)種任務上(shang)的強大泛化(hua)能(neng)力和(he)人(ren)(ren)形機器人(ren)(ren)對于(yu)人(ren)(ren)類社(she)會場景的適(shi)應(ying)能(neng)力的基(ji)礎上(shang),有望通過具(ju)身智(zhi)(zhi)能(neng)的發(fa)展(zhan),最(zui)終實現通用人(ren)(ren)工智(zhi)(zhi)能(neng)。不過,具(ju)身智(zhi)(zhi)能(neng)為(wei)我(wo)們帶來希望的同時(shi),也更多(duo)的帶來了(le)挑戰,機器人(ren)(ren)如何(he)感知(zhi)世界、理(li)(li)解世界?如何(he)擁有對自己行(xing)為(wei)的認知(zhi)?如何(he)高效合理(li)(li)的運動?等等。

本次報告將從(cong)大(da)模(mo)型技(ji)(ji)術和人(ren)形機器人(ren)技(ji)(ji)術是如何(he)推動(dong)具身(shen)智能(neng)發(fa)展的角度進(jin)行切入,闡述當(dang)前(qian)大(da)模(mo)型技(ji)(ji)術在(zai)解(jie)決具身(shen)智能(neng)問(wen)題時的諸(zhu)多不足,進(jin)而(er)詳(xiang)解(jie)具身(shen)智能(neng)大(da)模(mo)型在(zai)感知(zhi)、規劃、導航、乃至機器人(ren)操控(kong)方(fang)面有哪些亟待研究的關鍵問(wen)題,同時也將對(dui)未來具身(shen)智能(neng)如何(he)更好發(fa)展做出展望(wang)。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能

報告嘉賓:中國科學院空天信息創新研究院特別研究助理 姚方龍
報告主題:《萬物具身:耦合空間智能與具身智能的復空間具身體系》
內容概要:空間智(zhi)能(neng)(neng)(neng)(neng)旨在(zai)(zai)開(kai)發理(li)(li)解三(san)維物(wu)(wu)理(li)(li)世(shi)界(jie)的模型,模擬物(wu)(wu)體(ti)物(wu)(wu)理(li)(li)特性、空間位(wei)置和(he)功能(neng)(neng)(neng)(neng),具身(shen)智(zhi)能(neng)(neng)(neng)(neng)通過賦予(yu)智(zhi)能(neng)(neng)(neng)(neng)“身(shen)體(ti)”,與(yu)環境(jing)交互反饋中實(shi)現智(zhi)能(neng)(neng)(neng)(neng)增(zeng)長和(he)環境(jing)自適(shi)應,二者既有區別又相互補充(chong)。本報告旨在(zai)(zai)嘗(chang)試聯(lian)結(jie)空間智(zhi)能(neng)(neng)(neng)(neng)與(yu)具身(shen)智(zhi)能(neng)(neng)(neng)(neng),構(gou)思出“萬(wan)物(wu)(wu)具身(shen)(Embodiment-of-Objects)”概念,設計了(le)復空間具身(shen)體(ti)系(xi)(Multiverse Embodied System)計算范式,探索了(le)“超圖(tu)(tu)+空天(tian)世(shi)界(jie)模擬器+空天(tian)世(shi)界(jie)模型”的研究路(lu)線,初步形成思維超圖(tu)(tu)引(yin)導(dao)的智(zhi)能(neng)(neng)(neng)(neng)體(ti)世(shi)界(jie)模型、異質超圖(tu)(tu)引(yin)導(dao)的智(zhi)能(neng)(neng)(neng)(neng)體(ti)關(guan)聯(lian)導(dao)航、時空超圖(tu)(tu)引(yin)導(dao)的智(zhi)能(neng)(neng)(neng)(neng)體(ti)預測規劃等(deng)關(guan)鍵技(ji)術,推動從單(dan)體(ti)智(zhi)能(neng)(neng)(neng)(neng)向空天(tian)地海任務、環境(jing)、場景(jing)耦合的體(ti)系(xi)智(zhi)能(neng)(neng)(neng)(neng)演(yan)進。

五、報名進入最后階段,立即搶票參加研討會

分會場三場研討會主要面向大會購(gou)票(piao)用戶及定向邀請的(de)用戶開(kai)放。

希望到現場參加研討會的朋友,可以掃描下方二維碼,添加小助手“泡泡”進行咨詢。已添加過“泡泡”的老朋友,給“泡泡”私信,發送“GenAI24”即可。

GenAICon 2024上海站分會場議程公布!3場研討會17位學者專家拆解端側AI、視頻生成與具身智能