
智東西(公眾號:zhidxcom)
作者?| 智東西編輯部
智(zhi)東(dong)西12月5日報道,今天,以“智(zhi)能躍進 創(chuang)造無(wu)限”為主題(ti)的(de)2024中國生成(cheng)式AI大會(上(shang)海站(zhan))正式開(kai)幕,大會現場座無(wu)虛(xu)席(xi)。
大會為(wei)期兩天,共有50+位嘉賓基于前(qian)瞻性視角(jiao)為(wei)大家解構和把脈生(sheng)成式AI的(de)技術產品創(chuang)新、商業落地解法、未來趨勢走(zou)向與(yu)前(qian)沿(yan)研究焦點。
大(da)(da)會首日,由復旦大(da)(da)學(xue)計算機科學(xue)技術學(xue)院教授、上海(hai)市智(zhi)能(neng)信息處(chu)理實驗室副主任張奇領銜,17位嘉(jia)賓圍(wei)繞(rao)通用大(da)(da)語言模(mo)(mo)型(xing)(xing)(xing)(xing)、多模(mo)(mo)態大(da)(da)模(mo)(mo)型(xing)(xing)(xing)(xing)、行業大(da)(da)模(mo)(mo)型(xing)(xing)(xing)(xing)、垂直大(da)(da)模(mo)(mo)型(xing)(xing)(xing)(xing)、智(zhi)能(neng)體、具身智(zhi)能(neng)、大(da)(da)模(mo)(mo)型(xing)(xing)(xing)(xing)對齊(qi)與安全、投資風向等前沿議(yi)題,分享了最(zui)新(xin)的(de)研(yan)發與實踐經驗。
“大(da)模型(xing)技術作為人工(gong)智能(neng)(neng)領(ling)域的(de)重要分支,正(zheng)在(zai)(zai)不斷推動著產業的(de)創(chuang)新和轉型(xing)。”上(shang)(shang)海市(shi)人工(gong)智能(neng)(neng)行(xing)業協會副(fu)秘(mi)書長(chang)徐琦在(zai)(zai)致辭中表(biao)示,“在(zai)(zai)此(ci)(ci)背(bei)景下,舉(ju)辦(ban)此(ci)(ci)次生(sheng)成式(shi)AI大(da)會,旨在(zai)(zai)進一(yi)步推動上(shang)(shang)海市(shi)生(sheng)成式(shi)AI產業的(de)發展,促進院(yuan)校和研究機(ji)構的(de)學術成果(guo)傳播(bo),同時,加強與(yu)長(chang)三(san)角地區優秀企業和機(ji)構的(de)聯動交流,共同探索(suo)人工(gong)智能(neng)(neng)的(de)未來發展之路(lu)。”
▲上海(hai)市人工智(zhi)能行業協會副秘書長徐琦
徐(xu)琦指出(chu),上(shang)海(hai)一直在AI領(ling)域扮演著引(yin)(yin)領(ling)者的(de)角色(se)。產(chan)業(ye)規(gui)模(mo)方面,上(shang)海(hai)規(gui)模(mo)以上(shang)AI企業(ye)已從2018年(nian)的(de)183家增(zeng)長到2023年(nian)的(de)348家,產(chan)業(ye)規(gui)模(mo)從1340億(yi)元(yuan)增(zeng)長到3808億(yi)元(yuan),居全國(guo)前列。創新成果方面,目(mu)前上(shang)海(hai)已有46款大模(mo)型通過備案,多(duo)款通用人(ren)形(xing)機器人(ren)原型機發布。產(chan)業(ye)生態方面,上(shang)海(hai)加快打造(zao)創新載體,吸引(yin)(yin)企業(ye)集(ji)聚(ju);持續優化算力基礎設(she)施布局,加大算力資源(yuan)統(tong)籌供給;完善語料數據(ju)基礎支撐體系。
面(mian)向(xiang)未來,上(shang)海將牢牢把握通用人工(gong)智能發(fa)展機(ji)遇,與海內(nei)外企業、機(ji)構等緊密合(he)作,持(chi)續推動(dong)人工(gong)智能創(chuang)新(xin)發(fa)展,加快塑造高質量(liang)發(fa)展新(xin)動(dong)能、新(xin)優勢。
作為智一科技傾(qing)力打造的產業(ye)峰會(hui)(hui)IP,2024中(zhong)(zhong)國生(sheng)成式AI大(da)會(hui)(hui)由智東西和(he)智猩猩聯合(he)主辦(ban),此次會(hui)(hui)議超過3000人(ren)報名參會(hui)(hui),現場座無虛席。中(zhong)(zhong)國生(sheng)成式AI大(da)會(hui)(hui)已在北京成功舉(ju)辦(ban)兩屆,此次是中(zhong)(zhong)國生(sheng)成式AI大(da)會(hui)(hui)首(shou)次登陸上(shang)海(hai)舉(ju)辦(ban)。
智一科(ke)技聯合創始人、CEO龔倫常(chang)代表主辦(ban)(ban)方為(wei)大會(hui)致辭:“七年(nian)前,我們(men)的(de)首屆AI產(chan)業(ye)大會(hui)在上海(hai)成(cheng)(cheng)功(gong)舉辦(ban)(ban),正(zheng)式(shi)(shi)開啟了(le)我們(men)在AI領域(yu)舉辦(ban)(ban)產(chan)業(ye)峰會(hui)的(de)征程。7年(nian)后,我們(men)的(de)生成(cheng)(cheng)式(shi)(shi)AI大會(hui)再次(ci)回到(dao)上海(hai)。”他(ta)提到(dao)與生成(cheng)(cheng)式(shi)(shi)AI大會(hui)北京站(zhan)(zhan)相比(bi),上海(hai)站(zhan)(zhan)大會(hui)從產(chan)業(ye)和技術兩個(ge)維度,圍繞(rao)模型、AI Infra、應用、技術四個(ge)方向對(dui)內(nei)容(rong)進行了(le)升級(ji)。
▲智一科技聯合創始人(ren)、CEO龔倫常(chang)
龔倫常還(huan)預告了今年(nian)以及明年(nian)多(duo)個重(zhong)要會議——下(xia)月初,第四屆(jie)全球(qiu)自動駕駛峰(feng)會將在北京(jing)舉辦;2025年(nian)上海車展期間也將舉辦產業峰(feng)會;2025年(nian),AI芯片、生(sheng)成式AI等領域品牌峰(feng)會將持續舉辦。歡迎大家參會。
一、高端對話:大模型是百年一遇新生產力革命,熱聊資本市場新風向
高端對話(hua)環節以“大模型(xing)時代,資(zi)本(ben)市場的新風向”為主題(ti),由智一科技聯合(he)創始人(ren)(ren)、智車(che)芯產媒矩(ju)陣(zhen)總編輯張國仁(ren)主持(chi),靖亞資(zi)本(ben)合(he)伙人(ren)(ren)任曉(xiao)東、BV百度風投執行董事溫永騰、達晨財智晨云(yun)子基(ji)金合(he)伙人(ren)(ren)朱翔就生成(cheng)式AI投資(zi)策略、大模型(xing)市場格(ge)局、大模型(xing)商(shang)業化(hua)路徑等話(hua)題(ti)分享觀點。
張國(guo)仁談道,從(cong)社會的發展(zhan)來看,這一(yi)波生(sheng)成式AI引領的科技(ji)發展(zhan)是百年(nian)一(yi)遇的新(xin)生(sheng)產力(li)革命,無論是個人交(jiao)互陪伴,還是生(sheng)活、工作、學習都在發生(sheng)一(yi)輪新(xin)變(bian)革。但不管(guan)風向(xiang)(xiang)如何(he)改變(bian),我們對AI新(xin)技(ji)術的發展(zhan)仍保持美好向(xiang)(xiang)往。
▲智一科技聯合(he)創始(shi)人、智車芯(xin)產媒(mei)矩陣總(zong)編輯(ji)張國(guo)仁(ren)
靖亞資本(ben)合伙人任曉東認(ren)為,大模(mo)型產品分為公有(you)云和私(si)有(you)化兩類,公有(you)云由于技術開(kai)源,大廠易(yi)實(shi)現導致初創(chuang)公司機(ji)會極少(shao);在(zai)私(si)有(you)化部署(shu)上(shang),初創(chuang)公司可以根據企(qi)業場景(jing)進行(xing)定(ding)制(zhi)部署(shu),大廠在(zai)這方面優勢不明顯。另外,在(zai)AI基礎設施軟件領域(yu),創(chuang)業公司如果選擇開(kai)源則難有(you)作為,難以和大廠進行(xing)競爭。
他(ta)還強調,在(zai)AI投(tou)資中(zhong),合(he)(he)規是(shi)第一原則,要符合(he)(he)國家政策法(fa)規以(yi)及與LP簽(qian)訂的(de)協議(yi),什么領域不能投(tou)資、什么應該(gai)披露等都予以(yi)遵守(shou)。
▲靖(jing)亞(ya)資(zi)本(ben)合(he)伙人任曉東
BV百度風投(tou)執行董事溫永騰說(shuo),BV自2021年起密集(ji)關注(zhu)生成(cheng)式(shi)(shi)(shi)AI創企(qi),從(cong)最初(chu)到現在,一直認為生成(cheng)式(shi)(shi)(shi)AI會重塑(su)內容生產和分發方式(shi)(shi)(shi),Diffusion的出現讓(rang)他(ta)們在多模態(tai)領域找到了生數科技以及其他(ta)模態(tai)方向(xiang)上的優秀公(gong)司(si)。現在,AI Agent的發展(zhan)使其開始思考對智能勞動力的投(tou)資。
Sequoia Capital(紅(hong)杉資本美國)分析,去年全球(qiu)生成式AI的(de)商業化達30億美金。產業中(zhong)很難看到(dao)一(yi)個剛(gang)開始(shi)受(shou)關注(zhu)一(yi)年的(de)市(shi)場方(fang)向,在(zai)一(yi)年內就實現巨大(da)的(de)收入增長。因為大(da)模(mo)型(xing)公司(si)普遍都遵從強研發投入的(de)運營模(mo)式,融資和(he)商業化都是關鍵問題,尤其(qi)是B端商業化的(de)進展(zhan)還是需要時(shi)(shi)間和(he)耐心。但他(ta)相信實現更大(da)增長的(de)這(zhe)一(yi)天一(yi)定會來,只是時(shi)(shi)間問題。
▲BV百度(du)風投執行董事(shi)溫(wen)永騰(teng)
達晨財(cai)智(zhi)晨云子基金合伙人朱(zhu)翔談道(dao),國內大模型創企仍在追趕OpenAI的節奏,處于(yu)軍備競賽階段,且(qie)部分公司因(yin)融資問(wen)題發展較慢。
生(sheng)成(cheng)式AI領域(yu)開始(shi)涌現與OpenAI不同(tong)的(de)訓練方向,如世(shi)界(jie)模型(xing)和具身智(zhi)能。近期(qi),李飛飛和谷歌DeepMind發布了新世(shi)界(jie)模型(xing),新的(de)Scaling Law通過合成(cheng)數據推動更高效的(de)模型(xing)生(sheng)成(cheng),可以有效避免Scaling Law放緩的(de)問(wen)題。
朱翔說,具身智(zhi)能是AGI的關(guan)鍵載體,但面(mian)臨高(gao)訓練成本和硬件限制(zhi)等挑戰。他預測,具身智(zhi)能量產前可能會經(jing)歷(li)2-3年的“瓶頸(jing)期”,期間部分公(gong)司(si)將退出市(shi)場。
▲達晨財智晨云子基(ji)金合(he)伙人朱(zhu)翔
二、大模型的能力邊界在哪?音視頻能力進階,創新架構涌現
在今(jin)日大(da)會上,復旦大(da)學(xue)(xue)計算機科學(xue)(xue)技術學(xue)(xue)院教授、上海市智能(neng)信息處理實驗室副主任張(zhang)(zhang)奇深入解讀了大(da)語言(yan)模型(xing)的能(neng)力邊(bian)界及發展思考,MiniMax副總裁劉華探討了大(da)模型(xing)今(jin)年大(da)模型(xing)發展重點的變化,西湖大(da)學(xue)(xue)助理教授張(zhang)(zhang)馳(chi)分享了全場景通用的單目深度估計大(da)模型(xing),北京大(da)學(xue)(xue)(臨港)大(da)模型(xing)對齊執行中(zhong)心主任、北京阿(a)萊門科技有限公司CEO徐(xu)驊討論了模型(xing)安全。
張(zhang)奇(qi)認為,大模型發(fa)展迅速但目前仍(reng)處于“記憶階(jie)段”。大模型訓練有不同階(jie)段,從(cong)知識(shi)壓縮和表(biao)示學習、能(neng)力注入到生成式(shi)任務能(neng)力提升,訓練只需要非常少的(de)數(shu)據(ju),完(wan)成某個領(ling)域知識(shi)問答(da)僅需要60條(tiao)訓練數(shu)據(ju),但“怎么加(jia)數(shu)據(ju)”是最難的(de)問題。
▲復旦大(da)學計算機(ji)科學技術學院教授、上(shang)海(hai)市智能信息處理實驗室副主任張奇
他讓(rang)大模型(xing)做(zuo)了(le)今年(nian)高考數(shu)學(xue)題(ti)后發現,大模型(xing)在數(shu)學(xue)運算(suan)中(zhong)的計算(suan)過程(cheng)和答案選擇(ze)不一致。結(jie)果表(biao)明,模型(xing)雖能(neng)完成特定任務推(tui)理,但并非(fei)真正(zheng)獲得了(le)與人相似(si)的能(neng)力。
張奇總結大(da)模型(xing)發展(zhan)有兩條路(lu)徑(jing):一是(shi)跟隨OpenAI,以替代所有腦(nao)力(li)(li)勞動為目標(biao);二是(shi)不追求替代通(tong)用任(ren)務,只完(wan)成特定事情。最(zui)關鍵的(de)是(shi)落地場(chang)景選擇和大(da)模型(xing)能(neng)力(li)(li)邊(bian)界判斷。
對(dui)于(yu)今年大模(mo)型(xing)領域的(de)(de)變(bian)化(hua),MiniMax副總裁劉華(hua)認為,與2022-2023年基礎大模(mo)型(xing)在(zai)文(wen)本(ben)領域能力(li)(li)的(de)(de)飛速提升相比,2024年基礎大模(mo)型(xing)能力(li)(li)的(de)(de)提升更全面,體現在(zai)了文(wen)本(ben)、語音、音樂、視頻等多(duo)個領域。
他表示,目前多(duo)模(mo)態大(da)模(mo)型已賦能我國的(de)千(qian)行百(bai)業,轉化(hua)為新質生產力(li)。比(bi)如,MiniMax在國內服務了3萬多(duo)家(jia)客戶;公司的(de)視頻(pin)大(da)模(mo)型受到(dao)180個(ge)國家(jia)AI創業者的(de)喜愛,并在文化(hua)創意、電(dian)商直播等領域得(de)到(dao)了成熟應用。
▲MiniMax副總裁劉華(hua)
他判(pan)斷,多(duo)模(mo)(mo)態大(da)(da)模(mo)(mo)型(xing)仍處于(yu)快(kuai)速(su)發(fa)展(zhan)階(jie)段,尚(shang)未看到模(mo)(mo)型(xing)能力(li)的上限(xian)。面(mian)向未來,MiniMax將繼續快(kuai)速(su)迭代自(zi)研的多(duo)模(mo)(mo)態大(da)(da)模(mo)(mo)型(xing),并聚焦于(yu)降低模(mo)(mo)型(xing)錯誤率、實現無限(xian)長的輸入和(he)輸出、推動(dong)多(duo)模(mo)(mo)態更加自(zi)然融(rong)合這(zhe)3個(ge)方面(mian)。
西湖大(da)(da)學助理(li)教授張馳分享了全場(chang)景(jing)通用的單目深(shen)度(du)估計大(da)(da)模(mo)(mo)型(xing),在解決(jue)傳(chuan)統(tong)單目深(shen)度(du)估計方(fang)(fang)式(shi)痛點方(fang)(fang)面(mian)的思考。傳(chuan)統(tong)單目深(shen)度(du)估計方(fang)(fang)式(shi)依賴(lai)激(ji)光雷(lei)達等專(zhuan)業設備,數(shu)據(ju)采集(ji)難度(du)大(da)(da)、成本高(gao),導致數(shu)據(ju)少且分散。基于AI大(da)(da)模(mo)(mo)型(xing),其可以更高(gao)效地利用大(da)(da)數(shu)據(ju)訓練(lian)、視(shi)覺大(da)(da)模(mo)(mo)型(xing)先驗(yan)和訓練(lian)優化范式(shi),從而追(zhui)求全場(chang)景(jing)泛化。
▲西湖大學助理教(jiao)授張馳
同(tong)時,他(ta)提到(dao)Zero-shot單(dan)目深度估(gu)計方式勝在靈活易搭(da)載,可應(ying)用于機器人、自動駕駛、AI文生3D、AI圖生3D等領(ling)域(yu)。
西(xi)湖(hu)心辰CEO、西(xi)湖(hu)大學(xue)(xue)深(shen)度(du)學(xue)(xue)習實驗室成果轉(zhuan)化(hua)負(fu)責人(ren)醒辰介紹了西(xi)湖(hu)心辰在AI情(qing)(qing)(qing)感(gan)(gan)理解與多(duo)模(mo)(mo)態長程對(dui)話領(ling)域的(de)(de)(de)探索與成果。他(ta)們團隊自(zi)創立以(yi)來(lai)便致力于研(yan)發(fa)超擬人(ren)的(de)(de)(de)情(qing)(qing)(qing)商(shang)型(xing)(xing)大模(mo)(mo)型(xing)(xing),以(yi)適配各種涉及復雜情(qing)(qing)(qing)感(gan)(gan)的(de)(de)(de)人(ren)機互動場景。旗下自(zi)研(yan)的(de)(de)(de)多(duo)模(mo)(mo)態通(tong)用基座(zuo)大模(mo)(mo)型(xing)(xing)“西(xi)湖(hu)大模(mo)(mo)型(xing)(xing)”采(cai)用深(shen)度(du)對(dui)齊技術(shu)與多(duo)模(mo)(mo)態情(qing)(qing)(qing)感(gan)(gan)識別技術(shu),增強了AI的(de)(de)(de)情(qing)(qing)(qing)感(gan)(gan)識別與需(xu)求理解能力,讓(rang)人(ren)機長程對(dui)話成為現實。
▲西湖心辰CEO、西湖大學(xue)深度學(xue)習實驗室成果轉化(hua)負責人醒辰
今(jin)年該公司推出的國(guo)內首(shou)個端到(dao)端通用(yong)語(yu)音(yin)大模型心辰(chen)Lingo,補(bu)足了(le)語(yu)音(yin)交互能力,讓AI更(geng)像人、懂人心、說人話。這些“超擬(ni)人”技(ji)術已被應用(yong)于心辰(chen)旗下的AI心理咨詢(xun)陪(pei)伴(ban)產(chan)品“聊(liao)會(hui)小天(tian)”。
大模型(xing)創新技術的(de)演進也在加速。RockAI CTO楊華分享了非Transformer架構(gou)(gou)大模型(xing)Yan在端側的(de)實踐。Transformer架構(gou)(gou)雖在大模型(xing)領域取得巨大成功,但人們也開始思考是否過度依賴它(ta)以(yi)及現有大模型(xing)形態(tai)的(de)可持續性。
▲RockAI CTO楊(yang)華
Yan架構(gou)包含類腦(nao)激活機制(zhi)和(he)MCSD,前者參照人腦(nao)神經(jing)網(wang)絡,后者在(zai)訓(xun)練時(shi)可充分利用GPU計算能力(li),降低功耗。基于此架構(gou)的多模(mo)態(tai)大(da)模(mo)型(xing)在(zai)手機、電腦(nao)、機器人、無人機、樹莓派等端側設備(bei)上均可部署(shu),且模(mo)型(xing)具有強大(da)的指(zhi)令跟隨能力(li)、多應用場景。自主學習、群(qun)體(ti)智能也是RockAI在(zai)大(da)模(mo)型(xing)領域的思(si)考和(he)探索。
AI應用的安全至關重要(yao)。北京大(da)學(臨港)大(da)模型對(dui)(dui)齊執(zhi)行中心主任、北京阿萊門(men)科技有限公司CEO徐驊分(fen)析了(le)大(da)模型安全與(yu)實用性的矛(mao)盾,分(fen)享(xiang)了(le)多模態對(dui)(dui)齊的探索。
▲北(bei)京(jing)大學(臨港(gang))大模型對齊執行中心主任、北(bei)京(jing)阿萊門(men)科技有限公司CEO徐驊(hua)
徐驊談(tan)道(dao),過度(du)追(zhui)求安(an)全(quan)(quan)可能犧牲(sheng)實用性。為此,他提(ti)出了價值(zhi)對(dui)齊(qi)方案(an),設(she)定“3H原則”(Helpful、Honest、Harmless)為目標(biao),確(que)保模(mo)型符合人(ren)類(lei)價值(zhi)觀。他強調,Aligner對(dui)齊(qi)器(qi)方案(an)在(zai)多模(mo)態場景中平(ping)衡(heng)安(an)全(quan)(quan)與實用性,下一步將聚焦(jiao)提(ti)升(sheng)模(mo)型在(zai)醫(yi)療、教育等(deng)領域的(de)適(shi)配能力,突破人(ren)類(lei)專家上限,推動AGI發展。
三、AI落地拐點時刻,智能體、3D生成、具身智能成焦點
大模(mo)型的(de)落地應用(yong)是2024年的(de)熱點話題(ti),具身智(zhi)能、3D生成、AI智(zhi)能體、音樂生成等(deng)創新玩法層出(chu)不窮。
1、AI Agent已實現具體算法落地,商務場景應用價值凸顯
AI Agent的多模態(tai)感(gan)知(zhi)(zhi)、記憶增強(qiang)和(he)推(tui)理能(neng)力(li)正逐(zhu)步提(ti)(ti)升(sheng)(sheng),聯匯(hui)科技CEO兼首(shou)席(xi)科學家趙天成談道,行(xing)業正在從“LLM-First”轉向更加符合人類認知(zhi)(zhi)的“Agent-First”架構。通過新算法,AI Agent能(neng)夠(gou)在視覺信息不(bu)清晰時動(dong)態(tai)放大(da)畫面并進行(xing)信息分析(xi),從而提(ti)(ti)升(sheng)(sheng)多模態(tai)感(gan)知(zhi)(zhi)能(neng)力(li),使7b模型推(tui)理精度可(ke)以超越(yue)gpt-4o大(da)模型,達到接近人類基準的水(shui)平(ping)。
▲聯匯科技CEO兼首(shou)席科學家趙天成
在推理(li)、記(ji)憶和感知三個核心場景中(zhong),AI Agent已經實現了(le)具體的算法落地。聯匯科(ke)技推出了(le)全面開源(yuan)的Agent框架,通(tong)過構建標準化的基本框架支持(chi)AI Agent持(chi)續(xu)優化。
WeMeet薈(hui)(hui)神基于(yu)大(da)模(mo)型構建了多智能體商(shang)務互聯平臺,WeMeet薈(hui)(hui)神創始人顧學斌提到AI在商(shang)務場景應用具有多方面重要價值。
▲WeMeet薈神創始人(ren)顧學斌
例(li)如為商務人(ren)士配備的AI助(zhu)理;在(zai)不同語言環境下為商務活(huo)動提供支(zhi)持幫助(zhu)人(ren)們跨越語言障礙進(jin)行交流;解決商機生成的問(wen)題,讓潛在(zai)買家和(he)產業(ye)賣家之間的聯系更加緊密(mi);還可(ke)以快速生成會議應(ying)(ying)用(yong)等。最后(hou),他還強(qiang)調了安(an)全(quan)問(wen)題,要做好生成式AI服(fu)務備案,確保商務場景下AI應(ying)(ying)用(yong)穩定、可(ke)靠地發展。
2、端到端具身多模態大模型,瞄準機器人泛化
銀河(he)通用機(ji)器人(ren)(ren)聯創(chuang)合伙人(ren)(ren)、大(da)(da)模(mo)(mo)型(xing)負責(ze)人(ren)(ren),北京智(zhi)源人(ren)(ren)工(gong)智(zhi)能(neng)研究院具(ju)身智(zhi)能(neng)PI張直(zhi)政(zheng)博士談(tan)道,具(ju)身智(zhi)能(neng)從(cong)模(mo)(mo)型(xing)到(dao)(dao)產品再(zai)到(dao)(dao)新質生產力,僅關(guan)注“任務自動(dong)(dong)化”還不(bu)夠,銀河(he)通用正在(zai)追求的是“流程自動(dong)(dong)化”。而實(shi)現(xian)這一點的關(guan)鍵在(zai)于利用大(da)(da)規模(mo)(mo)仿真(zhen)合成數據驅動(dong)(dong)機(ji)器人(ren)(ren)從(cong)底(di)層(ceng)向上實(shi)現(xian)環(huan)境感知與(yu)動(dong)(dong)作(zuo)技能(neng)學習能(neng)力的突破。從(cong)將3D小(xiao)模(mo)(mo)型(xing)與(yu)動(dong)(dong)作(zuo)大(da)(da)模(mo)(mo)型(xing)結合的大(da)(da)模(mo)(mo)型(xing)系統(tong)到(dao)(dao)端到(dao)(dao)端具(ju)身多模(mo)(mo)態大(da)(da)模(mo)(mo)型(xing),銀河(he)通用全面布(bu)局(ju),重點提(ti)升機(ji)器人(ren)(ren)在(zai)真(zhen)實(shi)場景中的泛化工(gong)作(zuo)能(neng)力。
▲銀河(he)通用機器人(ren)聯創合伙人(ren)、大模(mo)型負責人(ren),北(bei)京(jing)智(zhi)源人(ren)工(gong)智(zhi)能(neng)研究院具身(shen)智(zhi)能(neng)PI張直政博(bo)士(shi)
談及未來,他認(ren)為具身智(zhi)能(neng)的發(fa)展方向是“機器人(ren)大(da)腦、小腦與硬件本體(ti)”協(xie)同進化,重(zhong)點關注其在“流程(cheng)自(zi)動化”中的泛化性突破(po),從而推(tui)(tui)動機器人(ren)在推(tui)(tui)理與執行任(ren)務(wu)中更加高(gao)效、智(zhi)能(neng)地完成更復(fu)雜(za)的移動操作任(ren)務(wu)。
3、3D、音樂生成到達爆發節點,展現多場景商業化應用潛力
在(zai)3D生成方面,VAST CTO梁(liang)鼎分析了在(zai)大模(mo)型加持下,3D AIGC的(de)發(fa)(fa)(fa)展(zhan)(zhan)與(yu)應用(yong)。在(zai)他看來,3D和其他多模(mo)態大模(mo)型發(fa)(fa)(fa)展(zhan)(zhan)歷(li)程(cheng)類似,都會經(jing)歷(li)從技(ji)術積累(lei)到(dao)某個時間點(dian)爆發(fa)(fa)(fa)的(de)過程(cheng),3D目前已經(jing)到(dao)了爆發(fa)(fa)(fa)節點(dian)。
▲VAST CTO梁鼎
他認為3D AIGC在多個場景都能進行商業化(hua)應(ying)用,如在傳(chuan)統游戲影(ying)視(shi)動畫中實現(xian)降本(ben)增效及帶(dai)來新玩(wan)法;工業中能實現(xian)3D打(da)印定制化(hua)生產;社交直播電商等元宇宙領域也可應(ying)用,還能用于定制玩(wan)具及與教(jiao)育結合。
2024年是AIGC音樂爆發元年,趣丸(wan)科(ke)技(ji)副總裁賈朔認為,人工智能的創新發展大大降(jiang)低了音樂創作(zuo)門檻,國產AI音樂的歌(ge)聲自然度更(geng)是突破人耳(er)識(shi)別(bie)閾值(zhi),效果比肩(jian)美國頭部模(mo)型。他分享(xiang)了人與音樂的AI交互形式的變化,從文生音樂,到三鍵成(cheng)(cheng)曲(qu)(qu),再到哼唱成(cheng)(cheng)曲(qu)(qu)。今年6月份,天譜樂全球首發多模(mo)態音樂生成(cheng)(cheng)模(mo)型,支持視頻(pin)成(cheng)(cheng)曲(qu)(qu)和圖(tu)片成(cheng)(cheng)曲(qu)(qu)功(gong)能,一鍵根據用戶視頻(pin)或(huo)圖(tu)片生成(cheng)(cheng)一首完(wan)整的音樂。
▲趣丸科技副總裁賈朔
此外,賈朔在(zai)現場首次預告了天譜樂(le)(le)的(de)(de)新功能——MidiRender,模型如(ru)同一個精準、可控(kong)音(yin)(yin)樂(le)(le)版的(de)(de)Control Net,可依據原創(chuang)音(yin)(yin)樂(le)(le)片段(duan)填充(chong)歌(ge)詞、完成編曲。
4、法律、醫療垂直賽道模型落地,螞蟻加速AI商業化
華院(yuan)計算(suan)大(da)模(mo)型(xing)和知(zhi)識推理算(suan)法(fa)負責人蔡華拆解了(le)華院(yuan)法(fa)律(lv)大(da)模(mo)型(xing)的(de)(de)底層技術架構及(ji)其5大(da)主要(yao)落地場景(jing)。一(yi)般的(de)(de)通(tong)用大(da)模(mo)型(xing)不足(zu)以覆蓋法(fa)律(lv)領域的(de)(de)需(xu)求(qiu),為(wei)了(le)讓(rang)大(da)模(mo)型(xing)更適(shi)用于法(fa)律(lv)專(zhuan)業領域,該公(gong)司收集了(le)多(duo)源異構知(zhi)識數(shu)據,包括6大(da)類型(xing)的(de)(de)基礎知(zhi)識,并以法(fa)條和案件為(wei)中心節點搭(da)建關系圖譜。
▲華(hua)院計算大模型和(he)知識推理算法(fa)負責人(ren)蔡華(hua)
目前,其應用(yong)場(chang)景主要(yao)分為法(fa)治(zhi)業務(wu)和(he)法(fa)治(zhi)決(jue)策兩大板(ban)塊(kuai),具體有類案推薦(jian)、法(fa)條推薦(jian)、判決(jue)文書生成、普法(fa)反詐宣(xuan)傳數(shu)字(zi)人一(yi)體機和(he)小雪人法(fa)律(lv)智(zhi)能(neng)助手等(deng)。
騰訊優圖實(shi)驗室(shi)天衍研究中心負責人(ren)、專家研究員(yuan)吳賢提到了目前基(ji)于醫療大(da)模型(xing)的十大(da)應用場景,包括科(ke)室(shi)導診、醫生(sheng)推薦、預問診、醫患(huan)對話領域的病情追問、病例(li)生(sheng)成(cheng)、出(chu)院(yuan)小結生(sheng)成(cheng)、醫藥(yao)知識回(hui)答、臨床執業醫師(shi)考試、藥(yao)企內部(bu)效(xiao)率提升(sheng)以(yi)及(ji)醫學(xue)科(ke)普(pu)文章生(sheng)成(cheng)。
▲騰訊優圖(tu)實驗室天衍研究中心負(fu)責人、專家(jia)研究員吳賢
他還介紹了在減輕大模型(xing)幻覺,語言不(bu)均衡問題(ti),大模型(xing)評測問題(ti),以(yi)及多(duo)語言,多(duo)模態醫學任務上的最新研究(jiu)進展。
螞蟻(yi)集團基礎智能技術(shu)部總監趙耀分(fen)享了大(da)語言(yan)模型(xing)在業務中(zhong)的應(ying)用(yong)以及(ji)如何通過(guo)技術(shu)手段解決推理(li)效率、可(ke)靠性和可(ke)用(yong)性問題。螞蟻(yi)集團通過(guo)知(zhi)識蒸餾和知(zhi)識遷(qian)移(yi),平衡了推理(li)效率與精(jing)度(du),其中(zhong)蒸餾將大(da)模型(xing)知(zhi)識轉移(yi)至小模型(xing),減少(shao)計算量并(bing)保(bao)持精(jing)度(du);知(zhi)識遷(qian)移(yi)幫助模型(xing)快速適應(ying)不同場景,提(ti)升應(ying)用(yong)效果。
▲螞蟻集團基礎智能技術部總監趙耀
此外,螞蟻集團還通過壓縮(suo)和剪(jian)枝技(ji)術降低成本與能耗,提升計算效率(lv),減少硬件投入。公司目標是推動AI商業化,普及應用。
結語:首次落地上海,共探中國生成式AI產業脈搏
除(chu)上述嘉賓外,還有6位青年(nian)學者和技(ji)(ji)術專家在下午的端(duan)側(ce)生成式(shi)AI技(ji)(ji)術研討會上進行了干貨分享和圓桌(zhuo)Panel討論。
繼連續在北京舉辦兩(liang)場(chang)聚焦生成式(shi)AI的高規格創新峰會,今天,智(zhi)東西與智(zhi)猩猩首(shou)次落地上(shang)海聯(lian)合舉辦聚焦生成式(shi)AI領域的行業盛(sheng)會,希望通過豐富的議程(cheng)設置(zhi)、多元化的嘉賓經驗分享與觀點碰(peng)撞,讓大家不虛此行。
明日精彩繼續,25位產學研代(dai)表(biao)將圍(wei)繞AI Infra、AI視頻生(sheng)成、具身智能等議題,共探中國生(sheng)成式(shi)AI產業(ye)的(de)脈(mo)搏。