智東西(公眾號:zhidxcom)
編輯?| ?GTIC

智(zhi)東西4月10日報道,在剛剛落幕(mu)的(de)GTIC 2023中國(guo)(guo)AIGC創新峰會上,中國(guo)(guo)科學院自動化研(yan)究所研(yan)究員(yuan)&博士(shi)生導師、武漢人工智(zhi)能(neng)研(yan)究院副院長張(zhang)家俊進(jin)行了主題(ti)為(wei)《紫(zi)東太初(chu)(chu)大(da)模型——認識世界,理解世界》,基(ji)于“紫(zi)東太初(chu)(chu)”大(da)模型,他解讀了其是如(ru)何整合資(zi)源、并(bing)進(jin)一步探索通用人工智(zhi)能(neng)產業化路徑(jing)的(de)技術奧秘。

張家(jia)俊談(tan)道,深度學習預訓練大模(mo)(mo)型效果(guo)不斷提升。當下(xia),通(tong)過自監(jian)督學習條件下(xia)“大數據+大模(mo)(mo)型”方式,多模(mo)(mo)態大模(mo)(mo)型初現“多專多能(neng)(neng)”,在小樣本學習、自然語言(yan)問(wen)答、跨模(mo)(mo)態生成等方面快(kuai)速進步。大模(mo)(mo)型帶動了創新潮,但其能(neng)(neng)耗和(he)成本極高,認知能(neng)(neng)力與(yu)人(ren)相比仍(reng)有很大差距。

“紫東(dong)太(tai)初(chu)”是中科院自動化(hua)所團隊推出(chu)的(de)全球(qiu)首個(ge)千億參(can)數多(duo)模(mo)(mo)(mo)態(tai)(tai)大模(mo)(mo)(mo)型。張家(jia)俊稱,這一模(mo)(mo)(mo)型支持Token級別(bie)、模(mo)(mo)(mo)態(tai)(tai)級別(bie)與樣(yang)本(ben)級別(bie)的(de)多(duo)任務(wu)自監督學習(xi),多(duo)模(mo)(mo)(mo)態(tai)(tai)弱關聯數據在512卡訓練128天,同時實現模(mo)(mo)(mo)態(tai)(tai)理解(jie)與模(mo)(mo)(mo)態(tai)(tai)生(sheng)成(cheng)統一建(jian)模(mo)(mo)(mo)。“紫東(dong)太(tai)初(chu)”支持以(yi)文搜圖(tu)(tu)、以(yi)圖(tu)(tu)生(sheng)音、以(yi)音生(sheng)圖(tu)(tu)等跨模(mo)(mo)(mo)態(tai)(tai)檢索與生(sheng)成(cheng)實例,比如輸入(ru)一個(ge)真(zhen)實圖(tu)(tu)像,紫東(dong)太(tai)初(chu)就能生(sheng)成(cheng)個(ge)性(xing)化(hua)的(de)3D形象。

目前,團隊已推(tui)出了紫東太(tai)初(chu)(chu)開放服務平(ping)臺1.0、紫東太(tai)初(chu)(chu)·洛神1.0 AIGC智能(neng)生成平(ping)臺,并整合產學研用各(ge)方資(zi)源(yuan)(yuan)搭建人工(gong)智能(neng)開源(yuan)(yuan)開放生態,探索通用人工(gong)智能(neng)產業化(hua)路徑。

以下為張家俊的演講實錄:

大家上午好(hao)!我是(shi)自動化所張家俊(jun)。

首(shou)先解釋一下(xia),我(wo)(wo)個(ge)(ge)人從事的是自然語言處理(li)和機器翻譯相關(guan)的研究。大(da)(da)模型來(lai)了之后,實際上從2020年(nian)GPT-3出來(lai)之后,我(wo)(wo)就參與了自動(dong)化所發起的多模態(tai)大(da)(da)模型項(xiang)目(mu),我(wo)(wo)主要負責語言這一塊。今天(tian)我(wo)(wo)作為一個(ge)(ge)參與者,跟(gen)大(da)(da)家分(fen)享一下(xia)自動(dong)化所大(da)(da)模型相關(guan)的情況。

一、大模型正在從單模態有監督,邁向多模態自監督學習

大模(mo)型(xing)出現之前,基本(ben)上模(mo)型(xing)的(de)能(neng)力(li)都是單一(yi)的(de),而(er)且需(xu)要依賴于大量的(de)標注數據(ju),而(er)且泛化能(neng)力(li)非常差(cha)。

大模(mo)型來了之后,基于(yu)其大的(de)(de)數據、大的(de)(de)模(mo)型,很多(duo)(duo)種比(bi)如自然語言處理、語音識別、計(ji)算機視覺等任務得到了非(fei)常(chang)大的(de)(de)改善。我們現(xian)在也(ye)會發現(xian),模(mo)型參數量也(ye)在不(bu)(bu)斷(duan)提升。我們不(bu)(bu)知道(dao)GPT-4是(shi)多(duo)(duo)少參數量,但(dan)肯定是(shi)千億(yi)以上,不(bu)(bu)會比(bi)ChatGPT還少。

不管是圖像還是文(wen)本,單一(yi)模(mo)(mo)態(tai)大模(mo)(mo)型(xing)采用的是非(fei)常(chang)好、非(fei)常(chang)自然(ran)的訓練目標(biao),也就是自監督訓練,圖像我們(men)可(ke)以(yi)通過重構(gou)方(fang)(fang)(fang)式,文(wen)本可(ke)以(yi)通過下一(yi)個(ge)單詞預(yu)測的方(fang)(fang)(fang)式。而現(xian)實(shi)世界是一(yi)個(ge)多模(mo)(mo)態(tai)環境,在多模(mo)(mo)態(tai)環境當中又該(gai)如何去進行訓練或者(zhe)設(she)計它的目標(biao)?另一(yi)方(fang)(fang)(fang)面,多模(mo)(mo)態(tai)環境下如何從之前的“一(yi)專(zhuan)一(yi)能(neng)”方(fang)(fang)(fang)式過渡到“多專(zhuan)多能(neng)”的模(mo)(mo)型(xing)或者(zhe)框架,現(xian)在實(shi)際上很(hen)多認(ren)知能(neng)力(li)與我們(men)期(qi)待的還很(hen)遙遠。

正(zheng)如(ru)剛(gang)才提(ti)到(dao)的,一(yi)方面從(cong)文本到(dao)多(duo)(duo)模(mo)態(tai)實際(ji)有(you)很多(duo)(duo)挑戰,但是我們生活在(zai)這(zhe)樣一(yi)個多(duo)(duo)模(mo)態(tai)的環境(jing)當中,所以我們有(you)必要去進行探索。

中科院張家俊:多模態大模型初現“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

因(yin)此,當2020年GPT-3發布之(zhi)后,我(wo)們就(jiu)認為(wei)多模態必將(jiang)是一個(ge)未來的方向,我(wo)們現在也看(kan)到GPT-4已經可以處理圖文輸(shu)(shu)入(ru)(ru)和理解輸(shu)(shu)入(ru)(ru)。

二、具備部分類腦特性,初現“多專多能”

我(wo)(wo)們(men)當時在(zai)做的(de)(de)時候,就一直在(zai)考(kao)慮應(ying)該如(ru)何設(she)計,將不同模(mo)(mo)(mo)(mo)態(tai)(tai)放在(zai)一個(ge)模(mo)(mo)(mo)(mo)型(xing)下面(mian)進行(xing)學習。我(wo)(wo)們(men)提出(chu)了三個(ge)層級(ji)的(de)(de)多(duo)(duo)模(mo)(mo)(mo)(mo)態(tai)(tai)訓練方式(shi)(shi),比如(ru)從詞源token級(ji)別(bie)(bie)、模(mo)(mo)(mo)(mo)態(tai)(tai)級(ji)別(bie)(bie)與樣(yang)本級(ji)別(bie)(bie),我(wo)(wo)們(men)也提出(chu)了語義(yi)弱關聯多(duo)(duo)模(mo)(mo)(mo)(mo)態(tai)(tai)學習方式(shi)(shi),這樣(yang)就可以進行(xing)多(duo)(duo)模(mo)(mo)(mo)(mo)態(tai)(tai)理解(jie)和跨模(mo)(mo)(mo)(mo)態(tai)(tai)相互生成(cheng)(cheng),進而完成(cheng)(cheng)各(ge)種(zhong)各(ge)樣(yang)跨模(mo)(mo)(mo)(mo)態(tai)(tai)的(de)(de)任(ren)務,多(duo)(duo)模(mo)(mo)(mo)(mo)態(tai)(tai)的(de)(de)理解(jie)、分類,跨模(mo)(mo)(mo)(mo)態(tai)(tai)的(de)(de)檢索,多(duo)(duo)模(mo)(mo)(mo)(mo)態(tai)(tai)之間的(de)(de)相互轉(zhuan)換生成(cheng)(cheng)。

這些(xie)是可以完成的功(gong)能,那(nei)么具體來(lai)說,我們如何(he)去實現的?

右下角可(ke)以看到,它不是像(xiang)GPT這種的單一解碼器(qi)(Decorder),我(wo)們發現如果你的數據(ju)特(te)別多、模(mo)型特(te)別大的時(shi)候,像(xiang)GPT-3.5或(huo)者(zhe)GPT-4可(ke)以對文本數據(ju)和圖像(xiang)數據(ju)進(jin)行(xing)統一融合(he)。

中科院張家俊:多模態大模型初現“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

但是(shi)當模(mo)(mo)型沒有那(nei)么大,我們可能考慮模(mo)(mo)態之間融合時(shi)就需要設(she)計不同的策略(lve)。

所以當時(shi)我(wo)們提出(chu)了對(dui)不(bu)同(tong)的模(mo)(mo)(mo)態(tai)進行分別(bie)編碼,同(tong)時(shi)在上(shang)一(yi)層(ceng)設計一(yi)個(ge)跨模(mo)(mo)(mo)態(tai)編碼。其余各(ge)自的模(mo)(mo)(mo)態(tai)比如文本模(mo)(mo)(mo)態(tai)、圖像模(mo)(mo)(mo)態(tai)、語言模(mo)(mo)(mo)態(tai)分別(bie)有一(yi)個(ge)解(jie)碼器。

這樣的模(mo)式看起(qi)來像是(shi)(shi)一(yi)個(ge)(ge)集成模(mo)型,但是(shi)(shi)它有(you)一(yi)個(ge)(ge)非(fei)常好的地方(fang)是(shi)(shi)你(ni)可以通過不(bu)同的模(mo)態進行(xing)分(fen)(fen)別優化(hua),且不(bu)影響其他模(mo)態的功能。我(wo)們針對此做了(le)一(yi)些(xie)優化(hua),語言方(fang)面,我(wo)們可以直接優化(hua)語言底部的解(jie)碼器,不(bu)影響文本(ben)和圖像的分(fen)(fen)辨(bian)結(jie)果。

多(duo)模態的(de)通用模型針對(dui)任何任務的(de)處理(li)(li)方式(shi)都相同(tong),但實際(ji)上不(bu)同(tong)的(de)任務應該有針對(dui)性地去處理(li)(li)。因此我們(men)(men)提(ti)出了任務感知的(de)訓練方式(shi)。如果大家用過ChatGPT就(jiu)會發現(xian),不(bu)同(tong)的(de)提(ti)示會產生不(bu)同(tong)的(de)結果。那么,我們(men)(men)能(neng)不(bu)能(neng)針對(dui)不(bu)同(tong)的(de)樣(yang)本生成合適這個樣(yang)本的(de)提(ti)示?所以我們(men)(men)生成一(yi)個樣(yang)本級的(de)提(ti)示學習方式(shi),可以面向特(te)定樣(yang)本生成適應這個樣(yang)本的(de)提(ti)示。

在(zai)語音(yin)層面(mian),我們可(ke)以(yi)只優化語音(yin),例(li)如(ru)將語種識(shi)別、端點檢測各種語音(yin)相關(guan)的功能融合在(zai)一個任務下,同時語音(yin)的優化又不影(ying)響文本、圖像,優化之后可(ke)以(yi)得(de)到語音(yin)方(fang)面(mian)非常好的結果。

在視(shi)覺(jue)方面(mian)(mian)也是(shi)一樣。例(li)如針對(dui)視(shi)覺(jue)如何進(jin)行無監督(du)學(xue)習,我(wo)們(men)提出了視(shi)覺(jue)掩(yan)(yan)碼(ma)自監督(du)模型,一方面(mian)(mian)是(shi)通過注意(yi)力動態掩(yan)(yan)碼(ma)保留關鍵(jian)區(qu)域,第二步(bu)通過解碼(ma)恢復掩(yan)(yan)碼(ma),和語言里面(mian)(mian)的(de)BERT非常相似(si)。

中科院張家俊:多模態大模型初現“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

經(jing)過這(zhe)樣簡單(dan)的(de)(de)操作之后,我們(men)就可以在(zai)很多(duo)任務(wu)(wu)上得到(dao)最好的(de)(de)性能(neng),比如在(zai)目(mu)標檢測和實(shi)例分割上,就可以超(chao)越任務(wu)(wu)特定(ding)的(de)(de)預訓練模(mo)型精度。

在(zai)不同的(de)模(mo)態仿真(zhen)訓練中(zhong),當(dang)模(mo)型(xing)特別大(da)時,有(you)模(mo)態信(xin)息,還有(you)大(da)量參數,如何保(bao)證(zheng)它快速、穩定地學(xue)習是非(fei)常關鍵的(de)因素。因此,我們在(zai)這(zhe)種學(xue)習過程中(zhong)提(ti)出了(le)一些方案(an),例如基(ji)于空間通(tong)道(dao)稀(xi)疏化的(de)多模(mo)態大(da)模(mo)型(xing),這(zhe)種方案(an)可以將空間信(xin)息和通(tong)道(dao)信(xin)息分割開來,就(jiu)可以得(de)到(dao)優(you)化20%到(dao)35%的(de)浮點運(yun)算。

此外,在穩定(ding)性方(fang)面,我(wo)們(men)在訓(xun)練時發現當批處理變得特別(bie)大之(zhi)后,學(xue)習(xi)率(lv)的(de)線性尺度原則就會失效。針(zhen)對這個問題,我(wo)們(men)提(ti)出了周期(qi)性矩(ju)衰減優化的(de)方(fang)案。學(xue)習(xi)率(lv)通過逐層動態調整(zheng),周期(qi)性清零梯度信息(xi),擺脫歷史梯度影響,從而加速(su)網(wang)絡快速(su)收斂(lian)。收斂(lian)的(de)速(su)度相比(bi)之(zhi)前能提(ti)升(sheng)30倍。

這樣的(de)(de)方法一方面可(ke)以保(bao)證(zheng)訓練(lian)的(de)(de)快(kuai)速,另一方面保(bao)證(zheng)訓練(lian)的(de)(de)穩定性。

很多時候,當我們在國產化的平臺上訓練,比如基于昇騰多維混合并行的訓練,很多時候我們會(hui)和(he)昇(sheng)思MindSpore共同研發,因為2021年(nian),MindSpore的很(hen)多功能沒有十(shi)分(fen)完(wan)善,在其對大模型的較好(hao)支持下,我們在訓練時可以(yi)在這個基礎上去不斷優(you)化算子(zi)。

同時(shi),大模型在預訓練(lian)階段學(xue)習到(dao)了很(hen)多先(xian)驗的知(zhi)識,這些先(xian)驗的知(zhi)識對于(yu)長尾(wei)現(xian)象有很(hen)多輔助(zhu)作用,比如可以將(jiang)其遷移(yi)到(dao)長尾(wei)數據集(ji),可以更容易(yi)學(xue)習尾(wei)部(bu)的圖像類別特征表述(shu)。

經過文本、語(yu)音、視(shi)覺上(shang)的(de)針(zhen)對性優(you)化之后(hou),我們(men)很多(duo)千億(yi)三模(mo)(mo)態大模(mo)(mo)型在跨模(mo)(mo)態檢索、視(shi)覺問(wen)答、圖像語(yu)義描述等上(shang)實現(xian)非常好的(de)性能,這些任務在2021年基本達到了State-of-the-art(最高水準(zhun)的(de))。

例(li)如在2021年,基(ji)于(yu)預(yu)訓(xun)練(lian)模型(xing)的視(shi)覺描(miao)述競賽(sai)中,紫東(dong)太初大(da)模型(xing)得(de)到第一名(ming),并且在大(da)規模視(shi)頻場景(jing)理解比賽(sai)中也獲得(de)第一名(ming)。

下圖是一些案例,我(wo)們訓練多模態大模型之后會(hui)產(chan)生一個什(shen)么樣的結果。

中科院張家俊:多模態大模型初現“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

剛才我(wo)(wo)(wo)們(men)(men)(men)提到(dao)不僅(jin)有文本(ben)、圖(tu)像(xiang),我(wo)(wo)(wo)們(men)(men)(men)知(zhi)道目前大多(duo)數呈現(xian)出來(lai)的(de)是(shi)文生(sheng)(sheng)圖(tu)或(huo)(huo)圖(tu)片、文本(ben)之間(jian)的(de)模型,那么我(wo)(wo)(wo)們(men)(men)(men)把語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)加進去,可以直(zhi)(zhi)接(jie)(jie)讓沒(mei)有聲音(yin)(yin)(yin)的(de)圖(tu)片和視頻(pin)生(sheng)(sheng)成(cheng)語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)播(bo)(bo)報。例如(ru),一(yi)個沒(mei)有聲音(yin)(yin)(yin)的(de)圖(tu)像(xiang)或(huo)(huo)者視頻(pin)可以直(zhi)(zhi)接(jie)(jie)生(sheng)(sheng)成(cheng)一(yi)鍵(jian)語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)播(bo)(bo)報。這看起(qi)來(lai)似乎是(shi)直(zhi)(zhi)接(jie)(jie)從(cong)圖(tu)像(xiang)到(dao)文本(ben)再到(dao)語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin),實際上我(wo)(wo)(wo)們(men)(men)(men)跳過了文本(ben)環節,直(zhi)(zhi)接(jie)(jie)由圖(tu)像(xiang)或(huo)(huo)者視頻(pin)生(sheng)(sheng)成(cheng)語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin),也可以由語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)生(sheng)(sheng)成(cheng)圖(tu)像(xiang),或(huo)(huo)者由語(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)生(sheng)(sheng)成(cheng)視頻(pin)。

以(yi)(yi)文生圖為例,很多模型都有這樣的能力,這里簡單(dan)展示一下(xia)我們也(ye)有這樣的能力,可以(yi)(yi)生成(cheng)風格(ge)多變(bian)的文生圖能力。

我(wo)們從2020年10月(yue)開始做這件(jian)事(shi)情,2021年7月(yue)發(fa)布了第一(yi)版多模態大(da)(da)模型。2022年,“紫東太初”獲得大(da)(da)規模預訓練模型優秀應用案例獎(jiang),中國算力(li)大(da)(da)會先鋒案例獎(jiang),以及世(shi)界人工智能大(da)(da)會SAIL獎(jiang),也是世(shi)界人工智能大(da)(da)會的(de)最高(gao)獎(jiang)。

三、打造開放服務平臺1.0,一鍵完成采集、訓練、部署

剛才(cai)介紹了多模(mo)(mo)態大(da)模(mo)(mo)型的(de)(de)研(yan)制(zhi)過程和(he)各(ge)個(ge)模(mo)(mo)態針(zhen)對性的(de)(de)優化(hua),以及優化(hua)之后(hou)能達到(dao)的(de)(de)水平。當(dang)達到(dao)這(zhe)(zhe)個(ge)水平之后(hou),我們希望基于(yu)此開發(fa)一套服務平臺(tai),讓(rang)這(zhe)(zhe)樣的(de)(de)模(mo)(mo)型能夠(gou)服務于(yu)千家萬戶,讓(rang)多模(mo)(mo)態模(mo)(mo)型的(de)(de)利(li)用和(he)部(bu)署變得(de)非常簡便。

因此,我們依托紫東(dong)太(tai)初大模型(xing),開發了紫東(dong)太(tai)初服(fu)務(wu)平臺,現(xian)在是(shi)1.0階段。我們希望這個服(fu)務(wu)平臺能夠一(yi)鍵完(wan)成數(shu)據(ju)采(cai)集、模型(xing)訓(xun)練(lian)到模型(xing)的(de)(de)部署。這樣的(de)(de)話,可以(yi)大幅節(jie)省人力,從幾(ji)(ji)個月的(de)(de)訓(xun)練(lian)時間(jian)(jian)縮短(duan)到幾(ji)(ji)天、一(yi)周的(de)(de)訓(xun)練(lian)時間(jian)(jian)。

中科院張家俊:多模態大模型初現“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

有了智能化的(de)(de)標注(zhu)(zhu)平(ping)臺,用(yong)戶(hu)不僅可(ke)(ke)以在(zai)上(shang)面進(jin)行標注(zhu)(zhu),而且可(ke)(ke)以根(gen)據模(mo)型來不斷迭代。有了模(mo)型之后,我(wo)們可(ke)(ke)以根(gen)據訓練模(mo)型來發現還需要標注(zhu)(zhu)哪(na)些(xie)樣本,通過(guo)(guo)這樣的(de)(de)主動學習,可(ke)(ke)以加快數據的(de)(de)標注(zhu)(zhu)過(guo)(guo)程。

為了實(shi)現一鍵微調,開(kai)發者可以(yi)選擇(ze)各種各樣的開(kai)發工具(ju),可以(yi)選擇(ze)主(zhu)流的開(kai)發平臺,也可以(yi)選擇(ze)異構(gou)資(zi)源的統(tong)籌,我(wo)們可以(yi)統(tong)籌如昇騰、GPU等(deng)各種異構(gou)算力(li),同時(shi)可以(yi)支持(chi)分(fen)布式訓練,并(bing)且訓練過程還可以(yi)可視化。我(wo)們支持(chi)可視化建(jian)模、交互式建(jian)模、自(zi)動學習(xi)、自(zi)定義任(ren)務等(deng)的可視化。

對(dui)于(yu)一(yi)鍵(jian)部署,這個平臺可以覆(fu)蓋數(shu)據(ju)的(de)搜集、模(mo)型(xing)(xing)的(de)訓練(lian)再到(dao)模(mo)型(xing)(xing)的(de)部署。實際(ji)上就是(shi)說,我們可以先導(dao)入訓練(lian)任務(wu),然后(hou)(hou)再把本地的(de)數(shu)據(ju)或者相關的(de)信息進(jin)行導(dao)入,最后(hou)(hou)選擇相關的(de)模(mo)型(xing)(xing)再進(jin)行微調,就能得到(dao)最終(zhong)適應用戶目標(biao)或者任務(wu)的(de)應用部署。

中科院張家俊:多模態大模型初現“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

并且這(zhe)一服務平臺里有很多(duo)語音、文(wen)本、圖像、視(shi)頻的算法庫,不需要用(yong)戶進行訓練,可以直接拿來集成使用(yong)。

在這(zhe)個平臺(tai)上(shang),我們最近(jin)開發了(le)洛(luo)神1.0圖文生(sheng)成平臺(tai)。洛(luo)神1.0可以(yi)替代(dai)傳(chuan)統的(de)數字生(sheng)成技術,實現數字人(ren)的(de)快速批量(liang)生(sheng)成。它可以(yi)完成自動驅動和(he)用戶之(zhi)間(jian)互動,能夠幫助(zhu)用戶完成數字人(ren)的(de)自動化生(sheng)成。

下(xia)面是一(yi)個例(li)子,比如它可以(yi)進(jin)行(xing)個性(xing)化(hua)虛擬人生(sheng)成(cheng)。開發者(zhe)(zhe)選擇一(yi)個形(xing)(xing)(xing)象(xiang)之(zhi)(zhi)后,就(jiu)(jiu)可以(yi)通過(guo)語音方式驅動生(sheng)成(cheng)視頻。而(er)且可以(yi)按照自己(ji)的(de)(de)需(xu)求自定義,選擇一(yi)個形(xing)(xing)(xing)象(xiang)之(zhi)(zhi)后,你可以(yi)將其變成(cheng)三(san)維形(xing)(xing)(xing)象(xiang),再選擇其它的(de)(de)形(xing)(xing)(xing)象(xiang)進(jin)行(xing)融合,將文本(ben)或者(zhe)(zhe)需(xu)要生(sheng)成(cheng)的(de)(de)內容(rong)輸入(ru)進(jin)去(qu)之(zhi)(zhi)后就(jiu)(jiu)會按照你的(de)(de)需(xu)求進(jin)行(xing)相應的(de)(de)生(sheng)成(cheng)。現在數(shu)字(zi)人進(jin)行(xing)簡單的(de)(de)播報越(yue)來(lai)越(yue)真(zhen)實化(hua)。

中科院張家俊:多模態大模型初現“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

在(zai)算(suan)法研究、模(mo)型(xing)開發和平(ping)臺研制基礎(chu)上(shang),我們在(zai)推動多模(mo)態(tai)產業(ye)聯盟的成立,目(mu)前在(zai)紫東太初(chu)框(kuang)架下面有41家成員(yuan),我們希望整(zheng)合產學研用(yong)各(ge)方資(zi)源,來(lai)打造多模(mo)態(tai)人(ren)工(gong)智能行業(ye)應用(yong),希望探索通用(yong)人(ren)工(gong)智能產業(ye)化的道路(lu)。

四、已應用于醫療、文旅、公益等,打造差異化AGI道路

我(wo)(wo)們(men)為模型打造了(le)開(kai)發開(kai)放平臺(tai),同時我(wo)(wo)們(men)已(yi)經(jing)用(yong)這樣(yang)的(de)(de)模型在(zai)各(ge)種各(ge)樣(yang)的(de)(de)下(xia)游(you)任(ren)務當中得到了(le)非常好的(de)(de)應(ying)用(yong),比如在(zai)智慧醫療、社會公益、智慧文旅等方面已(yi)經(jing)有了(le)各(ge)種各(ge)樣(yang)的(de)(de)應(ying)用(yong)。

這里面因(yin)為時間(jian)關(guan)系就(jiu)不一(yi)一(yi)介紹,我(wo)介紹其(qi)中的一(yi)個應(ying)用(yong),就(jiu)是手語教考一(yi)體(ti)機。

這是(shi)一(yi)個非常有意(yi)思(si)(si)的(de)(de)應用,例如《新(xin)(xin)聞(wen)聯播》、《新(xin)(xin)聞(wen)30分》節目的(de)(de)右下角(jiao)都會(hui)有手(shou)(shou)語形象,但很多時候聾啞(ya)群(qun)體或者(zhe)聽(ting)障(zhang)群(qun)體會(hui)有歧義,沒辦法(fa)知(zhi)道手(shou)(shou)勢代表(biao)什么(me)意(yi)思(si)(si),那如果我們(men)給出(chu)手(shou)(shou)勢的(de)(de)同時給出(chu)多模(mo)態(tai)的(de)(de)圖像視頻(pin)展示(shi),這樣立馬就能夠讓聽(ting)障(zhang)人士感知(zhi)到并(bing)快速發現(xian)他應該在說什么(me),在表(biao)達什么(me)樣的(de)(de)含義。這樣多模(mo)態(tai)的(de)(de)應用是(shi)非常有意(yi)思(si)(si),也是(shi)非常好的(de)(de)方面(mian)。

中科院張家俊:多模態大模型初現“多專多能”,用“紫東太初”探索差異化AGI道路丨GTIC 2023

還有(you)在智慧交通、智能制造方面的應用,我們打造了(le)一個文旅多模態場(chang)景“南宋御街”,用戶(hu)可以通過(guo)VR方式和各種各樣的歷史環境、歷史人(ren)物(wu)進行交互。

我(wo)們也會把它應用到媒體,特別(bie)是多媒體內容的安(an)全審查上面。

這兩年來我(wo)(wo)們的(de)(de)(de)模型也得(de)到央視新聞、人民網等媒體的(de)(de)(de)一系列報道,我(wo)(wo)們也還(huan)在不斷努(nu)力。可以看到GPT正(zheng)在不斷地(di)突破人們的(de)(de)(de)想象,從GPT-4到周老師剛剛介紹(shao)的(de)(de)(de)GPT和各(ge)種各(ge)樣插件(jian)的(de)(de)(de)融合(he)。

我(wo)(wo)們(men)(men)在不(bu)(bu)斷追趕(gan),不(bu)(bu)斷打(da)造差異化的(de)(de)(de)(de)通向通用(yong)(yong)人工智能(neng)(neng)的(de)(de)(de)(de)道路,目前(qian)而(er)言,可能(neng)(neng)我(wo)(wo)們(men)(men)的(de)(de)(de)(de)模型不(bu)(bu)是特(te)別大,不(bu)(bu)像GPT-4那么通用(yong)(yong),但我(wo)(wo)認為我(wo)(wo)們(men)(men)應該追求一(yi)個開(kai)放(fang)的(de)(de)(de)(de)環境,我(wo)(wo)們(men)(men)希(xi)望在各(ge)種各(ge)樣的(de)(de)(de)(de)產業當中得到更好的(de)(de)(de)(de)應用(yong)(yong),希(xi)望和大家一(yi)起(qi)推動通用(yong)(yong)人工智能(neng)(neng)的(de)(de)(de)(de)發展。

謝謝大家!

以上是張家俊演講內容的完整整理。