智東西(公眾號:zhidxcom)
作者 | ?ZeR0
編輯 | ?漠影

智東西6月16日報道,在今日舉行的人工智能框架生態峰會2023上,中國科學院自動化研究所所長徐波正式發布紫東太初2.0全模態大模型

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

相比以前的大模型,紫東太初2.0新增了視頻、傳感信號、3D點云等模態,擁(yong)有了更(geng)強的認知、理解(jie)、創作能力。

它不僅有和ChatGPT類似的多輪問答文本創作能力,還實現了全模態輸入,支持視頻圖像音樂3D信號的理解,并能夠實現圖(tu)文音搜索圖像生成(cheng)音(yin)樂生(sheng)成信(xin)號分析等功能。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

智東西第一時間對紫東太初2.0的(de)音樂能力(li)(li)(li)、信號(hao)類能力(li)(li)(li)、視頻能力(li)(li)(li)、跨(kua)模態能力(li)(li)(li)、圖(tu)像能力(li)(li)(li)、語言能力(li)(li)(li)等進行體驗(yan)。

一、五大能力詳解,從生成音樂、看懂視頻到推理分析

1、音樂及信號類能力:生成、識別、多模問答

紫東太初2.0可以(yi)通過給定的(de)文本(ben)提示,可控生成高保(bao)真的(de)音樂,并支持即興創作多種風格(ge)類型和多種樂器演奏的(de)音樂。

648c16a582594_648c16a58254b_屏幕錄制2023-06-16-13.11.17

比如,上傳(chuan)一段音樂(le)文件,讓紫東太初2.0識(shi)別這(zhe)(zhe)個音樂(le)是(shi)什(shen)么,它能識(shi)別出這(zhe)(zhe)是(shi)貝多(duo)芬的交響(xiang)曲,并分享了這(zhe)(zhe)段音樂(le)表達了怎(zen)樣的感情(qing)。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

你還可以詢問這(zhe)段(duan)音樂是(shi)用什么樂器(qi)演(yan)奏(zou)的(de),讓(rang)紫東太(tai)初2.0根(gen)據這(zhe)段(duan)音樂作詩,或者(zhe)追問貝多芬的(de)生平是(shi)怎(zen)樣的(de)。

紫東太初(chu)2.0也支持(chi)雷(lei)達信號鑒(jian)別與知識交互,可(ke)借助模型快速(su)掌(zhang)握信號基(ji)本來源及(ji)參數等(deng)。

上傳一(yi)段(duan)信(xin)號后,你可以向它詢(xun)問這(zhe)段(duan)信(xin)號的相關信(xin)息。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

2、視頻能力:理解、描述、搜索

視(shi)(shi)頻能力方(fang)面,紫(zi)東太初2.0能基于(yu)用戶(hu)上傳(chuan)的視(shi)(shi)頻素材(cai),準確理解并(bing)回答視(shi)(shi)頻識(shi)別(bie)、視(shi)(shi)頻描述類(lei)問(wen)題,同時支持上下文信(xin)息理解和(he)多輪(lun)問(wen)答。

比如,上傳一段(duan)唱(chang)歌跳舞(wu)的視頻,問紫(zi)東太初2.0這(zhe)段(duan)視頻描述了什(shen)么、對視頻中(zhong)音樂的感受、是(shi)否認(ren)可(ke)等問題。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

此外,紫東太(tai)初2.0擁(yong)有(you)海(hai)量(liang)的高質視頻素(su)材庫,具備視頻素(su)材檢索能力。

比如讓(rang)它(ta)找一個踢足球的視頻。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

你還可(ke)以(yi)針對視(shi)(shi)頻內容進一步(bu)發問,讓紫東太初2.0結合動作和音樂分析視(shi)(shi)頻,或是(shi)根據視(shi)(shi)頻內容預測后(hou)面可(ke)能(neng)發生什么事。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

3、跨模態能力:“圖像+音頻+視頻”理解與分析

紫東太初2.0能結合(he)多個圖像、音頻(pin)、視頻(pin)文(wen)件,進行綜合(he)理解與創(chuang)作(zuo)。

上傳(chuan)兩個(ge)視(shi)頻,問這兩個(ge)視(shi)頻的共同特(te)點是什么?對此(ci),紫(zi)東太(tai)初2.0能夠結合視(shi)頻的畫面和聲音,分析(xi)出共通之處以及各(ge)自(zi)的差(cha)異點。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

另一個例子是圖像+音(yin)頻(pin)。

上(shang)傳一(yi)張圖書館的圖片(pian)(pian)和一(yi)段鼓掌(zhang)聲音(yin)頻(pin)(pin),問這段音(yin)頻(pin)(pin)有沒有可能出現在圖片(pian)(pian)里(li)的場(chang)景中?

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

紫(zi)東太初2.0給出答案:不太可能,原(yuan)因(yin)是(shi)圖片中的場景沒有慶祝或歡迎的氛圍。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

或者,上傳一張(zhang)足球場的(de)圖片(pian)+一段鼓掌聲音頻,讓紫東太初2.0結合圖片(pian)和音頻,分析一下場景的(de)氛圍。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

通過綜合理解(jie)圖像(xiang)、音頻(pin)、視(shi)頻(pin)信(xin)息,紫東(dong)太初2.0“拼出”一(yi)(yi)個完整(zheng)的信(xin)息描述,或者(zhe)將(jiang)這些內容串聯形成一(yi)(yi)段(duan)流暢的故事。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

4、圖像與3D場景能力:描述、目標檢測、檢索、生成

紫東太初2.0能基于用戶上傳的(de)圖(tu)片(pian)(pian)素材,準確理(li)解并回答圖(tu)片(pian)(pian)識(shi)別類(lei)問(wen)(wen)題,包括識(shi)別圖(tu)像主體、背景(jing)、動作(zuo)、顏色等等,同時支持上下(xia)文(wen)信息理(li)解和多輪問(wen)(wen)答。

比如問“圖(tu)里(li)有幾(ji)只動(dong)物”、“小(xiao)狗和小(xiao)貓在(zai)做什么”,紫東(dong)太初2.0給出了具體的描述。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

你還可(ke)以針對這張圖(tu)片,詢問更多細節,比如小動物的毛色、它(ta)們在(zai)什么地方玩。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

上傳風車的(de)(de)圖片,問“這個(ge)裝(zhuang)置(zhi)的(de)(de)作用(yong)是什么”,紫(zi)東太初2.0給的(de)(de)回答包(bao)括“風力發電站(zhan)”。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

接著追問(wen)“為什(shen)么要在圖中(zhong)位置(zhi)(zhi)建設(she)這樣的裝(zhuang)置(zhi)(zhi)”,它馬上給出回答(da):“為了讓它更加接近自(zi)然環境,以(yi)便更好地利(li)用風能(neng)。”

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

此外,紫(zi)東(dong)太初2.0具備基于點云數據的3D場景理解和物體感知能力。你可(ke)以讓它描述從這張三維圖里(li)看到(dao)了(le)什么信息(xi)。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

不過在理解梗圖方(fang)面(mian),紫東太初2.0的能(neng)力(li)還沒有(you)開發(fa)出來(lai),并(bing)不能(neng)弄明白下圖好(hao)笑在哪兒。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

除了搜視頻,紫東太初(chu)2.0也能被用于搜圖(tu)。比如讓它生(sheng)成一張熊貓的圖(tu)片(pian)。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

在生(sheng)成圖(tu)像方(fang)面,紫東(dong)太初2.0可以(yi)生(sheng)成指定風格的圖(tu)。比如我(wo)要求“用中國畫(hua)風格畫(hua)一只慵懶的貓”,紫東(dong)太初2.0立(li)刻畫(hua)出了一張(zhang)臥(wo)著的虎(hu)皮貓。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

5、語言與編程:問答、創作、查錯、寫代碼

在(zai)語(yu)言(yan)能力方面(mian),和多數大型(xing)語(yu)言(yan)模(mo)型(xing)一(yi)樣,紫東太初2.0支持中文問答、邏輯推理(li)、文本(ben)(ben)摘要、文本(ben)(ben)續寫、文本(ben)(ben)創作、標題生(sheng)成、語(yu)法分析、機(ji)器(qi)翻(fan)譯等等。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

它能(neng)準(zhun)確理(li)解(jie)用戶(hu)輸入的問題(ti)語境,并能(neng)做出(chu)準(zhun)確的知識性問答,包括(kuo)生活常識、工作(zuo)技能(neng)、醫學知識、歷史人文等知識領(ling)域。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

給紫東太初2.0一(yi)篇(pian)文(wen)章,它能快速理解文(wen)章的(de)(de)核心觀點(dian),根據長文(wen)本提取簡潔(jie)而準確(que)的(de)(de)摘(zhai)要。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

它(ta)也能寫一(yi)個擁(yong)有出人意料結局的推理(li)小說(shuo)。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

寫(xie)個快速排(pai)序(xu)代碼,同樣不在話下。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

綜(zong)合(he)(he)來看,紫東(dong)太初(chu)2.0在圖文音多(duo)模態(tai)能力的基礎之上,增加了對視頻、3D場景和(he)信號等模態(tai)的理(li)解,用更(geng)多(duo)模態(tai)信息(xi)來彌補單模態(tai)的局限性,更(geng)好地增強了對多(duo)種模態(tai)的綜(zong)合(he)(he)理(li)解和(he)認知。

二、突破多項多模態關鍵技術,完成跨模態對齊

徐波說,中科院早在2008年就開始推進圖文音的單獨攻關,2020年1月啟動多模態聯合攻關,從2021年1月做出百億模型到2021年9月發布全球首個千億參數圖文音三模態大模型紫東太初1.0,再到推出紫東太初2.0,以(yi)昇(sheng)(sheng)騰AI硬件及昇(sheng)(sheng)思MindSpore AI框架為基礎(chu),依托武漢人(ren)工智能(neng)計算中心算力支持,利用(yong)預訓練+微調技術,在大(da)的(de)神(shen)經網絡上(shang),把多個(ge)場景的(de)知識和數據都吸納到(dao)一(yi)個(ge)模型上(shang)。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

但物理世界(jie)的信(xin)息種(zhong)類(lei)遠多于圖文(wen)音,有(you)大量結(jie)構化、半結(jie)構化、非(fei)結(jie)構化數據,包(bao)括溫度、深度、壓力信(xin)號(hao)、3D超聲波指(zhi)紋(wen)、脈搏波、降(jiang)水量、人體紅外、3D激光等(deng)(deng)等(deng)(deng)諸多形式。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

基于(yu)這樣的認識,面向數字物聯時代,紫東太初(chu)2.0推出實現了能接入(ru)非結構(gou)化、半結構(gou)化、結構(gou)化等數據的全模(mo)態(tai)大模(mo)型開放(fang)系統(tong)架構(gou)。

面對全模(mo)態數(shu)據,紫(zi)東(dong)太初(chu)2.0率先實現了(le)認知增(zeng)強的多模(mo)態關聯,在全模(mo)態理解(jie)能力(li)(li)、生成能力(li)(li)、對齊能力(li)(li)上(shang)實現了(le)躍升。

研(yan)究團隊重(zhong)點研(yan)究突(tu)破了多模態(tai)分組認知(zhi)編碼、全模態(tai)認知(zhi)對齊和融合、多模態(tai)分組認知(zhi)解碼等(deng)關鍵(jian)技術,使多模態(tai)關聯的認知(zhi)能(neng)力大幅(fu)提(ti)高。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

通過(guo)完成音樂(le)(le)(le)、圖像、視(shi)頻(pin)等(deng)數據之間的跨模(mo)態(tai)對齊,紫東太初2.0可(ke)處理(li)音樂(le)(le)(le)視(shi)頻(pin)分(fen)析、三維(wei)導航(hang)等(deng)多模(mo)態(tai)關(guan)聯(lian)應(ying)用應(ying)用需求,并可(ke)實(shi)現音樂(le)(le)(le)、視(shi)頻(pin)等(deng)多模(mo)態(tai)內容生成。

由(you)此,紫東(dong)太初2.0打通(tong)了感知(zhi)、認知(zhi)乃至決策(ce)的(de)交互屏障,具(ju)有全模態能力的(de)涌(yong)現,使得人(ren)工智(zhi)能進一步(bu)感知(zhi)、認知(zhi)世界,從而延伸出更加強大的(de)通(tong)用能力。

三、落地進展:助攻顱內手術,研判違規行為,溯源敏感信息

徐波說,紫東太初底座大模型正賦能千行(xing)百業,包括(kuo)布(bu)匹紡織及缺陷檢測、文(wen)旅導游、柔性(xing)手術機器人、AI手語老師等。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

例如在醫療場景,基于紫東(dong)太初打造的顱內(nei)手(shou)術(shu)多(duo)模(mo)態智能助(zhu)手(shou)可實現不同模(mo)態的高效協同與轉換(huan),尤其(qi)是(shi)視覺、觸(chu)覺的跨模(mo)態融合,解決了機器人輔助(zhu)手(shou)術(shu)中觸(chu)覺缺失的國際性(xing)難題。

協(xie)和(he)(he)醫(yi)院用到紫(zi)東太初2.0在全模態方(fang)面的(de)推理功能,去嘗試在醫(yi)療(liao)診(zhen)斷方(fang)面做一些有挑戰性的(de)工作,尤(you)其(qi)是在心、腦、腎三個罕見病(bing)中,利用多種醫(yi)療(liao)模態和(he)(he)患者病(bing)例特點,生成擬診(zhen)討論,在診(zhen)斷、鑒別診(zhen)斷和(he)(he)治療(liao)計劃給出一些建議。

在交通場(chang)景(jing),以前智能系統更多(duo)關注識別到比較(jiao)常見的(de)交通違(wei)規(gui)(gui)行(xing)為(wei),但實(shi)(shi)際場(chang)景(jing)中會有很多(duo)細碎(sui)的(de)違(wei)規(gui)(gui)行(xing)為(wei),比如壓實(shi)(shi)線、摩托車不戴頭(tou)盔(kui)、三輪車違(wei)法載人等(deng)等(deng)。只(zhi)需輸入對違(wei)規(gui)(gui)行(xing)為(wei)的(de)文字描述(shu),再給1~2張圖片,紫(zi)東太初(chu)就能實(shi)(shi)現(xian)對違(wei)規(gui)(gui)行(xing)為(wei)認知級別的(de)研判。

在互聯網短(duan)(duan)視頻(pin)場(chang)景中,有(you)些短(duan)(duan)視頻(pin)的標題(ti)和(he)簡介文本(ben)沒(mei)有(you)問(wen)題(ti),但(dan)視頻(pin)內容(rong)包含敏感(gan)信息。利(li)用多模態融合感(gan)知技術,可以對視頻(pin)進行溯源,及時發(fa)現(xian)風險(xian)內容(rong)。

在大模(mo)型的基礎上,中科院也研發了紫東太初(chu)開放服務平(ping)臺(tai),以(yi)惠及更多用戶。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

結語:邁向通用人工智能的三條路徑

徐波(bo)說,大(da)(da)模(mo)(mo)型(xing)成為(wei)人(ren)工(gong)智(zhi)能(neng)發(fa)展的(de)里程碑和(he)分水嶺,以ChatGPT為(wei)代表(biao)的(de)“大(da)(da)算力+大(da)(da)數據+大(da)(da)模(mo)(mo)型(xing)”標志著通用人(ren)工(gong)智(zhi)能(neng)時(shi)代的(de)來臨,大(da)(da)模(mo)(mo)型(xing)將實現對勞動力、資(zi)本(ben)等(deng)生產(chan)要(yao)素的(de)智(zhi)能(neng)替代和(he)功能(neng)倍增,促進全要(yao)素生產(chan)率的(de)提高。

人類(lei)的(de)學習和(he)(he)交(jiao)互過程中充(chong)滿了多模(mo)態信息,包括自然語言、視覺(jue)(jue)(jue)、聽(ting)覺(jue)(jue)(jue)、觸覺(jue)(jue)(jue)、嗅(xiu)覺(jue)(jue)(jue)/味覺(jue)(jue)(jue)、生理信號等等。以嬰兒早期(qi)發育為(wei)例,它通過多種模(mo)態信息可以很(hen)容易地感知和(he)(he)學習世界,基于這一認識,紫東太初(chu)大模(mo)型(xing)從一開始走的(de)就是(shi)多模(mo)態技術路線(xian)。

據徐(xu)波分享(xiang),通過可(ke)自主(zhu)進(jin)化通用(yong)人工智(zhi)能(neng)有(you)三條路徑:類腦(nao)智(zhi)能(neng)、信息智(zhi)能(neng)、博弈智(zhi)能(neng)。

中科院出手!1000億參數全模態大模型發布,能看懂視頻、繪畫作曲、分析信號

他認(ren)為(wei),目前(qian)全模態的(de)(de)信(xin)息(xi)智(zhi)(zhi)能(neng)(neng)走(zou)得更快,但它一定(ding)(ding)會吸納(na)類腦智(zhi)(zhi)能(neng)(neng)在極低功耗及演化(hua)機(ji)制(zhi)方面(mian)的(de)(de)優勢(shi),也(ye)一定(ding)(ding)會吸納(na)博弈(yi)智(zhi)(zhi)能(neng)(neng)與環境交互產生自適應能(neng)(neng)力的(de)(de)機(ji)制(zhi),融合起來,才是(shi)更強的(de)(de)通用(yong)人(ren)工智(zhi)(zhi)能(neng)(neng)。