智東西(公眾號:zhidxcom)
作者 |? 程茜
編輯 |? 漠影

臨近年關,國產大(da)模型的春節(jie)大(da)禮包讓人應接不(bu)暇!

就在這幾天,從全場景深度推理模型Baichuan-M1-preview醫療增強開(kai)源模型Baichuan-M1-14B百川智能大模型(xing)頻繁上新(xin)。

而今天新鮮出爐的全模態模型Baichuan-Omni-1.5,更稱得上(shang)是“大模型通才”。

這一全模態模型不僅能同時支持文本、圖像、音視頻全模態理解,還支持文本、音頻雙模態生成。與此同時,百川還開源了兩個評測集,助力國內全模(mo)態(tai)模(mo)型(xing)研發生態(tai)蓬勃(bo)發展。

從綜合的測評結果來看,Baichuan-Omni-1.5的多模態能力整體超越了GPT-4o mini。在百川智能深耕的醫療領域,其醫療圖片評測成績更是大幅領先

可(ke)以看出,百川智能作為國產大模(mo)型的(de)明星(xing)玩家,在模(mo)型本身(shen)的(de)技術探索以及深(shen)耕醫(yi)療行(xing)業(ye)落地上正一(yi)往(wang)無前。

模型權重地址:

Baichuan-Omini-1.5:

//huggingface.co/baichuan-inc/Baichuan-Omni-1d5

//modelers.cn/models/Baichuan/Baichuan-Omni-1d5

Baichuan-Omini-1.5-Base:

//huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base

GitHub地址:

技術報告:

一、文圖音視頻“通殺”,多項測評超越GPT-4o mini

Baichuan-Omni-1.5的亮眼表現可以集中概括為“全面且強大”。

首先,該模型最突出的特點就是擁有全面的(de)理解(jie)和生成(cheng)能(neng)力(li),既(ji)包括對文(wen)本(ben)、圖像、視頻(pin)(pin)、音頻(pin)(pin)全模態內容的(de)理解(jie),還支持文(wen)本(ben)、音頻(pin)(pin)的(de)雙模態生成(cheng)。

圖片的理解層面,Baichuan-Omni-1.5在MMBench-dev、MM-Vet等通用圖片評測中,其中通用測試集MM-Vet定義了識別、OCR、知識、語言生成、空間感知和數學計算六大核心VL能力,對于模型性能的表現呈現較為全面。圖片的理解層面,Baichuan-Omni-1.5在MMBench-dev、TextVQA val等通用圖片評測中領先領先GPT-4o mini。

值得一提的是,除了通用文本、圖像、音視頻能力外,百川智能的全模態模型更是在醫療賽道上一騎絕塵。醫療圖片評測數據集GMAI-MMBench、Openmm-Medical的結果顯示,該模型已經大(da)幅超越(yue)GPT-4o mini。

大模型通才來了!百川智能全模態模型亮相,實力碾壓GPT-4o mini

音頻的理解與生成層面,Baichuan-Omni-1.5不僅支持多語言對話,還能基于其端到端音頻合成能力,擁有ASR(自動語音識別)和TTS(文本轉語音)功能,并且在此基礎上支持音視頻實時交互。具體的測評指(zhi)標(biao)上(shang),Baichuan-Omni-1.5在lamma question和AlpacaEval數(shu)據集上(shang)整體表(biao)現(xian)遠(yuan)超Qwen2-VL-2B-Instruct、VITA-1.5和MiniCPM-o?2.6。

大模型通才來了!百川智能全模態模型亮相,實力碾壓GPT-4o mini

視頻理解層面,百川(chuan)智(zhi)能對(dui)該模型(xing)在(zai)編碼器(qi)、訓(xun)練數據和訓(xun)練方法等多個關鍵環(huan)節(jie)進行(xing)了深入優化,其整體性能同樣(yang)大(da)幅領先GPT-4o-mini。

大模型通才來了!百川智能全模態模型亮相,實力碾壓GPT-4o mini

綜上,Baichuan-Omni-1.5不僅在通用能力上整體超越GPT4o-mini,并且實現了全(quan)模態理(li)解、生(sheng)成的統(tong)一

百川智能同時還開源了兩個評測集:OpenMM-Medical、OpenAudioBench

OpenMM-Medical用于評估模型醫療多模態能力,包含了來自42個公開(kai)醫學圖(tu)(tu)(tu)像(xiang)(xiang)的數據集,如(ru)ACRIMA(眼底圖(tu)(tu)(tu)像(xiang)(xiang))、BioMediTech(顯微鏡圖(tu)(tu)(tu)像(xiang)(xiang))和(he)CoronaHack(X 射線(xian)),共計(ji)88996張(zhang)圖(tu)(tu)(tu)像(xiang)(xiang)。

OpenAudioBench則用于高效評估模型“智商”,包(bao)含5個音頻端到端理解子評測集(ji)的平臺,其中4個來(lai)自公開評測集(ji)(Llama Question、WEB QA、TriviaQA、AlpacaEval),還有(you)1個是百(bai)川自建的語音邏(luo)輯推理評測集(ji),該自建評測集(ji)共有(you)2701條數據。

一(yi)直以來(lai),百川智能在繁(fan)榮國(guo)內開源生(sheng)態上都(dou)扮(ban)演著重要角色。這類開源模(mo)型評測數據集為研究(jiu)人員和開發者提供了(le)統一(yi)的(de)標(biao)準數據,方便其對不同模(mo)型的(de)性能進行客觀(guan)、公正的(de)評估(gu),同樣有助(zhu)于催生(sheng)一(yi)系列新的(de)語言理解算(suan)法和模(mo)型架構。

二、全方位優化數據、架構、流程,破解大模型“降智”難題

從(cong)單一(yi)模(mo)(mo)態(tai)模(mo)(mo)型到多(duo)模(mo)(mo)態(tai)融(rong)合,再到全模(mo)(mo)態(tai)模(mo)(mo)型的進階,這一(yi)技術(shu)發展歷程(cheng)為實現模(mo)(mo)型在千行百業(ye)落地應用提(ti)供(gong)了(le)更多(duo)可能性。

然而,隨著AI技術的不斷發展,如(ru)何實現理解和生成的(de)統一,已然成為當下多(duo)模態領域(yu)研究的(de)一大熱(re)點與難點問題(ti)

一(yi)方(fang)面(mian),理解(jie)和生成的(de)統一(yi)使得(de)模(mo)型(xing)(xing)能(neng)(neng)(neng)模(mo)仿人類(lei)交互方(fang)式(shi),讓計(ji)算機與(yu)人類(lei)的(de)溝通更加自然(ran)、高效,這(zhe)(zhe)也是通用人工(gong)智能(neng)(neng)(neng)(AGI)實現的(de)關鍵(jian)環(huan)節(jie);另一(yi)方(fang)面(mian),不同模(mo)態的(de)數(shu)據在特(te)征表(biao)示、數(shu)據結構(gou)和語(yu)義內涵等方(fang)面(mian)差異巨大,很難做到既能(neng)(neng)(neng)有效地提取多模(mo)態特(te)征,又能(neng)(neng)(neng)實現跨模(mo)態的(de)信息交互和融合(he),這(zhe)(zhe)也被業界公認為訓練(lian)全模(mo)態模(mo)型(xing)(xing)的(de)最(zui)大難題(ti)之(zhi)一(yi)。此次Baichuan-Omni-1.5的(de)發布(bu),意味(wei)著百川智能(neng)(neng)(neng)應(ying)該已經找(zhao)到了解(jie)決上述(shu)難題(ti)的(de)有效路徑。

訓(xun)練全模(mo)態模(mo)型(xing)的過(guo)程中,為(wei)解(jie)決(jue)全模(mo)態模(mo)型(xing)“降智”難題,其研究團隊從模(mo)型(xing)結構、訓(xun)練策略以及訓(xun)練數據等多方面進(jin)行了全流程的深度優(you)化,真正實現了理解(jie)生成統一。

首先是模型結構方(fang)面,模(mo)型(xing)輸(shu)(shu)入部(bu)分支持各(ge)種模(mo)態通過相應(ying)的Encoder/Tokenizer輸(shu)(shu)入到(dao)大型(xing)語言(yan)模(mo)型(xing)中;輸(shu)(shu)出部(bu)分則采用了文本(ben)-音頻交錯輸(shu)(shu)出的設計(ji),其中Text Tokenizer和Audio Decoder可以同時生成文本(ben)和音頻。

其中(zhong),Audio Tokenizer由OpenAI發布(bu)的(de)開源語音(yin)識別翻譯模(mo)型Whisper增量(liang)訓練而(er)來(lai),同(tong)時具備高級語義抽取和高保(bao)真重建音(yin)頻能力。

為(wei)了讓模型理(li)解(jie)任意分(fen)辨率(lv)圖片(pian),Baichuan-Omni-1.5還引入(ru)了能處理(li)最(zui)高分(fen)辨率(lv)可達4K且支持多(duo)圖推理(li)的(de)NaViT,使得(de)該模型能全(quan)面提取圖片(pian)信息,準確理(li)解(jie)圖片(pian)上的(de)內(nei)容。

大模型通才來了!百川智能全模態模型亮相,實力碾壓GPT-4o mini

其次是數據層面,百川智能構建了包(bao)含3.4億條(tiao)高質量圖片(pian)/視頻(pin)-文本(ben)數(shu)據(ju)和(he)近100萬小時音(yin)頻(pin)數(shu)據(ju)的(de)龐(pang)大數(shu)據(ju)庫,并使用1700萬條(tiao)全(quan)模態數(shu)據(ju)進行了SFT(監督微調)。

與(yu)其余模(mo)(mo)(mo)(mo)型(xing)(xing)的(de)數(shu)據不(bu)同(tong)(tong),全模(mo)(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)(mo)型(xing)(xing)不(bu)僅數(shu)據要(yao)豐富,還需要(yao)更(geng)多(duo)元化的(de)交錯數(shu)據。一般而言(yan),現實(shi)生活(huo)中的(de)信息通常以多(duo)種模(mo)(mo)(mo)(mo)態(tai)(tai)同(tong)(tong)時(shi)呈現,且不(bu)同(tong)(tong)模(mo)(mo)(mo)(mo)態(tai)(tai)的(de)數(shu)據包含互補的(de)信息,這類多(duo)模(mo)(mo)(mo)(mo)態(tai)(tai)數(shu)據的(de)融合有助于模(mo)(mo)(mo)(mo)型(xing)(xing)學(xue)習到更(geng)通用的(de)模(mo)(mo)(mo)(mo)式(shi)和規律,增強其泛化能力(li),這也是構(gou)建全模(mo)(mo)(mo)(mo)態(tai)(tai)模(mo)(mo)(mo)(mo)型(xing)(xing)的(de)關鍵之一。

為(wei)了(le)加強跨模態(tai)理解能(neng)(neng)力,百川(chuan)智(zhi)能(neng)(neng)還(huan)構(gou)(gou)建了(le)高質量的(de)(de)視覺(jue)-音(yin)(yin)頻-文本(ben)交(jiao)錯數據(ju)(ju),使用1600萬圖文、30萬純(chun)文本(ben)、40萬音(yin)(yin)頻數據(ju)(ju)以(yi)及跨模態(tai)數據(ju)(ju)對模型(xing)進行對齊。并且為(wei)了(le)讓模型(xing)能(neng)(neng)夠同時實現ASR、TTS、音(yin)(yin)色切換和音(yin)(yin)頻端到端問答,在對齊數據(ju)(ju)中還(huan)專(zhuan)門(men)構(gou)(gou)建了(le)相應任務的(de)(de)數據(ju)(ju)。

第三大技術要點就是訓練流程這(zhe)是讓(rang)高質量數據(ju)真正提升模型能(neng)力的核(he)心(xin)。

百川(chuan)智能(neng)在預(yu)訓練和(he)SFT階段(duan)均設計了多階段(duan)訓練方案,以(yi)整體提升模型效果。

其訓(xun)練(lian)過程主(zhu)要分為(wei)四(si)個階(jie)段(duan),第(di)一(yi)階(jie)段(duan)以圖文訓(xun)練(lian)為(wei)主(zhu),第(di)二階(jie)段(duan)增加(jia)音(yin)頻預(yu)訓(xun)練(lian),第(di)三階(jie)段(duan)加(jia)入視頻數據,最后一(yi)個階(jie)段(duan)是(shi)對(dui)齊階(jie)段(duan),最終(zhong)實現模型對(dui)于全模態(tai)內容的理解。

大模型通才來了!百川智能全模態模型亮相,實力碾壓GPT-4o mini

在此基礎上,Baichuan-Omni-1.5的(de)能力相(xiang)比于單一的(de)大語言模型或者多模態模型,實現(xian)了質的(de)飛躍。

Baichuan-Omni-1.5的(de)(de)發布(bu)標志著AI正在從模(mo)(mo)型(xing)能(neng)力(li)(li)向落地應用(yong)方向發展(zhan),此(ci)前,模(mo)(mo)型(xing)能(neng)力(li)(li)多(duo)側重于語言(yan)理解、圖像識別等基礎能(neng)力(li)(li)的(de)(de)增強,這(zhe)一模(mo)(mo)型(xing)強大的(de)(de)多(duo)模(mo)(mo)態(tai)融(rong)合(he)能(neng)力(li)(li),將會(hui)讓技術與實際場景之間結合(he)更為緊(jin)密。

百(bai)川智(zhi)能一方面提升了模(mo)型在語言、視覺、音頻等多模(mo)態(tai)信息(xi)處理(li)上的(de)能力,使其能夠應對(dui)更復雜、更多樣的(de)任務;另一方面全模(mo)態(tai)模(mo)型強大的(de)理(li)解、生(sheng)成(cheng)能力,在醫療行(xing)業可以用于(yu)輔助醫生(sheng)診斷,提高診斷準(zhun)確性和(he)效率等,對(dui)于(yu)將AI落(luo)地到醫療場景也是非(fei)常有(you)益的(de)探(tan)索。

或許(xu)在不久的(de)將(jiang)來,百川智能可以讓我們清晰看到AGI時代醫療(liao)應用(yong)的(de)雛形。