
現有的多(duo)模態大模型(MLLM)通(tong)常將預訓練的(de)(de)視(shi)覺編碼(ma)器與大語言模(mo)(mo)型(xing)結(jie)合來實現(xian),即模(mo)(mo)塊(kuai)化MLLM。最(zui)近(jin)新興(xing)的(de)(de)Chameleon、EVE等原生MLLM,將視(shi)覺感(gan)知和多(duo)模(mo)(mo)態理解直接集成到(dao)LLM中,能夠(gou)更方便地(di)通(tong)過現(xian)有工(gong)具(ju)進行部署,且(qie)具(ju)備更高的(de)(de)推理效率。
然而,由于原(yuan)生MLLM缺乏視覺能力,但(dan)視覺預(yu)訓(xun)練過程(cheng)中語言基座能力常常出現災(zai)難性遺忘問(wen)題,這導致現有原(yuan)生MLLM的性能仍(reng)顯(xian)著低于模塊化MLLM。
為此,上海人工(gong)智能實(shi)驗室通用視覺團(tuan)隊(OpenGVLab)聯合(he)清華大(da)學、上海交(jiao)通大(da)學等提出了(le)全新的原生(sheng)(sheng)多(duo)模(mo)態大(da)模(mo)型(xing)Mono-InternVL。該模(mo)型(xing)采用增量預訓練方法,解(jie)決了(le)此前(qian)原生(sheng)(sheng)MLLM中的災(zai)難性遺忘問(wen)題。與非原生(sheng)(sheng)模(mo)型(xing)相比,Mono-InternVL首個(ge)單(dan)詞延遲能夠降低67%,且在多(duo)個(ge)評測(ce)數據集(ji)上均達(da)到了(le)SOTA水準。
相比于現有(you)多(duo)(duo)模(mo)態(tai)(tai)大(da)模(mo)型(xing),Mono-InternVL無需額外的視覺編碼器(qi),通(tong)過內嵌視覺專家打(da)通(tong)了(le)一條從大(da)語言(yan)模(mo)型(xing)到原(yuan)生(sheng)多(duo)(duo)模(mo)態(tai)(tai)模(mo)型(xing)擴(kuo)展的新路徑,且2B模(mo)型(xing)多(duo)(duo)模(mo)態(tai)(tai)能力優于7B參數的現有(you)原(yuan)生(sheng)多(duo)(duo)模(mo)態(tai)(tai)模(mo)型(xing),多(duo)(duo)個指標超越了(le)InternVL1.5。
Mono-InternVL兼具了視覺靈(ling)活性(xing)和部署(shu)高(gao)效性(xing),支持(chi)高(gao)達2M像素(su)輸(shu)入的動態(tai)圖像分辨率(lv),在原生多模態(tai)架構(gou)中(zhong)感(gan)知精度最(zui)高(gao)。相比于InternVL1.5,在部署(shu)框(kuang)架上首個單詞(ci)延(yan)遲最(zui)多降(jiang)低67%,整(zheng)體吞吐量提高(gao)31%。
11月7日19點,智猩猩邀請到論文一作、上海 AI Lab OpenGVLab 博士后研究員羅根參與「智猩猩通用視覺講座」03講,主講《Mono-InternVL: 突破原生多模態大模型性能瓶頸》。
講者
羅根,上海 AI Lab OpenGVLab 博士后研究員
?主 題?
《Mono-InternVL: 突破原生多模態大模型性能瓶頸》?
提 綱?
1、模塊化大模型與原生大模型對比分析
2、原生多模態大模型Mono-InternVL解析
3、原生MLLM面臨的的災難性遺忘問題
4、增量內生視覺預訓練(EViP)方法
5、實驗比較(jiao)及模型性能(neng)展示
直 播 信 息
直播時間:11月7日19:00
成果
論文標題
《Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training》
論文鏈接
//arxiv.org/abs/2410.08202
項目地址
//internvl.github.io/blog/2024-10-10-Mono-InternVL/
如何報名
有講座直播觀看需求的朋友,可以添加小助手“沐可”進行報名。已添加過“沐可”的老朋友,可以給“沐可”私信,發送“通用視覺03”進(jin)行報(bao)名。對于(yu)通過報(bao)名的朋友,之(zhi)后將(jiang)邀(yao)請入群進(jin)行觀看和交(jiao)流。