智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影

洋抖(dou)難民瘋狂涌入小(xiao)紅書(shu),都快看不懂帖(tie)子了,怎么辦?

除了找翻譯軟件和(he)期待(dai)小紅書的官方工(gong)具外,你還可以試試國產AI:截取你看不(bu)懂的帖子,AI就能(neng)告訴你海外網友的狗狗品種,還能(neng)用(yong)中英雙(shuang)語撰寫回復。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

海外網友或許也可以嘗(chang)試嘗(chang)試中(zhong)國AI。下方帖子(zi)中(zhong),網友用(yong)字跡潦草的中(zhong)英雙語撰寫了帖子(zi)。AI能幫(bang)根據(ju)英文(wen)原文(wen)幫(bang)網友修改中(zhong)文(wen),無縫(feng)實(shi)現國際網上沖(chong)浪。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

上述有趣有用又有梗的回復背后,是來自國內首個采用原生融合方法的多模態模型——商湯 “日日新”融合大模型

多模態融合是指將文字、圖像、視頻、聲音等多種信息整合在一起,進行全模態的分析和理解。依照模態融合路徑訓練的模型能夠更好地處理跨模態任務,具備類似人類的認知方式、更強的泛化能力、更廣泛的應用場景以及更強大的推理能力

從上述(shu)的例子中(zhong)也可(ke)以看出(chu),“日(ri)日(ri)新”能從畫(hua)面(mian)中(zhong)提取文字(zi)中(zhong)未包含(han)的信息,并綜合文字(zi)和畫(hua)面(mian)中(zhong)的要素,給出(chu)與場景(jing)高度契合的回(hui)復。

“日日新”融合大模(mo)(mo)型在原生融合模(mo)(mo)態訓練上,突破(po)傳統(tong)方法局限,實現了(le)兩(liang)個關鍵技術創新,解決了(le)困擾多模(mo)(mo)態研究的“蹺蹺板”問題,成功跨越(yue)了(le)模(mo)(mo)態之間的鴻溝。

在最近的兩項權威評測中,商湯用單一模型挑戰圖文多模態、純語言與推理等各項任務,并戰勝其他所有單一模態模型,通過“換道超車”,躍升至國產(chan)大(da)模(mo)型領跑行(xing)列。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

在最新的SuperCLUE 2024年度報告中,商湯“日日新”融合大模型以總分68.3的優異成績,與DeepSeek V3并列國內榜首,成為年度第一。其中文科成績超越OpenAI的o1模型。同時,在OpenCompass多模態評測中,商湯的同一款模型同樣取得了榜單第一,分數大幅領先GPT-4o。

日(ri)前(qian),這款模(mo)型(xing)已上線商量、辦公(gong)小(xiao)浣熊等商湯旗下產品,智東西也第一時間(jian)上手體驗了(le)這一模(mo)型(xing)。作(zuo)為一款打破(po)語言與(yu)多(duo)模(mo)態兩大能力維度壁壘的模(mo)型(xing),“日(ri)日(ri)新(xin)”融合大模(mo)型(xing)貢獻(xian)了(le)不少新(xin)奇(qi)有趣的玩法(fa)和場景。

一、大模型秒變游戲軍師、文案助手,不僅看懂畫面還能深度推理

無論是(shi)對傳統視覺算法還是(shi)多模態大(da)模型(xing)而言(yan),識(shi)(shi)別畫面中(zhong)的(de)某一(yi)具體元素都要比(bi)識(shi)(shi)別單(dan)一(yi)物(wu)體更(geng)具挑(tiao)戰(zhan)。為(wei)測試這一(yi)能力,我(wo)向搭載(zai)新款“日日新”融(rong)合大(da)模型(xing)的(de)商量發送了如下截圖,并詢問圖中(zhong)的(de)游(you)泳池位于哪里。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

這一游戲的像素風對識別提(ti)出了(le)更多的挑戰(zhan),不過,“日(ri)日(ri)新”很快給(gei)出了(le)回答:

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

“日日新(xin)”對圖片的描述十分準(zhun)確,這一游泳池確實位于城市(shi)中央偏左(zuo)位置。

然而,當我(wo)上傳圖片(pian)并用英文向GPT-4o最新(xin)版(ban)本提問時,GPT-4o認為(wei)游(you)泳池(chi)(chi)在(zai)圖片(pian)中央(yang)偏右的(de)區域,似乎是將(jiang)藍色(se)的(de)屋頂(ding)識別為(wei)游(you)泳池(chi)(chi)了。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

我(wo)又在(zai)(zai)大模型競技場盲測了兩款模型,它(ta)們也無(wu)(wu)法(fa)準確回答。左(zuo)側的(de)(de)模型A(Llama-3.2-vision)認為游泳池在(zai)(zai)城市右(you)上角,靠近網(wang)球場,但圖中并無(wu)(wu)所謂(wei)的(de)(de)網(wang)球場。而右(you)側的(de)(de)模型B(Gemini-test)似(si)乎(hu)辨識出了游泳池,但它(ta)對這一建筑的(de)(de)描(miao)述(shu)并沒有(you)“日(ri)日(ri)新”的(de)(de)清晰(xi)。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

“日日新”不僅能定位畫面中的元素,還能根據畫面內容進行進一步的推理,就上方(fang)的截圖(tu),我(wo)向這一模型提問:“圖(tu)中(zhong)消防局的位置合(he)理嗎?”

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

▲消防局在(zai)圖中(zhong)箭頭所指處,給模型(xing)發送的圖片(pian)不帶任何(he)標記

“日日新”先是準確(que)找到了消防(fang)局的位置,還對消防(fang)局周邊的建筑性(xing)質(zhi)、道路情況進行了分析,最終得(de)出消防(fang)站布(bu)局合理的結(jie)論。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

此外,市面上大部分模(mo)(mo)型都存在(zai)重理輕(qing)文(wen)的特點,但“日日新(xin)”融合大模(mo)(mo)型在(zai)文(wen)科、理科任務的表(biao)現上都同(tong)樣出色。

在(zai)下方(fang)的創意寫作類任務中,“日日新”融合(he)大模型憑借融合(he)模態能力,準確地捕捉到了“水深危(wei)險,請勿靠(kao)近”這(zhe)句(ju)警示標語(yu)和(he)水面上悠(you)閑嬉水的綠頭鴨之間的沖突,還給鴨子(zi)們撰(zhuan)寫了內心os:“我們是來監督的!”

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

而針對這副法國(guo)印象(xiang)派作家莫奈的(de)作品,“日(ri)日(ri)新”融合大模(mo)型(xing)分析(xi)得頭頭是道,不僅注意到了顏色的(de)細微變化、具體部位的(de)描繪(hui)特點,還能理解畫(hua)作背后的(de)視覺觀感(gan)、繪(hui)畫(hua)技(ji)巧(qiao)。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

二、直面現實世界,讓真正的多模態大模型替你工作

傳統大語言模型僅支持單一文本輸入,部分視覺模型能通過OCR(文字識別)提取圖片中的語言信息進行理解,但作為真正的多模態大模型,“日日新”融合大模型可以綜合處理圖像、視頻、語音、文本等多源異構信息,實現深度融合和推理,最終給出更為全面準確的回應。這種能力讓模型能夠真正理解現實世界的需求,在各種復雜的業務場景中,成為你的交互對象和工作助手

我將(jiang)手頭一份《2024中國翻譯(yi)行業發(fa)展報(bao)告》交給搭(da)載(zai)商湯“日(ri)日(ri)新”融(rong)合(he)大模型的(de)辦公小浣熊和搭(da)載(zai)Gemini谷歌Notebooklm,看看這兩款支(zhi)持(chi)文檔上傳的(de)AI工(gong)具在報(bao)告解(jie)讀(du)的(de)場景表現如何(he)。

這份報告共有55頁,其中包含大量圖表,圖文交錯,對模型的多模(mo)態文檔分析(xi)能(neng)力(li)提出(chu)較高(gao)的(de)要求。下(xia)方(fang)是辦公小(xiao)浣熊(xiong)的(de)回答,它成功(gong)找到了我需要的(de)信(xin)息,而這一(yi)信(xin)息是位(wei)于一(yi)張(zhang)圖表中的(de)。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

Notebooklm在這一問題(ti)上落敗,它將“必選”與“選修”的(de)數據混淆了,正(zheng)確(que)答(da)案與它的(de)回答(da)正(zheng)相(xiang)反。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

Notebooklm雖然(ran)引用了原文,但點進引用后可以發(fa)現它(ta)對文檔的處(chu)理比較混亂,圖表變(bian)為了零(ling)散的文字,這可能(neng)也最終導致(zhi)了它(ta)的錯誤(wu)回答。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

商湯“日日新”融合大模型還能在一線工業(ye)生產場景中發揮作用。我(wo)將(jiang)下方的工廠實拍圖片發送(song)給它,它迅速對圖中的生產風(feng)險進行(xing)分析。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

“日日新”發現了圖中的7個潛在問(wen)題,并(bing)警告(gao)了燙傷、電擊等(deng)風(feng)險。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

當我繼續詢問該(gai)如(ru)何解決這一問題時,“日日新”給出了(le)一個(ge)包含12個(ge)步(bu)驟的解決方案(an),從(cong)維修(xiu)人員(yuan)的保護(hu)措施到維修(xiu)流程,再到維修(xiu)完成(cheng)后的記錄(lu)與報告,一應(ying)俱全。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

隨著AI越來越多地與物理世界產生聯系,商湯“日日新”融合大模型將可能與汽車、智能硬件、具身智能機器人等實現有機結合,將語言(yan)、圖像、視頻(pin)等(deng)多模態信息作為輸入(ru),理解(jie)用戶(hu)指(zhi)令并完成推理后,使用語言(yan)和圖像等(deng)進行(xing)輸出,在特定(ding)的生產、服務場(chang)景中(zhong)發揮重要作用。

三、破解“蹺蹺板”效應,多模態是大勢所趨

商湯發布的“日日新”融合大模型,對國內多模態大模型及AI行業來說具有重要的引領性意義。在探索原生多模態融合訓練過程中,商湯發展出兩項關鍵的創新技術:融合模態數據合成,和融合任務增強訓練。這使其擁有強大的對多模態信息理解分析能力,以及對場景的有效響應,并涌現出多模態信息的深度推理能力;同時在圖文模態之間建立了交互橋梁,為更好地完成跨模態任務打下堅實基礎。

商湯在(zai)打造(zao)最(zui)強原生(sheng)多模態大模型(xing)方面,具有三個維度的優勢。

從訓練數據的維度來看,“日日新”采用的原生融合技術路徑擴展了模型接觸數據的通路和空間,讓模型能接觸到更大量級(ji)、更多類型的數(shu)據。

與之相對的傳統圖文(wen)對齊(qi)范式依賴于文(wen)字描述,但文(wen)字這(zhe)一介質不免(mian)會帶來(lai)多(duo)模(mo)態信息的壓縮和(he)損失,限制模(mo)型能力的提(ti)升(sheng)。

“洋抖難民”攻占小紅書!網友用商湯“日日新”無縫沖浪

▲一條典型(xing)的(de)圖文(wen)(wen)對齊(qi)數據,標志上的(de)涂鴉和上方的(de)“NO TRUCKS”均沒有體現在文(wen)(wen)本(ben)中(圖源(yuan):LAION)

這種模型還可(ke)能出現“蹺蹺板效應”,也就是多(duo)模態能力提升的(de)同時(shi),子模態能力下降(jiang)。此(ci)外,簡單的(de)圖文對齊模型也很(hen)難對圖像和文本(ben)之間(jian)的(de)復(fu)雜關系有深(shen)刻理解。

在(zai)高質量數(shu)據日益枯竭的當下,“日日新”不僅能有效利(li)用廣泛(fan)存在(zai)的天然多模態數(shu)據,還通過合成數(shu)據平衡數(shu)據分布,補齊天然數(shu)據短板。

商湯科技聯合創始人、人工智能基礎設施及大模型首席科學家林達華認為,原生融合技術路徑將幫助他們突破傳統大語言模型的Scaling Law限制。換(huan)言(yan)之,原(yuan)生融合多模(mo)態(tai)大模(mo)型的能力上限要更高。

從應用維度來看,商湯在計算機視覺領域深耕超過10年,積累了AI賦能場景的豐富經驗,和對視覺和多模態的獨到理解,這是許多企業所不具備的。依托于這些經驗和思考,商湯在“日日新”融合模型的訓練過程中構建大量跨模態任務,培養出模型對(dui)業務(wu)場景和需(xu)求的深刻理解。

當大模型走出實驗室,步入生產、生活中的復雜多模態、跨模態環境后,這種場景感知、業務感知讓“日日新”能更好地理解用戶意圖、更準確地執行用戶指令,真正將模型紙面能力變為生產力、交互能力。

從成本的維度來看雖然原生融合大模型的能力更強,但其訓練成本依舊具有優勢。要打造一款兼具優秀語言和多模態能力(li)的(de)模型(xing),原生融合訓練(lian)方式的(de)成(cheng)本僅(jin)為傳統訓練(lian)方式的(de)60%。

結語:多模態原生融合,世界模型的必由之路

人類存在(zai)于真(zhen)(zhen)實世(shi)界之中,而AI若(ruo)要真(zhen)(zhen)正給人類的(de)(de)生產、生活過程帶(dai)來變革,就必須建立起(qi)一套描述(shu)、理解、預測(ce)外(wai)部世(shi)界的(de)(de)模型,這也就是(shi)所謂(wei)的(de)(de)世(shi)界模型。

在當下(xia)大(da)部分語言(yan)模(mo)(mo)(mo)型(xing)、多模(mo)(mo)(mo)態(tai)模(mo)(mo)(mo)型(xing)仍然處于分立的背景下(xia),商湯的“日日新(xin)”融合大(da)模(mo)(mo)(mo)型(xing)已實現多種模(mo)(mo)(mo)態(tai)的深(shen)度融合,而(er)這或許也(ye)是通往世(shi)界模(mo)(mo)(mo)型(xing)的必經(jing)之路。