
智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西7月29日報道,在世界人工智能大會WAIC 2025上,商湯科技發布全新「日日新SenseNova V6.5」大模型體系、「悟能」具身智能平臺,商湯旗下核心產品商湯小浣熊也完成智能體升級。
日日新V6.5重點升級了強(qiang)推理(li)、高效(xiao)率、智能(neng)體三(san)大(da)能(neng)力,率先突破圖文(wen)(wen)交錯思維鏈技術,同時改進多模態(tai)模型的融合架構,相比V6.0顯著提升性價比,文(wen)(wen)本(ben)推理(li)能(neng)力和多模態(tai)推理(li)能(neng)力超(chao)越(yue)Gemini 2.5 Pro、Claude-4 Sonnet,多模態(tai)交互能(neng)力超(chao)越(yue)Gemini 2.5 Flash和GPT-4o。
此次(ci)發布(bu)的(de)為(wei)(wei)什么(me)是V6.5,還不是V7?全國工商(shang)聯人工智能(neng)委員會主(zhu)席團首任輪值主(zhu)席、商(shang)湯(tang)科技董事長兼(jian)CEO徐立解釋說,因為(wei)(wei)多(duo)模態(tai)思維鏈構造(zao)數據(ju)還能(neng)做到更大(da)的(de)擴充,所(suo)以利用商(shang)湯(tang)原來視覺感(gan)知(zhi)的(de)能(neng)力(li),再加上(shang)視覺和文本之(zhi)間關(guan)系的(de)建立,多(duo)模態(tai)思維鏈構造(zao)能(neng)進(jin)一步助力(li)其(qi)基模型(xing)核心能(neng)力(li)提(ti)升(sheng)。
基于日日新V6.5的多(duo)模(mo)態(tai)數(shu)據(ju)分(fen)析能(neng)力,綜合智能(neng)助手商(shang)湯小浣熊升級,支(zhi)持多(duo)模(mo)態(tai)復雜輸入(ru)、多(duo)模(mo)態(tai)融(rong)合深(shen)入(ru)分(fen)析、多(duo)模(mo)態(tai)結果輸出(chu),在數(shu)據(ju)分(fen)析和智能(neng)體領域的實(shi)測中(zhong)達到國際標(biao)桿Claude 4 Opus的水(shui)平,大幅領先OpenAI o3等模(mo)型。
商湯還推出了面向特定場景的商湯小浣熊教育版和商湯小浣熊金融版。截至目前,“商湯小浣熊家族”產品矩陣已廣泛服務多行業企業,用戶數量實現1000萬+。
面(mian)向具身智能(neng)(neng)領域,商湯提供基于其世界模型(xing)的「悟能(neng)(neng)」具身智能(neng)(neng)平臺(tai),可(ke)為機器人等各種終端硬件(jian)提供感知理解能(neng)(neng)力(li),并支持(chi)嵌入(ru)到端側芯(xin)片,靈活適配(pei)不(bu)同場景。
一、日日新V6.5:三大升級,多模態推理與交互性能大幅提升
商湯(tang)「日日新(xin)V6.5」多模(mo)(mo)態基座大(da)模(mo)(mo)型帶來(lai)三大(da)升級:
- 強推理:圖文交錯多模態思維鏈,推理性能比肩Gemini 2.5 Pro、Claude-4 Sonnet;
- 高效率:多模態架構優化,性價比提升3倍以上;
- 智能體:數據分析大幅領先,支持端到端的場景落地,實現價值閉環。
通過多模態思維鏈數據進階圖文交錯思維鏈數據合成,商湯「日日新V6.5」多模態推理與交互性能實現了大幅提升:文本推理能力和多模態推理大幅提升,超越Gemini 2.5 Pro、Claude-4 Sonnet;多模態交互能力超越Gemini 2.5 Flash和GPT-4o,各方面性能突出。
商湯「日日新V6.5」率先突破圖文交錯思維鏈技術,在大模型中引入形象思維,成為國內首個實現圖文交錯思維的商業級大模型。
在(zai)人類(lei)的思考(kao)中,形(xing)象(xiang)思維(wei)和(he)(he)邏輯思維(wei)同等重要,兩者(zhe)有機結合才能形(xing)成全面的思維(wei)能力(li)。所謂“一圖(tu)勝千言”,一幅(fu)圖(tu)往往比(bi)大段文字更能引發(fa)有效思考(kao)。當前,主流的多模態(tai)(tai)模型雖然已經實現了(le)在(zai)輸入(ru)端融合多種模態(tai)(tai),但思考(kao)推(tui)理過程依然主要依賴(lai)語(yu)言推(tui)理,圖(tu)形(xing)和(he)(he)空間推(tui)理仍存在(zai)短板。
多模態思維鏈構造的(de)關鍵在(zai)于(yu)信息的(de)圖形化表達,相比(bi)純(chun)文本思維鏈更具挑戰,不僅(jin)要(yao)呈現文字(zi)思考(kao)過程,還需生成作(zuo)為思考(kao)節點(dian)的(de)圖像,難以通過純(chun)人工(gong)方(fang)式大規模實現。
商湯研發團隊先基(ji)于對思(si)維過程的理(li)解構造種子(zi)數據,經監(jian)督微調(SFT)訓練讓模(mo)型初步具備圖文交錯思(si)考能(neng)力,再通過多(duo)輪強化學習顯著提升多(duo)模(mo)態推理(li)能(neng)力。
同時,商湯改進了多模態模型的融合架構,促(cu)進跨模態(tai)早期(qi)融合(he)。新架(jia)構(gou)采用了顯著變輕的視(shi)覺編碼器,以及深而(er)窄的主干模型(xing),使得(de)視(shi)覺表征(zheng)在前饋(kui)計(ji)算早期(qi)就與語(yu)言進行對齊和交融,從而(er)令感知更(geng)高效,模態(tai)融合(he)更(geng)深。
得益于模型架構的改進,商湯日日新V6.5在實現成本優化的同時,預訓練吞吐量提升了20%以上,強化學習效率提升了40%,推理吞吐量提升了35%以上,取得性能和成本的平衡:相較日日新V6.0,日日新V6.5將性價比提升了3倍。
二、綜合智能助手商湯小浣熊升級,要打造“辦公最強智能體”
大(da)語言模型已成為不少人的(de)工(gong)作輔助工(gong)具(ju),但僅靠大(da)語言模型,不足以讓(rang)AI完成從“工(gong)具(ju)”向“人”的(de)躍升。
人類的(de)(de)日常(chang)任務活動,天然涉及對(dui)文本、圖像(xiang)、視頻、網頁等多模態(tai)信息的(de)(de)處(chu)理(li)。從生產力(li)工具到(dao)生產力(li),關鍵(jian)就在于多模態(tai)信息的(de)(de)輸(shu)入、處(chu)理(li)與(yu)輸(shu)出能力(li)。
基于「日日新V6.5」的多模態數據分析能力,商湯小浣熊全面升級:能夠勝任多模態復雜輸入,進行多模態融合深入分析,給出多模態結果輸出,實現專業(ye)的(de)可(ke)視化呈現,打造“辦公場(chang)景的(de)AI生(sheng)產力”。
同時,商湯小浣熊始終保持世界領先的復雜數據分析能力。在客戶場景的綜合測試中,小浣熊達到在數據分析和智能體領域的國際標桿Claude 4 Opus的水平,大幅領先OpenAI o3等模型,在時序計算、數據匹配、數理計算和異常檢測等任務中,準確率均可接近100%。
現實辦公場景中,數據輸入形式極為復雜。在數據分析場景中,截圖、文檔和PDF等各類文檔樣式屢見不鮮,而其中結構化信息及表格僅占約70%。即便是看似基礎的Excel表格(ge),也(ye)常包含合并單(dan)元格(ge)、缺失值、嵌(qian)套子(zi)表格(ge)及內嵌(qian)圖表等復雜元素,大幅提升處理難度。
商湯小(xiao)浣熊能以多模(mo)態思(si)(si)(si)維實(shi)現全局分析,通(tong)過思(si)(si)(si)維鏈(lian)構造進(jin)行多步思(si)(si)(si)考與反思(si)(si)(si),最終輸(shu)出結構化的結果。
一個表格看著簡單,背后的邏輯因果卻非常復雜,如今商湯小浣熊可以讓復雜表格簡單化。
用戶上(shang)傳(chuan)包含合并單(dan)元格(ge)(ge)、缺失(shi)值(zhi)、子(zi)表(biao)(biao)(biao)格(ge)(ge)、內嵌(qian)圖表(biao)(biao)(biao)及外部圖片的復(fu)雜Excel表(biao)(biao)(biao)格(ge)(ge)。商湯小浣熊能夠(gou)精準解(jie)析表(biao)(biao)(biao)格(ge)(ge)內容(rong),建(jian)立子(zi)表(biao)(biao)(biao)格(ge)(ge)間(jian)的邏輯關聯(lian),最終生成完整的分析報告。
再比如(ru)一個復雜輸入的用(yong)戶案例,小商戶在抖音等(deng)視頻平臺刷到(dao)有用(yong)的表(biao)(biao)格(ge)(ge)內容,截(jie)圖后上傳。商湯小浣熊可以通過圖片信(xin)(xin)息分解任務并(bing)去(qu)除(chu)干(gan)擾,提(ti)取表(biao)(biao)格(ge)(ge)信(xin)(xin)息,一鍵導出可編輯的Excel表(biao)(biao)格(ge)(ge)供用(yong)戶填寫,輸入、分析、輸出全程都(dou)有多模態能(neng)力支(zhi)持(chi)順(shun)暢(chang)進行。
傳統AI工具多扮演輔助角色,核心工作仍依賴用戶主導完成;而商湯小浣熊實現了交互范式的升級——由AI主動承擔核心任務,并通過精準提問和用戶確認關鍵信息,交互邏輯如同同事協作。
商(shang)湯(tang)小浣(huan)熊任(ren)務規(gui)劃功能的新穎交互模式,更利于用戶理解。
以(yi)前段時間大火的“蘇超”為例(li),用戶上傳圖(tu)像表格,要求分(fen)析“蘇超”TOP球員。商(shang)湯(tang)小浣熊會(hui)自(zi)動(dong)抓取網上信(xin)息,并依托專家(jia)知識生成(cheng)任務清單(如確定 “TOP5” 標準,分(fen)析青訓成(cheng)績等)進(jin)行系統性分(fen)析,最終生成(cheng)高(gao)質量分(fen)析文(wen)檔,還(huan)可(ke)導出為Excel、PPT、HTML等可(ke)編輯(ji)格式(shi)。
整體流程如下:
放大來看,AI是(shi)這么做(zuo)任務(wu)拆解與規劃的:
當接收任務后(hou),小浣(huan)熊會主動梳理任務細(xi)節(jie),就關鍵節(jie)點向用戶提出(chu)明確問題(ti)(如“是否需要(yao)按(an)以下1、2、3點推(tui)進?”),以確保任務方向準確,真正實現“AI主導(dao)干活、用戶決策把(ba)關”的高效模式。
接(jie)下來就能依(yi)據專家知識生成(cheng)任務清(qing)單(如確定“TOP5”標準,分析(xi)青訓成(cheng)績等(deng))進行系統性分析(xi),下一(yi)步該(gai)做什么、可以怎么商量著做一(yi)目了然。
專業數據+工具調(diao)用,實(shi)現高質量內(nei)容過(guo)程:
最終(zhong)生成高質(zhi)量分析文檔,還可(ke)導(dao)出為Excel、PPT、HTML等可(ke)編輯格式。
憑借復雜任務處理能力,商湯小浣熊加速向行業滲透,此次推出了面向兩大具體場景的特制版本——教育版和金融版。
商湯小浣熊教育版可智能分(fen)析學生學習表(biao)現、課程效果、學習行為模(mo)式分(fen)析,已(yi)覆(fu)蓋500+院校、10余種教育場景、25萬+教師和(he)學生,并已(yi)在多所學校協(xie)助教研(yan)團隊,幫(bang)助學生提升學習效率(lv)15~30%,降(jiang)低學業焦慮(lv)發生率(lv)40%,課堂參(can)與度提高(gao)2.1倍,資源(yuan)錯(cuo)配率(lv)降(jiang)低30%,心理健康干預及時性提升了50%。
商湯小浣熊金融版可為金(jin)融(rong)業(ye)提供知(zhi)識助手、智能(neng)問數、多(duo)模態智能(neng)理賠產(chan)品與解(jie)決(jue)方案,構建(jian)金(jin)融(rong)領域(yu)的 “人機協同” 智能(neng)決(jue)策新范(fan)式。
三、「悟能」具身智能平臺:讓機器人自然講解PPT,可構建4D真實世界
商湯「悟能(neng)(neng)」具身(shen)智能(neng)(neng)平臺以商湯具身(shen)世界模(mo)型為(wei)核心引(yin)擎(qing),依托商湯大裝置提供端側(ce)(ce)和云(yun)側(ce)(ce)算力(li)支持,能(neng)(neng)夠(gou)為(wei)機器人(ren)、智能(neng)(neng)設備提供強(qiang)大的感知、視覺導航及多模(mo)態交互能(neng)(neng)力(li),推(tui)動智能(neng)(neng)終(zhong)端向(xiang)更高(gao)層次的自主化(hua)與智能(neng)(neng)化(hua)演進。
商湯的世界模型叫“開(kai)悟”,“悟能”是(shi)“開(kai)悟智能”的縮寫。
該(gai)平臺(tai)可賦能機器人等各種終端(duan)硬件,實(shi)現對世界萬物的(de)感(gan)知理解能力,并支(zhi)持嵌入到端(duan)側(ce)芯片(pian),具(ju)有強大(da)的(de)場景適配性(xing)。
徐(xu)立展示了(le)搭載具身世界(jie)引擎(qing)的(de)(de)人形機器人。它能生動(dong)講(jiang)解“長安的(de)(de)荔枝”PPT的(de)(de)效果,語言自然,風趣幽默(mo),不僅可以(yi)自動(dong)翻頁,還能回答各類問題,并進(jin)行(xing)階段性(xing)小結。
商(shang)湯具身世(shi)(shi)(shi)界模型可生(sheng)(sheng)成多視(shi)角視(shi)頻,并確保良好(hao)的時間一(yi)致性(xing)和空間一(yi)致性(xing),讓機器能(neng)夠理解、生(sheng)(sheng)成、編輯(ji)真實世(shi)(shi)(shi)界,在(zai)空間層面實現(xian)世(shi)(shi)(shi)界交互(hu),讓“在(zai)真實的街道(dao)場景中(zhong)玩(wan)‘極品飛車’”成為(wei)可能(neng)。
該模型(xing)還能構建面向人、物(wu)、場的(de)(de)(de)4D真(zhen)實世界(jie)。用戶(hu)僅需要輸入簡單的(de)(de)(de)提(ti)示詞,比(bi)如“在廚房區域(yu)的(de)(de)(de)架(jia)子上(shang)找東西(xi)”,“進入娛(yu)樂室(shi)、向右轉,然后打開通往院子的(de)(de)(de)門”等(deng)等(deng),具(ju)身(shen)世界(jie)模型(xing)就能自主進行位姿(zi)、動作骨(gu)架(jia)和(he)指令的(de)(de)(de)生成。
徐立說,有(you)了這樣的一(yi)套模型,有(you)了這樣賦(fu)能的一(yi)個(ge)基礎,「悟能」具(ju)身智(zhi)能平(ping)臺最終(zhong)能幫助各種各樣具(ju)身智(zhi)能企業實現(xian)跟現(xian)實世界交互的夢想(xiang)。
在世界人(ren)工智能(neng)大(da)會展區,商(shang)湯科(ke)技的(de)展臺吸引了大(da)量(liang)參觀者駐(zhu)足(zu),一(yi)個會解說PPT的(de)人(ren)形(xing)機器人(ren)成為(wei)全場焦點。
這臺機器人基于商湯最(zui)新的日日新V6.5多模態大模型(xing),擁有(you)強大的音視頻處理和AI交互能(neng)力(li),能(neng)像人一樣(yang),邊翻頁講解(jie)PPT,邊應答(da)觀眾提問,即便(bian)在嘈雜的環境中(zhong),也能(neng)完成實時、流(liu)暢的互動(dong)。
傅(fu)利葉、鈦虎、鹿明、鯨魚AI、帕(pa)西尼(ni)等多(duo)家機器(qi)人也(ye)亮相商湯展(zhan)臺。
在(zai)商湯聯合生(sheng)態伙伴(ban)“朋友圈(quan)”打(da)造的(de)(de)(de)智(zhi)能(neng)生(sheng)態硬件(jian)展區(qu),各類(lei)基于(yu)日日新V6.5多模態大模型的(de)(de)(de)智(zhi)能(neng)硬件(jian)產品琳(lin)瑯滿目,有能(neng)和人(ren)類(lei)一樣對(dui)弈(yi)下棋(qi)的(de)(de)(de)元蘿卜AI下棋(qi)機(ji)器人(ren)、能(neng)給(gei)孩(hai)子講解各種知識的(de)(de)(de)靈宇宙隨身學伴(ban)、全(quan)(quan)球首款寵(chong)物(wu)喂養AI毛(mao)絨玩具(ju)、芙崽(zai)AI養成(cheng)潮玩等,展現了AI給(gei)生(sheng)活(huo)、學習帶來的(de)(de)(de)全(quan)(quan)新體驗(yan)。
商(shang)湯還(huan)全面(mian)展示了(le)AI基(ji)礎設施(shi)商(shang)湯大裝置,“開悟”世界模(mo)型(xing),以及(ji)商(shang)湯商(shang)量、辦公小浣熊、代碼小浣熊、咔(ka)(ka)皮記(ji)賬、咔(ka)(ka)皮action、如(ru)影數(shu)字人、Seko短(duan)片創作 Agent等(deng)各類AI原生(sheng)應用(yong),還(huan)有面(mian)向商(shang)業(ye)的(de)(de)金融智(zhi)腦、AI問客(ke)多模(mo)態文旅講解產(chan)品、SensePedia企業(ye)級智(zhi)能(neng)知識平臺、面(mian)向智(zhi)慧城市(shi)的(de)(de)Monolith新(xin)一(yi)代感知模(mo)型(xing)生(sheng)產(chan)平臺等(deng)創新(xin)成果。
結語:錨定多模態能力,提升生產力和交互體驗
1950年,圖靈通過“模仿游(you)戲”將AI定義為(wei)“類人(ren)能力”,但實際的AI一(yi)直未能擺脫“工(gong)具(ju)”的范疇,一(yi)度(du)陷入(ru)發(fa)展低谷。而(er)在大模型時代,AI憑借多(duo)模態融(rong)合(he)能力的突(tu)破(po),逐步觸達AGI邊界,真正開始向(xiang)“類人(ren)”標(biao)準靠近。
從學習到(dao)陪伴再到(dao)服務,大模(mo)型正把 “智(zhi)能” 搬(ban)進(jin)現(xian)實生活(huo)。商湯科(ke)技(ji)通過日(ri)日(ri)新(xin)V6.5,用多模(mo)態能力來(lai)推動生產力和交互體驗提升(sheng),與行業(ye)共赴(fu)下一階段AI進(jin)化(hua)的新(xin)征程(cheng)。
“商湯(tang)科技(ji)始終探尋人(ren)工智能本質,以技(ji)術(shu)創(chuang)新激發(fa)最大智能,推動AI完(wan)成(cheng)(cheng)從‘工具(ju)’到‘人(ren)’的躍遷,成(cheng)(cheng)為(wei)真(zhen)正(zheng)的生產力(li)。”徐立說。