
智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
國產(chan)大模型,給人(ren)形機(ji)器人(ren)裝上大腦、眼睛(jing)、耳朵和(he)嘴巴了(le)!
這位傅利葉(xie)通用人(ren)(ren)形機器人(ren)(ren)GRx,立(li)即辨認出(chu)“水”和“可樂”,還(huan)能根據說話人(ren)(ren)提出(chu)的“想減肥+愛運(yun)動”需求,給(gei)出(chu)適合的建議(yi)。
讓(rang)它夸人,也是張口就來(lai)。
另一(yi)位具身智能(neng)機(ji)器人“飛燕”,能(neng)娓娓道來地描述眼前的場景,包括室內(nei)環境如何(he)、人們在做(zuo)什么。
這意味著以(yi)后機器人(ren)(ren)迎(ying)賓或當解說員,不(bu)再(zai)是站(zhan)樁上崗了,而是活(huo)人(ren)(ren)感滿(man)(man)滿(man)(man),更(geng)自如地跟人(ren)(ren)侃天侃地聊(liao)周(zhou)圍,還(huan)能察覺眼(yan)前人(ren)(ren)的心情,通過改變(bian)語氣(qi)和音(yin)調給足情緒價值(zhi)。
這些多(duo)模態能力(li),來自商湯(tang)剛(gang)剛(gang)發布(bu)的新一(yi)代「日日新SenseNova V6」大模型。
今天,「日日新SenseNova V6」火力全開,實現「長思維鏈 x 數理能力 x 推理能力 x 全局記憶」能力升級,包括最長64K思維鏈、大幅領先GPT-4o的數據分析能力、多模態深度推理國內第一、10分鐘長視頻理解及深度推理等強項,還(huan)展示了將先(xian)進視覺交互和理解引入機器人的應用(yong)效果。
商湯這次多(duo)模態(tai)能力的升(sheng)級,讓(rang)人形機器(qi)人在視覺和語言能力上,具備了更(geng)趨近人的水平。
當智東西問到是否會推動大模型加速應用到具身智能機器人,商湯科技聯合創始人、執行董事及人工智能基礎設施和大模型首席科學家林達華干脆利落地回答:“這個肯定會去做。”
林達華(hua)說(shuo),商湯將(jiang)(jiang)“如何(he)將(jiang)(jiang)機器人(ren)交(jiao)互能力與具身智能的(de)結(jie)合”視作一個非常重要的(de)未來發展方向(xiang)。他認為最終(zhong)的(de)AI交(jiao)互形態是像(xiang)人(ren)一樣交(jiao)互,不(bu)會是對(dui)著一個電腦窗口(kou),屆(jie)時從機器人(ren)、汽車到(dao)手機、眼鏡(jing),多模態交(jiao)互將(jiang)(jiang)無處不(bu)在。
除了當導游、講解(jie)員,「日(ri)(ri)日(ri)(ri)新SenseNova V6」也(ye)能玩創意,智(zhi)東西實測了讓它給(gei)空白梗圖設(she)計對話,腦洞開得(de)既多又(you)大。
它還能速覽(lan)中長(chang)分鐘視(shi)頻(pin),總結重(zhong)點(dian)內容,精確(que)到視(shi)頻(pin)里的幾分幾秒(miao),而且能按照用戶要求,將(jiang)信息按列(lie)表形式輸出,或是(shi)剪(jian)輯指定場景的視(shi)頻(pin)片段(duan)。
只需在商(shang)量網頁版上(shang)傳一個(ge)視頻,你就(jiu)可以做針對性的提問,比(bi)如(ru)“這倆人關系怎么樣?”、“這個(ge)人推薦的三個(ge)商(shang)品,哪個(ge)性價比(bi)高?”
你還可以讓(rang)它深入分析故事情節,比如(ru)分析某(mou)一集《名偵探柯南》里(li)兇手(shou)是怎么下毒的(de)。
林達華透露說,今年商湯將把視頻理解支持時長進一步提升到1小時。
商(shang)量App上的實時(shi)視音頻(pin)交互(hu)能(neng)力也非常絲滑方(fang)便,打(da)開手機攝像頭,就可以哪里(li)不(bu)懂(dong)問(wen)哪里(li)。無(wu)論(lun)是鏡(jing)頭里(li)一掃而過的街景,還(huan)是講解數學(xue)題(ti)和翻譯文(wen)字,或者看圖講故事,AI都信(xin)手拈來(lai)。
全新商量網(wang)頁版即日(ri)上線,商量App已開(kai)啟內測(ce),日(ri)日(ri)新SenseNova V6 API明日(ri)上線。
網頁版指路:chat.sensetime.com
商(shang)湯(tang)還(huan)發布商(shang)湯(tang)大裝(zhuang)置SenseCore 2.0,同時推出(chu)四大行業解決方案,要做(zuo)“最懂(dong)大模型的AI基礎設施”。
值得一(yi)提的是,國產芯片參與了(le)「日日新SenseNova V6」的訓練。
商湯科技聯合創始人、大(da)裝置事(shi)業群(qun)總裁(cai)楊(yang)帆告(gao)訴智(zhi)東西,國(guo)產芯片(pian)這三年(nian)快速進步,商湯持續(xu)對(dui)進口(kou)及國(guo)產芯片(pian)做適配和優化,希望能提供市(shi)場最優的(de)性(xing)價比。
一、6000億參數多模態基座模型開“團戰”:強推理 x 強交互 x 長記憶
2025年大模型發(fa)展有(you)三大重要(yao)技術(shu)趨勢(shi):效率至上、多模態(tai)、深度推理。
新發布的「日日新SenseNova V6」原生多模態通用大模型,采用混合專家架構(MoE),擁有6000億參數,做到三合一:多模態長思維鏈+多模態強化學習+多模態全局記憶。
其推(tui)(tui)理(li)(li)能(neng)力(li)(li)顯著(zhu)提升(sheng),一個(ge)模(mo)(mo)(mo)(mo)型(xing)(xing)同時在多(duo)模(mo)(mo)(mo)(mo)態推(tui)(tui)理(li)(li)和(he)純文本推(tui)(tui)理(li)(li)上做到性(xing)能(neng)對(dui)標(biao)國際(ji)領先模(mo)(mo)(mo)(mo)型(xing)(xing)。從商湯展示的分數來看,SenseNova V6 Reasoner推(tui)(tui)理(li)(li)模(mo)(mo)(mo)(mo)型(xing)(xing)的推(tui)(tui)理(li)(li)能(neng)力(li)(li)超過了OpenAI o1和(he)Gemini 2.0 flash-thinking。
商湯也實誠地放(fang)出了SenseNova V6與OpenAI、谷歌、DeepSeek先進模(mo)型在純文(wen)本、多模(mo)態、純文(wen)本推理(li)、多模(mo)態推理(li)上(shang)的具體(ti)分數(shu)對比,總(zong)體(ti)旗鼓相當,高低略有參差?。
其(qi)中(zhong),純文本推(tui)理和多模態推(tui)理方面,SenseNova V6在多項數學基(ji)準(zhun)測試中(zhong)的超過了DeepSeek-R1、OpenAI o1、GPT-4.5。
SenseNova V6的(de)Tablebench通過率(lv)超過GPT-4o,展現出(chu)強推理能力(li)。
主打實時視音(yin)頻(pin)交互的(de)SenseNova V6 Omni,實現(xian)了視頻(pin)-語音(yin)交融的(de)端(duan)到端(duan)輸(shu)入輸(shu)出,在多模態音(yin)視頻(pin)學術榜(bang)單(dan)上(shang)的(de)綜合能力全面(mian)領先,單(dan)項能力對標專(zhuan)用(yong)大模型水準(zhun),做到視覺理解準(zhun)確(que)度高,語音(yin)錯誤率低。
在場景能力(li)(li)私域評測中,SenseNova V6 Omni在識(shi)別能力(li)(li)、問(wen)答對話、記憶能力(li)(li)等(deng)維度(du)均顯著領先于同類產品(pin)。
二、攜手具身智能,讓機器人真聽、真看、真思考
模(mo)型(xing)不(bu)能紙(zhi)上談兵,解決(jue)現實問題(ti)才(cai)是硬本事。商湯認為,大模(mo)型(xing)在商業(ye)(ye)應用上有兩個關鍵價(jia)值:融(rong)入真實的(de)業(ye)(ye)務應用,優化(hua)與人交互體驗(yan)。
而真實(shi)世界中的對話,不(bu)是像跟DeepSeek對話那樣,把每個指令(ling)都(dou)描述(shu)得很完(wan)整清晰(xi),可能(neng)隨手指著一個東西提問:“那個是啥?”“這道(dao)題怎(zen)么做(zuo)?”
對應到(dao)機器人也是如此(ci)。
多模態融合模型可以成為機器人的大(da)腦和眼睛,增強感知(zhi)能力(li),像人一樣進行深(shen)入思考和自然表達,還有更強的記(ji)憶(yi)力(li),比如能夠記(ji)住之前(qian)來參觀過(guo)的人。
這(zhe)使(shi)得機(ji)器(qi)人(ren)在落地(di)到導(dao)覽(lan)等(deng)應(ying)用場(chang)景時,可以隨時隨地(di)做講解(jie),在網絡通暢(chang)的狀態下(xia),實時理解(jie)和響應(ying)語音意圖,與人(ren)流暢(chang)對(dui)話(hua),實現更擬人(ren)化的社(she)交與互動。
得益于「日日新SenseNova V6 Omni」多(duo)模態(tai)能力的進(jin)化,機器(qi)人(ren)能夠看懂(dong)人(ren)的手勢,回(hui)答人(ren)們(men)對周圍環境及物(wu)品的提問,根(gen)據對話內容和場景靈活切換交流方式,帶(dai)給用戶更真實、親切的互動體(ti)驗(yan)。
具身(shen)智能將是商湯(tang)多模態(tai)推(tui)理(li)模型的重要場景之(zhi)一。此次技術交(jiao)流(liu)日(ri)上,商湯(tang)特(te)別設置具身(shen)智能主(zhu)題論壇。
談到近期引(yin)起輿論爭(zheng)議的“朱嘯虎批量退出人(ren)(ren)(ren)(ren)(ren)形機器(qi)人(ren)(ren)(ren)(ren)(ren)”以及(ji)具身智能泡(pao)沫(mo)話題(ti),作(zuo)為(wei)人(ren)(ren)(ren)(ren)(ren)形機器(qi)人(ren)(ren)(ren)(ren)(ren)嘉賓代表,銀河(he)通用合(he)伙人(ren)(ren)(ren)(ren)(ren)、大模(mo)型負責(ze)人(ren)(ren)(ren)(ren)(ren)張直政談道,作(zuo)為(wei)科(ke)研人(ren)(ren)(ren)(ren)(ren)員,他從謹慎樂觀的角度來看(kan)待,泡(pao)沫(mo)對于驅動科(ke)技創新很正常。
商湯科技聯(lian)合創始人(ren)、大裝置事(shi)業群總(zong)裁楊帆認(ren)為,科技產業要(yao)經歷質(zhi)疑,克服質(zhi)疑,才能(neng)邁向更認(ren)真嚴肅的產業階段,讓大家(jia)更認(ren)真的思考距離商業落地(di)還有多遠(yuan)。他相信多模態交互能(neng)力(li)會給機器(qi)人(ren)帶來幫助。
三、AI融入“百姓日用”:總結中長視頻重點,生成游戲解說腳本,實時視音頻通話
在日(ri)常生活和辦公場景中(zhong),應(ying)用了「日(ri)日(ri)新SenseNova V6」系列模型(xing)后,也能帶來更(geng)多便利和生產力的(de)提升。
比如上傳時長10分鐘以(yi)內(nei)(nei)的網課、旅游、生活類視頻(pin),就可以(yi)讓AI快(kuai)速(su)整(zheng)理重點、回答(da)與視頻(pin)內(nei)(nei)容相關的問題。
商家可(ke)以收(shou)集顧客對新(xin)品(pin)的(de)評論吐槽截圖(tu),讓「日(ri)日(ri)新(xin)SenseNova V6」做(zuo)專(zhuan)業的(de)經營分析。
它還(huan)能解(jie)決(jue)真實辦公場景(jing)里繁瑣(suo)但重要的需求,包(bao)括信息管(guan)理、報告生(sheng)成(cheng)、運維(wei)日志生(sheng)成(cheng)、數學建模等。
另外(wai)通(tong)過商量(liang)app,不僅有常見的文字(zi)聊天、圖片問答、深度思考等功(gong)能(neng),還能(neng)進行音頻(pin)通(tong)話(hua)和視頻(pin)通(tong)話(hua),并針對四(si)大(da)(da)高頻(pin)需求,提供(gong)「數學解(jie)題」、「點讀翻譯」、「文旅(lv)講解(jie)」、「繪本講解(jie)」四(si)大(da)(da)功(gong)能(neng)。
你可以跟AI玩“你畫我(wo)猜”。在(zai)開場演示中,「日日新SenseNova V6」立(li)即識別出用戶正在(zai)畫的(de)是(shi)哪吒(zha)大電影里(li)的(de)太乙真人。它還能惟(wei)妙(miao)惟(wei)肖地模仿太乙真人角色的(de)口音。
拍(pai)照(zhao)解題幾乎已經是各類多模(mo)態AI聊天app的(de)標配(pei)。但這些普(pu)遍要先拍(pai)照(zhao),上傳(chuan)照(zhao)片(pian),再等AI輸出一個(ge)很長的(de)答案(an)。
而通過商(shang)量app實時視頻通話,AI可以(yi)像一個真人家(jia)教,精準識(shi)別(bie)手寫體,深度(du)推理(li)分析(xi)和定位錯(cuo)(cuo)誤,并針(zhen)對(dui)錯(cuo)(cuo)誤點一步一步引(yin)導式(shi)講題。
外出旅(lv)游就更(geng)方便了,相(xiang)當于在手機里擁有一個博(bo)學多識的免(mian)費導游,打開攝(she)(she)像頭一掃(sao),想(xiang)問(wen)什(shen)么都能立即(ji)獲(huo)得答案。你(ni)還可以把攝(she)(she)像頭對準外文書籍(ji)或菜單,讓AI實(shi)時(shi)翻(fan)譯(yi)。
在家庭場景,很多家長沒有(you)時(shi)間讀(du)繪本(ben),或者得(de)絞盡腦(nao)汁地給孩子講故(gu)事(shi)。這也(ye)可以由商量app代勞,它能實現連續記憶與時(shi)序邏(luo)輯(ji)理解(jie),講述更完整(zheng)生動的(de)故(gu)事(shi),還能挖掘(jue)故(gu)事(shi)深意,升華主旨。
四、三大多模態技術創新,商湯大裝置大降推理成本
上(shang)(shang)述進展(zhan)離(li)不開商(shang)湯(tang)在技(ji)術上(shang)(shang)的(de)持續創(chuang)新。會上(shang)(shang),商(shang)湯(tang)著(zhu)重強調了三類技(ji)術:
(1)多模態長思維鏈:通(tong)過智(zhi)能(neng)體(Agents)協作進行(xing)長(chang)思維(wei)鏈合成和驗證,可支持合成最長(chang) 64K的(de)多(duo)模(mo)態長(chang)思維(wei)鏈,使模(mo)型具備(bei)面對復雜問題的(de)長(chang)時間思考能(neng)力。
(2)多模態強化學習:構(gou)建了面(mian)向(xiang)多種(zhong)圖文任務的(de)混(hun)合增強學習框架,可以同步進行基于人類(lei)偏(pian)好的(de)RLHF、基于確定(ding)性答案或沙(sha)盒運行的(de)RFT,并通過(guo)動態調節機制保證主客觀表(biao)現的(de)均衡(heng)。
(3)多模態全局記憶:可將視覺信息、聽覺、語言、與(yu)時間軸邏輯進(jin)行對(dui)齊,形成多模態統一(yi)時序表征。在此(ci)基礎上通過內容敏感(gan)的細粒度級聯信息壓(ya)縮,實(shi)現400倍(bei)的長視頻壓(ya)縮。
此外,SenseNova V6 Video將視頻理解時長突破到10分鐘,離不開長視頻統一表征和動態壓縮的技(ji)術進步,可將10分鐘長視頻壓(ya)縮到16K tokens,同時仍然保留關(guan)鍵(jian)語義。通過“視覺-聽覺-語義”三重關(guan)聯(lian)推理,它能發現視頻內(nei)容中的一些矛盾和漏洞。
大模型技術的高效落地與規模化應用,離不開高效穩定的算力底座。據商湯科技聯合創始人、大裝置事業群總裁楊帆透露,商湯大裝置已經將商湯多模態推理應用的成本降到和大語言模型一樣。
通(tong)過PD分離/通(tong)信計(ji)算(suan)折疊(die)/FP8強化/算(suan)子優(you)化等(deng)基礎設(she)施與模(mo)型(xing)(xing)協同優(you)化,結合預測模(mo)型(xing)(xing)驅(qu)動的彈性(xing)(xing)伸縮技術,商湯大裝置實現(xian)了推理性(xing)(xing)能的突破,在線(xian)服務性(xing)(xing)能較頭部(bu)廠(chang)商提升15%,超(chao)行業平(ping)均水平(ping)25%;離線(xian)推理方面,Prefill階段(duan)提速5倍,Decode階段(duan)提速3.5倍。
此外,商湯大(da)裝置(zhi)聯合某頭部客(ke)戶進行了大(da)規模異構混(hun)訓,基于自動并行策略(lve)、跨(kua)芯通信、容錯恢復(fu)等核心技術(shu),在(zai)5000張國產(chan)GPU集群上實現1個月(yue)穩定異構混(hun)訓,達成(cheng)80%算力(li)利用率,成(cheng)功突破單一GPU限制(zhi),為國產(chan)芯片碎片化問(wen)題提供了關鍵解決(jue)方案(an)。
商湯大裝置還宣布今年發放1億代金券,全棧賦能場(chang)景(jing)落地。
結語:商湯堅定“三位一體”戰略,加速“一基兩翼”布局
大模型(xing)算法與(yu)基礎設施的聯(lian)合優化,已經成為推動生成式AI飛速發展的核心動力。
當前,商湯(tang)正基于(yu)“大裝置-大模(mo)型(xing)-應用(yong)”三位一(yi)體核(he)心戰略,全面構建未來競爭力(li)(li),致力(li)(li)于(yu)通過基礎設施、大模(mo)型(xing)和應用(yong)的協(xie)同迭代,成為(wei)“最(zui)懂算力(li)(li)的大模(mo)型(xing)服務(wu)商”和“最(zui)懂大模(mo)型(xing)的算力(li)(li)服務(wu)商”。
基(ji)于三位(wei)一體戰略,商湯打造以日(ri)日(ri)新(SenseNova)多(duo)模態大(da)模型為基(ji)石,以生產(chan)力(li)工(gong)(gong)具(ju)和交互(hu)工(gong)(gong)具(ju)為兩(liang)大(da)落地(di)方向(xiang)的“一基(ji)兩(liang)翼”布局。其(qi)中生產(chan)力(li)工(gong)(gong)具(ju)側重(zhong)(zhong)在企業copilot、金融、政(zheng)務,交互(hu)化工(gong)(gong)具(ju)側重(zhong)(zhong)在擬人交互(hu)、多(duo)模態交互(hu)、智能營銷。
從(cong)技術突破、商(shang)業落地到生態協同,商(shang)湯(tang)正在(zai)摸索出作為獨立(li)AI企業的核(he)心(xin)競(jing)爭力,深入真(zhen)實場景需求,服務于大眾和企業日常,將多(duo)模(mo)態大模(mo)型的優勢真(zhen)正落到實處,實現更智慧、更溫暖、更有(you)用的人機交互。