又一国产多模态大模型开源，复杂声音一耳朵分辨，多测试SOTA，还能聊哲学

智東西（公眾號：zhidxcom）
作者 | 王涵
編輯 | 漠影

智東西9月1日消息，今天上午，階躍星辰正式發布開源端到端語音大模型Step-Audio 2 mini，該模型在通用多模態音頻理解等多個國際基準測試集上取得SOTA成績。

Step-Audio 2 mini將語音理解、音頻推理與生成統一建模，在音頻理解、語音識別、跨語種翻譯、情感與副語言解析、語音對話等任務中表現較好，并支持語音原生的Tool Calling能力，可實現聯網搜索等操作。

一句(ju)話總結，Step-Audio 2 mini可(ke)以(yi)“聽得清楚(chu)、想得明(ming)白、說得自然”。

該模型現(xian)已(yi)上線階躍(yue)星辰開放平臺(tai)、GitHub、Hugging Face、魔搭(da)社區等平臺(tai)：

又一國產多模態大模型開源，復雜聲音一耳朵分辨，多測試SOTA，還能聊哲學

體驗地址：

//realtime-console.stepfun.com

GitHub：

//github.com/stepfun-ai/Step-Audio2

Hugging Face：

//huggingface.co/stepfun-ai/Step-Audio-2-mini

魔搭社區：

//www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini

一、口語對話能力第一名，拿捏方言和小語種

Step-Audio 2 mini在多個關(guan)鍵基準測試中取得SOTA成(cheng)績(ji)，在音頻理解、語(yu)音識別、翻譯和對(dui)話場(chang)景中表現(xian)突(tu)出，綜(zong)合性能超越Qwen-Omni、Kimi-Audio在內的開源端(duan)到端(duan)語(yu)音模型(xing)，并在大部分任務上超越GPT-4o Audio。

又一國產多模態大模型開源，復雜聲音一耳朵分辨，多測試SOTA，還能聊哲學

在通用多模態音頻理解測試集MMAU上，Step-Audio 2 mini以73.2的得分位列開源端到端語音模型榜首；
在衡量口語對話能力的URO Bench上，Step-Audio 2 mini在基礎與專業賽道均拿下開源端到端語音模型最高分，超越Qwen-Omni和Kimi-Audio；
在中英互譯任務方面，Step-Audio 2 mini在CoVoST 2和CVSS評測集上分別取得39.3和29.1的分數，領先GPT-4o Audio；
在語音識別任務上，Step-Audio 2 mini取得多語言和多方言第一。其中開源中文測試集平均CER（字錯誤率）3.19，開源英語測試集平均WER（詞錯誤率）3.50。

又一國產多模態大模型開源，復雜聲音一耳朵分辨，多測試SOTA，還能聊哲學

在不同語種的基準測試上，Step-Audio 2 mini在評價中文能力的FLEURS Chinese上取得第一名的成績。

二、引入CoT還支持web檢索，擴大語音模型的知識面

過往的AI語(yu)音(yin)常(chang)被吐槽(cao)智(zhi)商(shang)、情(qing)商(shang)雙低。一(yi)是(shi)“沒知(zhi)(zhi)識(shi)”，缺乏文(wen)本大模型一(yi)樣的知(zhi)(zhi)識(shi)儲備和推理能力；二是(shi)“冷冰(bing)冰(bing)”，聽不懂潛臺(tai)詞，語(yu)氣、情(qing)緒、笑聲這些“弦外(wai)之音(yin)”。Step-Audio 2 mini通(tong)過創(chuang)新(xin)架構設計，試(shi)圖解決此類問(wen)題。

端到端多模態架構：Step-Audio 2 mini突破傳(chuan)統(tong)ASR+LLM+TTS三(san)級結(jie)構，實現原始音頻輸入(ru)到(dao)語(yu)音響(xiang)應輸出的(de)直(zhi)接轉(zhuan)換(huan)，架構更簡(jian)潔、時延更低，并能有效理(li)解(jie)副語(yu)言信息與非人(ren)聲信號。

又一國產多模態大模型開源，復雜聲音一耳朵分辨，多測試SOTA，還能聊哲學

CoT推理結合強化學習：Step-Audio 2 mini在端到(dao)端語(yu)(yu)音(yin)(yin)模型(xing)中首次引入鏈式思維(wei)推理(li)(li)（Chain-of-Thought，CoT）與(yu)強化(hua)學習(xi)聯合優(you)化(hua)，能對(dui)情緒、語(yu)(yu)調(diao)、音(yin)(yin)樂等副語(yu)(yu)言和非語(yu)(yu)音(yin)(yin)信號進行(xing)精細理(li)(li)解、推理(li)(li)并(bing)自然回應。

音頻知識增強：模型支持包(bao)括web檢(jian)索等外部工具，有助于模型解決幻覺問題，并賦予模型在(zai)多場(chang)景擴展上的(de)能(neng)力(li)。

三、實測：可以精準識別鳥鳴和引擎聲，但沒分清Meta和微軟

智東(dong)西第一時(shi)間對Step-Audio 2 mini進(jin)行了實測(ce)。總的來說，其生成(cheng)的語(yu)音真人感比較(jiao)(jiao)強(qiang)，停頓和語(yu)氣都比較(jiao)(jiao)自然(ran)，但是Step-Audio 2 mini在信息識別上還需要加強(qiang)。

其可以(yi)(yi)選(xuan)擇的(de)音色也有限，主頁只(zhi)可以(yi)(yi)選(xuan)擇男聲或(huo)女聲，其他條件可以(yi)(yi)在prompt中進行(xing)調整。并(bing)且在Step-Audio 2 mini的(de)體(ti)驗網(wang)頁上，個人(ren)用戶體(ti)驗只(zhi)能對話一次(ci)，次(ci)數比較有限。

又一國產多模態大模型開源，復雜聲音一耳朵分辨，多測試SOTA，還能聊哲學

以(yi)下(xia)是(shi)一些實(shi)測案例：

在官方提供的(de)案例(li)中，Step-Audio 2 mini能分(fen)清鳥叫、流(liu)水、車聲(sheng)(sheng)和(he)發條(tiao)玩具聲(sheng)(sheng)這四種不同的(de)聲(sheng)(sheng)音，它甚至能聽出(chu)汽車聲(sheng)(sheng)中的(de)引擎加速變化。

用戶也可以選擇聯網(wang)模式，讓Step-Audio 2 mini進(jin)行實時搜索，并(bing)且用語音輸出。

聊到OpenAI最新動態，Step-Audio 2 mini通過工(gong)具調用(yong)搜索，迅速挖(wa)掘出最新語音模型(xing)資訊。

在這里智東西也進(jin)行了實(shi)測，我問“你知道最(zui)近Meta最(zui)新的人工智能部門有什(shen)么新的動態嗎(ma)？”：

Step-Audio 2 mini卻回(hui)答(da)成了微軟(ruan)的(de)AI動態(tai)，但是(shi)語音(yin)識別出的(de)是(shi)正確的(de)Meta，其(qi)在(zai)生(sheng)成準確性上還需(xu)要(yao)加(jia)強。

又一國產多模態大模型開源，復雜聲音一耳朵分辨，多測試SOTA，還能聊哲學

用戶也可以通過語(yu)音控(kong)制，讓Step-Audio 2 mini調整語(yu)速。

比如，讓Step-Audio 2 mini變換(huan)語調(diao)讀《靜夜思》：

當被(bei)問(wen)(wen)及“愛(ai)美是(shi)自由還是(shi)枷鎖”這(zhe)類哲(zhe)學難題時，Step-Audio 2 mini可以與用戶進行(xing)實時溝通(tong)，能將抽象問(wen)(wen)題轉化(hua)為“購物前問(wen)(wen)自己三(san)個問(wen)(wen)題”的(de)方法論(lun)。

結語：階躍星辰端到端語音大模型加速落地

此前，吉利(li)發布了搭(da)載階躍星辰(chen)端(duan)(duan)到(dao)端(duan)(duan)語(yu)音大(da)模型的吉利(li)銀河M9，這是(shi)行(xing)業內(nei)端(duan)(duan)到(dao)端(duan)(duan)語(yu)音大(da)模型首次(ci)實(shi)現量產上車。

據階躍(yue)星辰(chen)相(xiang)關人士介(jie)紹，自去年發布國內首個千億參數端(duan)到端(duan)語音大模型Step-1o Audio以來(lai)，階躍(yue)星辰(chen)持續迭(die)代(dai)模型性能(neng)，并跟吉利、鯨魚(yu)機器(qi)人、TCL、Cyan青(qing)心意創等終端(duan)廠(chang)商達成合作，讓語音大模型在生活場景(jing)中加速落地。

開源方面，今(jin)年階(jie)躍星(xing)辰已開源8款多模態(tai)模型(xing)，覆蓋語音、視頻生成等(deng)領(ling)域，助力全球開源社區。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、口語對話能力第一名，拿捏方言和小語種

二、引入CoT還支持web檢索，擴大語音模型的知識面

三、實測：可以精準識別鳥鳴和引擎聲，但沒分清Meta和微軟

結語：階躍星辰端到端語音大模型加速落地

相關推薦