
▲頭圖由AI生成
智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 心緣
智東西9月9日報道,昨天,阿里發布最新語音識別模型Qwen3-ASR-Flash,該模(mo)型(xing)基于Qwen3基座(zuo)模(mo)型(xing)訓練,支(zhi)持11種語言和多種口音(yin)。用(yong)戶可以通過ModelScope、HuggingFace和阿里云(yun)百煉API Qwen3-ASR-Flash免費體(ti)驗。
在ASR(自(zi)動(dong)語音識別)的多項基準測試中,Qwen3-ASR-Flash在方言、多語種、關鍵信息識別、歌詞等方面的識別錯誤率明顯低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴語音實驗室Paraformer-v1、字節豆包Doubao-ASR。
具體來看,該模型支持中文、英語、法語、德語等11個語種,識別過程中能自(zi)動分辨語(yu)音語(yu)種、自(zi)動過濾靜(jing)音和背景噪聲等非語音片段,其(qi)是基于(yu)海量多(duo)模態數據以及千萬(wan)小時規模的ASR數據構建(jian)的語音識(shi)別服務(wu)。
下面是官方放出的(de)電(dian)競比(bi)賽(sai)解說音(yin)頻示(shi)例。研究人(ren)員為這一場景(jing)(jing)配置了背景(jing)(jing)信息,包(bao)括關鍵詞列表、這場游戲的(de)背景(jing)(jing)等。因此識別結果中,即使電(dian)競解說人(ren)員的(de)語速非常快也沒有影響識別游戲專業術語的(de)效果。
ModelScope地址:
Hugging Face地址:
阿(a)里云(yun)百(bai)煉API調用地址:
//bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031
一、能識別游戲解說、英文說唱,連續多種噪音抗干擾拉滿
官方放(fang)出了5個(ge)演示示例,包含多種(zhong)類型噪(zao)聲、多語種(zhong)快速切(qie)換、方言、專業名詞的(de)音頻識別難(nan)題。
第一個是夾雜手機鈴聲、車鈴聲、音樂聲、水聲、雷聲等多種類型的連續噪音,其中(zhong)還(huan)會有不同人物之間切換對(dui)話,Qwen3-ASR-Flash在多(duo)人同時說(shuo)話或者說(shuo)話間隔非(fei)常短的情況下也(ye)對(dui)語音進行了準(zhun)確識別,沒有受到噪聲干擾。
第二個是英文(wen)說唱。英(ying)文說唱的(de)特點是語(yu)速快、歌詞(ci)中單(dan)詞(ci)連讀情況(kuang)多,識(shi)別結(jie)果中很多歌詞(ci)中的(de)單(dan)詞(ci)連讀、長(chang)難句識(shi)別準(zhun)確,且沒有受到背景音樂(le)的(de)干擾。
第三個是方言的識別。這一場景中,音頻中主(zhu)人公正(zheng)在開車(che),有(you)主(zhu)人公的方言和智能(neng)語(yu)音客服的普通話穿插出現(xian),音頻中智能(neng)語(yu)音客服將“糾正(zheng)”錯誤識(shi)(shi)別成了(le)“96”,Qwen3-ASR-Flash進(jin)行(xing)了(le)準確識(shi)(shi)別。
第四個是多(duo)語種句子切換,7秒的音頻(pin)里有英語(yu)、日語(yu)等5種語(yu)言,識別結果都進行(xing)了一一呈現。
最后是化學課程的一段音(yin)頻。識別結果中酯(zhi)基、酸、醛、氨等(deng)化學名詞,以(yi)及音(yin)頻中人物的語(yu)氣詞識別并未出錯(cuo)。
二、歌詞識別錯誤率低于8%,可定制語音識別結果
性(xing)能表現(xian),Qwen3-ASR-Flash的(de)自動語(yu)音(yin)(yin)識別(bie)錯誤率,在中文(wen)、英文(wen)、多語(yu)言(yan)自動語(yu)音(yin)(yin)識別(bie)、歌詞(ci)、關鍵信息識別(bie)的(de)錯誤率都要低于Gemini-2.5-Pro、GPT-4o-Transcribe、Paraformer-v1、Doubao-ASR。
在歌詞識別中,Qwen3-ASR-Flash支(zhi)持清(qing)唱和帶畢竟音樂(le)的整首(shou)歌識別(bie),研究(jiu)人(ren)員實測識別(bie)錯誤率低于8%。
該模型(xing)支持普通(tong)話(hua)以及四川話(hua)、閩南(nan)語(yu)(yu)(yu)(yu)(yu)、吳語(yu)(yu)(yu)(yu)(yu)、粵語(yu)(yu)(yu)(yu)(yu)等方言,英式(shi)(shi)、美(mei)式(shi)(shi)及多(duo)地區(qu)口音的英語(yu)(yu)(yu)(yu)(yu),其他語(yu)(yu)(yu)(yu)(yu)言如法(fa)語(yu)(yu)(yu)(yu)(yu)、德語(yu)(yu)(yu)(yu)(yu)、俄語(yu)(yu)(yu)(yu)(yu)、意大利語(yu)(yu)(yu)(yu)(yu)、西(xi)班牙(ya)(ya)語(yu)(yu)(yu)(yu)(yu)、葡萄牙(ya)(ya)語(yu)(yu)(yu)(yu)(yu)、日語(yu)(yu)(yu)(yu)(yu)、韓語(yu)(yu)(yu)(yu)(yu)和阿拉伯語(yu)(yu)(yu)(yu)(yu)。
如果想要獲得定制化的ASR結果,用戶可提供任意格式的背景文本來獲得傾向性ASR結果,且用戶無需對(dui)上下(xia)文信息(xi)進行(xing)預處(chu)理。
其支持的格式包括但不限于以下一種,簡(jian)單的(de)關鍵詞(ci)(ci)或(huo)熱(re)詞(ci)(ci)列表、任(ren)(ren)意長度和來源的(de)完整段落或(huo)整篇文(wen)檔、以任(ren)(ren)意格式混合的(de)關鍵詞(ci)(ci)列表與(yu)全(quan)文(wen)段落、無關甚至無意義的(de)文(wen)本。研究人員提到,模型對無關上下文的負(fu)面影(ying)響具有高度魯棒(bang)性(xing)。
基于此,Qwen3-ASR-Flash可以利用該上下(xia)文(wen)識別(bie)(bie)并匹(pi)配命名實體(ti)和(he)其他關鍵術(shu)語,輸出(chu)定(ding)制化(hua)的識別(bie)(bie)結果。
結語:后續將迭代通用語音識別精度
一直以來,復雜聲學環(huan)境、多樣化語(yu)(yu)音特征、專業術(shu)語(yu)(yu)等都是語(yu)(yu)音識別的最大(da)難點。此次為了保(bao)證用(yong)戶對輸出結果的可控,阿(a)里研究人員上線了背景(jing)文本上傳功能,使得這一生成(cheng)結果能更(geng)加(jia)符(fu)合用(yong)戶的預期(qi)。