智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影

智東西8月7日報道,今天,MiniMax推出新一代語音生成模型Speech 2.5

相比5月發布的Speech 02,Speech 2.5有三大新突破:多語種表現更自然音色復刻更像、40個語種覆蓋更廣。

目前,Speech 2.5已(yi)全(quan)球(qiu)上線,用戶可以登錄(lu)MiniMax開(kai)放平臺或MiniMax Audio官(guan)網體(ti)驗:

MiniMax開放平臺(tai):minimaxi.com/platform_overview

MiniMax Audio:minimaxi.com/audio

MiniMax語音模型上新!40種語言真人級生成,喜馬拉雅、網易已接入聲線

▲Speech 2.5主頁

用戶可以(yi)在(zai)Speech 2.5主頁選擇想(xiang)要的音(yin)色,在(zai)對話框(kuang)內輸入(ru)文字描(miao)述,也可以(yi)上傳文件,就可以(yi)一(yi)鍵(jian)生(sheng)成所需音(yin)頻。下(xia)文呈現了(le)官(guan)方公(gong)布的Speech 02生(sheng)成音(yin)頻的Demo和智東西實測案例:

一、多語種自然表達,減小機械感

MiniMax Speech 2.5提(ti)高了生成音頻的相似度和自然韻律度,降低了字錯率、減小了AI生成的商務(wu)會(hui)議、日常(chang)對話、英文(wen)播客的機械(xie)感。

智東西實測,其還可以給音頻添加場景氛圍音,例如美國女高中生在廣播中演講

音頻內容:Two years is nothing, but at the same time a lot can be accomplished in two years. You can try a sport you’ve always wanted to start, and become great at it. You can start a morning routine and affect your mood and stress at a deep level. You can meditate for a few minutes per day, become more self-aware and change the way you react to problems. You can start a business and make it a big success.

生成的音頻不但(dan)可以(yi)清晰(xi)準確地念出文字(zi),還有母語(yu)者很地道的停頓(dun)、語(yu)調。

立下復仇誓言的哈姆雷特

音頻內容:Remember? Yea, from the tables of my memory, I’ll wipe away all trivial fond records. All saws of books, all forms, all pressures past, that youth and observation copied there. And then commandment all alone shall live within the book and volume of my brain, unmixed with baser matter. Yes, yes by heaven.

再比如,充滿激情的西班牙體育賽事解說員:

音頻內容:?Arranca el genio por la derecha, deja atrás a uno, se saca de encima al segundo, entra al área, prepara el remate…?GOLAZO MONUMENTAL! ?Una obra de arte que sella la victoria y desata la locura total!

二、跨語種復刻口音,還原聲線

Speech 2.5還可以跨(kua)語種(zhong)復刻口(kou)音(yin),保留同(tong)語種(zhong)不(bu)同(tong)地區的口(kou)音(yin),還能(neng)保留特殊(shu)年齡的聲線特點,用戶可以自由選擇(ze)自己想要的音(yin)色。

智東西實測,用霸道總裁的聲線說甄嬛傳中皇上的經典臺詞:

音頻內容:嬛嬛一裊楚宮(gong)腰,那更(geng)春來香減(jian)玉(yu)消。紫(zi)禁城(cheng)的(de)風(feng)水養(yang)人,必不會叫你玉(yu)減(jian)香消。

用英國女王的經典發音來介紹最新的Speech 2.5會是什么樣?

音頻內容:Hello everyone. We’re thrilled to introduce the next generation of our voice model: MiniMax Speech 2.5. Building on its predecessor, Speech 2.0, this new version is more powerful than ever. But where it truly shines is in its incredible realism. The model masterfully captures the subtle nuances of the human voice——from trailing intonation and vocal style, to the full spectrum of emotion, all reproduced with stunning authenticity.

從停頓、節奏、到發(fa)音處理,模型生(sheng)成的(de)語音保持了純正的(de)“女王(wang)腔”。

跨語種復刻也可以辦到,智東西讓Speech 2.5用熱血韓漫男主的音色說“美美桑內”歌詞,在(zai)韓語(yu)和英(ying)語(yu)中切換:

音頻(pin)內容:???? ??,???? ??,never stop burn it,? ?? ??? oh you know?

同一音色在意大利語、英語間的切換:

音頻內容:Questa è la mia vera voce. I find speaking English a bit difficult. It’s like trying to speak Italian without using hand gestures.

在(zai)不(bu)同的語言中(zhong)切換,Speech 2.5生成的內(nei)容依舊可以(yi)保留(liu)口音特(te)色細節。

三 、新增多個小語種,語種類型增至40個

Speech 2.5新(xin)增了保加利亞語(yu)(yu)、丹麥語(yu)(yu)、希(xi)伯來語(yu)(yu)、馬(ma)來語(yu)(yu)、波(bo)斯語(yu)(yu)、斯洛伐(fa)克語(yu)(yu)等(deng)多個(ge)小語(yu)(yu)種(zhong),語(yu)(yu)種(zhong)類(lei)型擴充(chong)到(dao)了40個(ge)。跨境電商、出海客(ke)服、本(ben)地化(hua)營銷(xiao),全球化(hua)內(nei)容可(ke)以一(yi)鍵創作。

比如馬來語:

音(yin)頻內容:Selamat datang, semoga hari anda indah.

希伯來語:

音頻內容:.?????? ??????? ???? ???

四、促進跨境業務,喜馬拉雅、網易都用了

MiniMax Speech語(yu)音模型(xing)可以應(ying)用在多(duo)種場(chang)景下(xia),例如多(duo)語(yu)種客(ke)服、跨(kua)國廣告(gao)配音、跨(kua)國教(jiao)育、跨(kua)境(jing)電商(shang)等。

目(mu)前,MiniMax Speech語(yu)音(yin)模(mo)型已(yi)在(zai)全球被廣泛(fan)采用(yong)。在(zai)海外,Vapi、Pipecat等(deng)Agent平臺選擇使用(yong)MiniMax Speech提供(gong)服務,Hedra、Icon、Syllaby等(deng)頭部(bu)AI應(ying)用(yong)也已(yi)接(jie)入MiniMax Speech。

國內(nei),高途教育、喜馬拉雅、網易、Rokid眼鏡等頭部(bu)平臺及產品都選擇了MiniMax Speech。

結語:MiniMax在AI音頻賽道繼續深耕

MiniMax在(zai)AI音頻賽道并(bing)非初出茅廬(lu),其今(jin)年5月發布的(de)Speech 02在(zai)Artificial Analysis和Hugging Face TTS Arena兩(liang)項語音基準(zhun)測評(ping)榜單中超越 OpenAI、ElevenLabs等(deng)知名模(mo)型,獲(huo)得雙料第(di)一。

Speech 2.5可視為Speech 02的進階版本,在繼(ji)承前(qian)代優勢的基礎(chu)上,進一(yi)步在多語(yu)種、音色復刻及語(yu)種覆蓋上深入(ru)優化。

當下,眾多企(qi)業(ye)和研究機構紛紛布局(ju),AI音頻賽道競爭愈(yu)發激烈,MiniMax Speech 2.5的發布為市(shi)場(chang)注(zhu)入了新的活力。