智東西(公眾號:zhidxcom)
編譯 |? 徐豫
編輯 | ?云鵬

智東西2月27日消息,美國情感智能技術AI創企Hume AI昨天發布了新款文生語音大模型Octave,該大模型可依據用戶輸入的提示詞或劇本,生成有(you)人設特點、有(you)語調(diao)起伏(fu)、有(you)情感色彩的AI語音,并允許用戶通過文本指令二次調整和創作。該公司由DeepMind前研究員Alan Cowen于2021年創立,最近一輪融資后估值為2.19億美元

Hume AI聯合創始人兼CEO Alan Cowen在接受VentureBeat視頻電話采訪時說道:“我們推出了首個AI文生語音大模型,該模型能夠理解上下文中的詞匯,并預測出適當的情緒、節奏、韻律和重音,從而使AI語音聽起來比以往更人性化。”

▲Octave可(ke)以(yi)根據簡單提示詞變換AI語(yu)(yu)音的語(yu)(yu)氣和語(yu)(yu)調(diao)(圖源:Hume AI官網)

換而言之,相比于過往一板一眼念文本的AI味語音,Octave旨在讓AI語音更有人情味。按照Cowen的描述,這些AI語音不僅帶有憤怒、悲傷或快樂等情緒,還可以把多種情感交織融合在一起,例如“夾雜著幽默或惱怒的輕度沮喪”。在Cowen看來,該模型較為適合需要預先制作的有聲讀物、播客、視頻(pin)畫外(wai)音和視頻(pin)游戲(xi)角色配音。

▲Octave可(ke)以表達(da)開心(xin)、憤怒、焦慮等(deng)多種情感(gan)(圖源:Hume AI官(guan)網)

該公司在社交媒體平臺X上也連發多帖說明Octave的具體功能和訓練過程。據Hume AI方面透露,用于訓練Octave的語言數據是傳統文生語音大模型的1000倍,這也是Octave能夠像人類演員一樣理解劇本,并使用更逼真的情感、語義、節奏、詞語、重音等要素的原因。其訓練數據中包含了數百萬小時的公開長篇語音數據和Hume AI獨家采集的聲(sheng)音(yin)、視頻數據。

除了文生語音大模型,Hume AI還在利用Octave訓練AI系統,以更(geng)好(hao)地預判用戶的AI語音生成(cheng)需求。

在一項人類評審盲測的對比實驗中,Octave的輸出在音質、自然度以及語音生成與預期描述匹配度等方面均優于 ElevenLabs,這意味著其AI語音生成過程的可控性和AI語音生成質量均高于行業水準

前DeepMind大佬創業,做出喜怒哀樂以假亂真的AI語音大模型

▲Octave所生成的(de)AI語音(yin)在自然度(du)、提示詞匹配度(du)、音(yin)頻(pin)質量方(fang)面超過了ElevenLabs(圖源:Hume AI官(guan)網(wang))

在推出Octave前,Hume AI已推出了兩代自研的同理心語音界面(EVI),該公司聲稱EVI是第一個具有情商的對話式AI

當前首發版本的Octave主要支持的語言是英語,其次是西班牙語,后續可能還會上線更多語種。此外,該模型在Hume AI開發者平臺上的使用強度有一定限制,現支持的音頻格式有MP3、WAV和PCM

一、4大AI語音生成功能,能代入情節和人設

Octave文生(sheng)語(yu)音大(da)模型不(bu)僅支持(chi)生(sheng)成帶有人設和人類情感色彩AI語(yu)音,還將推出語(yu)音克隆功(gong)能(neng)。

Cowen稱,該模型(xing)除了(le)能(neng)(neng)理(li)解單個句子內的情感,還(huan)能(neng)(neng)進(jin)一步捕(bu)捉上下文之間的情感聯系(xi),從而更具表(biao)達力(li)和細節(jie)度。Octave除了(le)能(neng)(neng)夠理(li)解情節(jie)轉折、情感暗(an)示、角色特征,還(huan)學會了(le)如何將它(ta)們結合起來,因此它(ta)不僅(jin)可以“溫柔地(di)朗讀情書”,也能(neng)(neng)“充(chong)滿(man)活(huo)力(li)地(di)播報體育(yu)賽(sai)事(shi)”。

1、語音生成:具有情境感知能力且人性化

Octave能夠(gou)預測語音(yin)的調性、節(jie)奏(zou)和音(yin)色,并判(pan)斷(duan)初何(he)時(shi)應低語密謀、何(he)時(shi)應放(fang)聲高喊、何(he)時(shi)應平靜地解釋事實(shi)。

換(huan)句話說,Octave能夠解(jie)析(xi)劇本(ben)或(huo)提(ti)示(shi)詞中的(de)情(qing)節轉折、情(qing)感暗示(shi)和(he)角(jiao)色(se)特征,并(bing)將其轉化為(wei)自然帶感情(qing)的(de)語音,聽(ting)起(qi)來就像(xiang)演(yan)員在朗讀劇本(ben)一樣(yang)。

▲Octave可以根據(ju)上下文(wen)內容轉變AI朗讀的語氣(qi)和語調(圖源:Hume AI官網)

2、語音設計:可深入理解提示詞和劇本含義

基(ji)于(yu)提示詞或劇本,Octave能夠生(sheng)(sheng)成各種設(she)定(ding)的(de)AI語音(yin)。這是由于(yu)它會(hui)自動(dong)解析一(yi)段(duan)文字內容的(de)含義和風格,包括人稱代(dai)詞、簡稱、用詞等等,從而生(sheng)(sheng)成一(yi)段(duan)與角色(se)相符的(de)連貫語音(yin)內容。

此(ci)外,在語(yu)音設計功(gong)能中(zhong),你還可以通過(guo)更具體的角色(se)描(miao)述(shu)來(lai)引(yin)導Octave,例如結(jie)合(he)特(te)定口音、人設特(te)征(zheng)、職業角色(se)等(deng)。相關描(miao)述(shu)類(lei)似于“耐(nai)心且富(fu)有同理心、用ASMR方式說話的咨詢師”、“戲劇化(hua)的中(zhong)世紀騎士”、“中(zhong)年(nian)好萊塢電影預告片解說員(yuan)”。

▲Octave可以(yi)理解(jie)較為(wei)復(fu)雜的人(ren)設或角色(se)(圖源:Hume AI官網)

同時,你(ni)也可以選擇(ze)跳過語(yu)音(yin)設計功能(neng),直接(jie)在(zai)Playground上即時生(sheng)成語(yu)音(yin)。只(zhi)點擊頁面上的“生(sheng)成”按(an)鍵(jian),而不勾(gou)選“語(yu)音(yin)設計”功能(neng),Octave就會僅依據劇本生(sheng)成語(yu)音(yin),并且可以將其(qi)另存為一段新語(yu)音(yin)。

不過出于安全考慮,涉及較為逼真的孩童語音和特定人物的模仿語音,其AI語音生成將受限。

3、表演指令:用生成的AI語音二次創作

參照人類演(yan)員(yuan),Octave也能接受并理解指令。

在表演指令功能中,其(qi)可(ke)以基于現(xian)有(you)語音類型,進一(yi)步(bu)用指定(ding)的情感(gan)或說話風(feng)格來朗讀新劇本。

▲Octave支持(chi)用戶二次(ci)調整句(ju)子的語氣和語調(圖源(yuan):Hume AI官網(wang))

4、語音克隆:即將上線

Hume AI AI稱,只需一段5秒的音頻,Octave就能快速克隆出其語音。而Octave開發團隊正為這一語音克隆功能尋求安全保障,因此該功能將于接下來幾周內稍晚推出。

未來幾周(zhou)內,該公司(si)還有(you)計劃改進Octave的核(he)心功能,持(chi)續優(you)化富有(you)表現力(li)的語音(yin)生(sheng)成(cheng)(cheng)、不(bu)同情感和風格的提(ti)示、新(xin)語音(yin)生(sheng)成(cheng)(cheng)以及多位(wei)說話者間流暢對話等(deng)方(fang)面。

二、40多種預設語音,開發者現可上手使用

Octave現已在platform.hume.ai平臺和Hume AI的API上線。

目前,在線平臺上,創作者和開發者可使用Octave以下4項功能:

  • 語音設計;
  • 表演指令;
  • 超過40種預設語音的語音庫;
  • 用于生成有聲書、播客等長篇內容的項目界面(預覽版)。

而在開發者平臺上,Octave可通過Python和TypeScript SDK訪問,這些SDK會處理身份驗證,并提供類型化接口,以確保集成的可靠性。其命令行界面支持快速原型設計、測試以及直接從終端批量處理。
這些開(kai)發者(zhe)工(gong)具簡化了用Octave生成語(yu)音(yin)素材的過(guo)程,縮短(duan)了新語(yu)音(yin)應用的上市時間。

前DeepMind大佬創業,做出喜怒哀樂以假亂真的AI語音大模型

▲Octave操(cao)作界面(mian)(圖源:Hume AI官網)

目前,Hume AI的API允許開發人員每分鐘對Octave模型發出最多50次請求,文本長度上限為5000個字符,描述上限為1000個字符。每個請求最多可生成5個輸出,支持的(de)音(yin)頻格式包括MP3、WAV和PCM。

三、對比ElevenLabs,Octave更符合人類喜好

Hume AI AI對Octave開展了內部評估,將該大模型與業內領先的AI文生語音大模型ElevenLabs進行對比。

這項基準測試包含120個多樣(yang)(yang)化語音描述的(de)(de)(de)(de)樣(yang)(yang)本(ben),用于模擬用戶在文生語音大模型(xing)中會提出的(de)(de)(de)(de)各種語音風格。這些樣(yang)(yang)本(ben)既(ji)覆蓋了細膩、敘(xu)事化的(de)(de)(de)(de)描述,例(li)(li)如“溫暖、父(fu)親般的(de)(de)(de)(de)聲音,具有(you)豐(feng)(feng)富的(de)(de)(de)(de)低音,略帶沙啞且語調(diao)令人安心,如同(tong)一位(wei)經驗豐(feng)(feng)富的(de)(de)(de)(de)說書人”,也有(you)簡潔、簡短(duan)的(de)(de)(de)(de)提示詞,例(li)(li)如“充滿(man)活力、年輕、略帶嘶啞”。

Hume AI團隊用Gemini為每個描述生成了一段合理對話,然后分別讓Octave和ElevenLabs的AI語音生成工具Voice Design各生成了3個語音樣本,再讓180位人類評審盲測對比上述兩款文生語音大模型基于相同提示詞生成的語音樣本,并為音質、自然度以及提示詞匹配度投票。

測試結果顯示,Octave在這三項人類偏好指標上均略勝一籌,音質方面被71.6%的人類評審選擇,自然度方面被51.7%的人類評審選擇,而提示詞匹配度方面有57.7%的人類評審認為其更(geng)契合預(yu)期。

前DeepMind大佬創業,做出喜怒哀樂以假亂真的AI語音大模型

▲在(zai)Hume AI內(nei)部測試中,其(qi)AI文生語音大模型(xing)Octave能力優(you)于ElevenLabs(圖源:Hume AI官(guan)網(wang))

四、免費版聲音定制不設限,專業版提供超8h使用額度

Hume AI目前采用訂閱制的收費方式,主要分為免費、Creator、Creator Pro和Enterprise 4大類收費項目。

  • 免費版:每月1萬個字符的文本轉語音,總時長約10分鐘無限自定義聲音
  • 入門版3美元/月)?:每月3萬個字符,總時長約30分鐘,額外最多支持20個項目;
  • Creator10美元/月)?:每月10萬個字符,總時長約100分鐘,額外字符按使用量定價(0.20美元/1000個),額外最多支持1000個項目;
  • 專業版50美元/月)?:50萬個字符,總時長約500分鐘,額外字符按使用量定價(0.15美元/1000個),額外最多支持3000個項目。

規模化、商業和企業級接入使用收費(fei)標準則有所不同。

  • 規模(150美元/月)?:200萬個字符,總時長約2000分鐘,額外字符按使用量定價(0.13 美元/1000個),額外最多支持1萬個項目;
  • 商業(900 美元/月)?:1000萬個字符,總時長約1萬分鐘,額外字符按使用量定價(0.10 美元/1000個),額外最多支持2萬個項目;
  • 企業(自定義價格)?:無限使用、自定義法律條款、安全保障、大幅折扣的批量價格和優先支持。

結語:AI語音類人化新突破,有望造福數字人等產業

AI語音仍是目前主(zhu)要(yao)的人機(ji)交互方(fang)式。

Hume AI新的文生語音大模型(xing)Octave及其情感智能語音技(ji)術(shu),有望(wang)解決長期以(yi)來AI語音應答機械、語調生硬、音色(se)千篇一律的痛(tong)點,使得人(ren)(ren)機語音交互更接近于人(ren)(ren)與人(ren)(ren)之間溝通。

同(tong)時,Octave也(ye)可以為影視、視聽、新(xin)媒體、數字人等多(duo)個(ge)行業(ye)產出(chu)定(ding)制化配音,加速AI語(yu)音的商業(ye)化落地。

來源:Hume AI X賬號、Hume AI官(guan)方博(bo)客、VentureBeat