
智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影
國產語音模型又進化啦!
智東西6月12日報道,昨天,在火山引擎Force原動力大會上,豆包語音模型家族迎來上新,豆包·實時語音模型全量上線火山方舟,并(bing)對企業(ye)客戶開放(fang)使用。
在豆包端到端語音對話系統基礎上打造的豆包·語音播客(ke)模型,也(ye)在(zai)會上正(zheng)式亮相(xiang)。這一模型可在(zai)數秒內生成雙人對話式播(bo)客作品,效果自然,具有互相(xiang)附和、插話、猶豫等(deng)播(bo)客節奏(zou),為用戶帶(dai)來了以假亂真的收聽體驗。
以上(shang)2款模(mo)型(xing)只是豆包語音(yin)模(mo)型(xing)家族的冰山(shan)一角。
在昨日大會期間舉辦的AI應用專場論壇中,字節跳(tiao)動語音產研(yan)負責人葉順平透露,目前,字節語音技術涵蓋了音(yin)頻(pin)生(sheng)成(cheng)與(yu)創作、音(yin)頻(pin)理解(jie)與(yu)生(sheng)成(cheng)和音(yin)樂(le)理解(jie)與(yu)生(sheng)成(cheng)三大能力矩陣,可在語音助手、智能客服、在線教育、虛擬陪伴、有聲內容生產等場景發揮價值,日均語音處理量達到約150億次(ci),應用到超(chao)30個行業(ye)。
亮眼數據(ju)背(bei)后,是(shi)字(zi)節在語(yu)音(yin)技(ji)術(shu)方面的持續投入。端到端架構的應用(yong)為語(yu)音(yin)交互注入了(le)“靈魂(hun)”;數據(ju)收集、預訓練、后訓練的協同作(zuo)用(yong),賦予了(le)模(mo)型(xing)情(qing)感表現力(li)和洞察力(li);強化(hua)學習(xi)等(deng)技(ji)術(shu)的引(yin)入,也(ye)為模(mo)型(xing)的持續優(you)化(hua)和智能水平提(ti)升提(ti)供(gong)了(le)有力(li)支持。
這些技術突破共同推動了豆(dou)包語音模型(xing)家族在實時語音交互、語音播(bo)客等(deng)場景下的出色表現,也讓我們(men)看見了國(guo)產語音模型(xing)的廣闊前景。
一、語音交互人機感太重?用端到端架構給AI注入“靈魂”
過去的AI語音交互系統大多采用多階段級聯(lian)架構,包(bao)含語(yu)音(yin)(yin)識別、文本生成和語(yu)音(yin)(yin)合成三大模(mo)塊(kuai),冗長的處(chu)理鏈(lian)路限制(zhi)了響應速度、控制(zhi)能力(li)和多(duo)模(mo)態一致(zhi)性(xing)。
此外,由于各模塊獨立運行,此類系統難以(yi)理解語(yu)音中的情緒、語(yu)氣(qi)和(he)停頓等副語(yu)言信息,使得(de)語音交互(hu)始終“人機感(gan)”濃重(zhong)。
隨著大模(mo)型技術的發展(zhan),如(ru)今的語音交互(hu)實現了語音理解與生成在(zai)同(tong)一模(mo)型中(zhong)的協同(tong)完成,能夠更自然(ran)流(liu)暢地進行對(dui)話(hua)。
去年,GPT-4o向世界展(zhan)(zhan)示了(le)(le)“真人感”語音交互(hu)(hu)的(de)(de)可能性(xing),但在中文(wen)(wen)表(biao)現上(shang)仍有(you)局限。而火山(shan)引擎(qing)今年年初發布(bu)的(de)(de)豆包·實時語音模型,憑借更強的(de)(de)中文(wen)(wen)理(li)解力和高(gao)情商反饋,展(zhan)(zhan)現了(le)(le)中文(wen)(wen)語音交互(hu)(hu)的(de)(de)理(li)想雛形(xing)。
要與這款實(shi)時語音(yin)模(mo)型對話,用(yong)(yong)戶僅需(xu)在(zai)(zai)豆包App中點(dian)擊右上(shang)角的(de)電話按鈕。在(zai)(zai)實(shi)測中,這款模(mo)型的(de)“擬人感”讓人印象(xiang)深(shen)刻,在(zai)(zai)語氣、用(yong)(yong)語、思考方(fang)式上(shang)更(geng)接近人類,可根據用(yong)(yong)戶情緒和(he)語境提供實(shi)時的(de)高情商回復(fu),還能演(yan)會唱(chang),支持打斷和(he)主動搭話。
下(xia)方案例中(zhong),豆包(bao)不但根據“5歲孩子”的(de)(de)語(yu)(yu)境信(xin)息(xi)調整了(le)(le)所傳達的(de)(de)信(xin)息(xi),使(shi)用了(le)(le)極(ji)具親和力的(de)(de)語(yu)(yu)氣(qi),二者相輔相成,很好地完成了(le)(le)交互的(de)(de)目(mu)的(de)(de)。模型生成這段語(yu)(yu)音的(de)(de)速度極(ji)快,在實際使(shi)用中(zhong)用戶對延(yan)遲的(de)(de)感(gan)知并不明顯。
豆包·實時語音模型的端到端語音系統框架(jia)是實現(xian)這(zhe)一(yi)切的(de)基礎。這(zhe)一(yi)框架面向語音生成和(he)理解進行統一(yi)建模,實現(xian)多模態輸入和(he)輸出效(xiao)果,從根(gen)本(ben)上避免(mian)了(le)傳統級聯系(xi)統的(de)種種劣(lie)勢。
更進一步,豆包實時語音模型具備豐富的高(gao)階語音控(kong)制與演繹能力。它不(bu)(bu)僅能根據用戶的復雜指令進行語音(yin)(yin)風格的精細(xi)調控,如(ru)語速、語調、節奏等,還擁有不(bu)(bu)錯(cuo)的情緒(xu)演(yan)繹能力(li),能在喜怒哀(ai)樂(le)之間自然切換,并(bing)在講故事、角色對話(hua)等任(ren)務中(zhong)表現出極強的表現力(li)和聲音(yin)(yin)創造力(li)。
令人驚喜的是,得益于預訓練階段的大量數據泛化,模型已涌現出初步的方言(yan)與口音模(mo)仿能力,顯示出(chu)語言遷移(yi)與適應能力(li)。
豆包·實(shi)時語(yu)音(yin)(yin)模型(xing)即將上線的“聲音(yin)(yin)復刻”能(neng)(neng)力,可以視作是上述高(gao)階能(neng)(neng)力的延申(shen)。聲音(yin)(yin)復刻實(shi)現了從“復刻音(yin)(yin)色”到“復刻表達”的全(quan)面(mian)升級,不僅(jin)能(neng)(neng)通過(guo)少量語(yu)音(yin)(yin)樣本高(gao)度還(huan)原用戶(hu)音(yin)(yin)色,更(geng)能(neng)(neng)在對話(hua)中根據語(yu)境復刻情緒與語(yu)氣,實(shi)現情感一致(zhi)、自(zi)然擬人的語(yu)音(yin)(yin)表達。
二、AI播客賽道熱度不減,國產方案如何打造差異化優勢?
豆包語音模型家族在不斷擴展,其最新成員之一是于今年5月下旬推出的豆包·語音播客模型。
這(zhe)一模型的(de)推出,恰(qia)逢播(bo)客市(shi)場的(de)蓬勃增(zeng)長。《2025播(bo)客營(ying)銷白皮書(shu)》顯示,2024年,全球(qiu)播(bo)客聽(ting)眾(zhong)數(shu)量約(yue)為5億人,播(bo)客市(shi)場規模預(yu)計突(tu)(tu)破(po)300億美(mei)元,同年,中文播(bo)客聽(ting)眾(zhong)數(shu)量的(de)增(zeng)速達(da)到43.6%,位居全球(qiu)第一,2025年預(yu)計這(zhe)一數(shu)字(zi)預(yu)計將突(tu)(tu)破(po)1.5億。
無(wu)論是對(dui)行(xing)業頭部(bu)的(de)專業創作者和(he)機構,還是個人創作者而言,高度擬真的(de)AI播客模(mo)型(xing),都有望降低(di)制作成本,擴(kuo)展內容的(de)豐(feng)富程度,提升創作效(xiao)率。
其實,在過去很長一段時間內,AI播客屆的明星產品一直是來自谷歌的NotebookLM。在智東西的日常體驗中,NotebookLM能圍繞既有材料和信息,以雙人播客形式輸出內容,但是內容的自然度、流暢度上仍稍顯欠缺,在中文場景尤(you)為明顯。
這正是豆包·語音播客(ke)模(mo)型想要(yao)解決的問題。這一模(mo)型在實時(shi)語音模(mo)型的基(ji)座(zuo)之(zhi)上,對(dui)中文(wen)(wen)播客(ke)場景(jing)做了針(zhen)對(dui)性優化,使(shi)播客(ke)內(nei)容、結構和對(dui)話推進更符合中文(wen)(wen)特點(dian),包括口語化、雙人(ren)互(hu)動等(deng),對(dui)話節奏和感覺也更接近(jin)真人(ren)主播。
目前,這一播客模型已經可在豆包PC端、扣子空間等產品中體驗。在豆包PC端,用戶可上傳PDF文檔或是添加網頁鏈接來生成播客。這一模型的生成速度極快,在智東西上傳一篇論文后,豆包在幾秒內(nei)便(bian)返回了可供(gong)收(shou)聽的播客。
用(yong)戶還可在地址欄的(de)右(you)側找到網頁播(bo)客(ke)按鈕,點(dian)擊后便可立即收聽AI播(bo)客(ke)。
豆包·語音播客模型能對用戶上傳的信(xin)息(xi)進(jin)行改造(zao),使其更(geng)適合(he)聽眾消費。例如(ru),智(zhi)東西上傳的這篇長達2萬余字(zi)的論文本(ben)身采取(qu)了相(xiang)對結(jie)構化的寫作模式,如(ru)果照(zhao)搬原文行文邏輯,播客(ke)的收聽體(ti)驗將會大打(da)折(zhe)扣。
但模(mo)型并未受到原(yuan)文本的(de)(de)(de)影響,會(hui)以問(wen)答的(de)(de)(de)形(xing)式推進播客。每個問(wen)答的(de)(de)(de)長(chang)(chang)度適中,凝練(lian)的(de)(de)(de)問(wen)題為聽眾(zhong)提供了更為清晰的(de)(de)(de)收聽體驗(yan),不(bu)會(hui)在長(chang)(chang)篇大論(lun)中失去(qu)方向。
豆包(bao)生成(cheng)的播客(ke)文稿中有大(da)量(liang)的語(yu)氣詞、附(fu)和(he)、停頓,這很(hen)好地(di)模擬了(le)真人專(zhuan)業(ye)博客(ke)中的口語(yu)習慣(guan),有效提升了(le)擬人程度(du)。
▲豆(dou)包·語音播(bo)客模型所生成播(bo)客的部分文字稿
為實現上(shang)述效果,豆包·語音播客模(mo)型(xing)(xing)先(xian)是(shi)對播客這(zhe)一內容(rong)形式進行了詳細的體驗拆解,分析真人對話的節奏、自然度、信息密度等維度,基于這(zhe)些認知(zhi),對模(mo)型(xing)(xing)的輸出(chu)效果進行調整。
專業播客(ke)創作者也參與(yu)到(dao)了這一過程中,與(yu)模(mo)型團隊共(gong)同探索和生(sheng)產高質量數據,并在(zai)評測中不斷優化模(mo)型生(sheng)成的(de)內容。
除了依(yi)賴(lai)豆包·實(shi)時語(yu)音模型在預訓練階段培養的(de)擬人化(hua)交(jiao)(jiao)互能(neng)力,有(you)監督微調(SFT)也對播客模型交(jiao)(jiao)互性、真實(shi)感(gan)的(de)提(ti)升起到了重(zhong)要作(zuo)用。該團隊對數據進行了細致的(de)打磨與標注,為模型學習真人交(jiao)(jiao)互感(gan)提(ti)供了重(zhong)要參考。
三、字節加速語音能力對外輸出,合成、識別、翻譯能力全面提升
在(zai)昨(zuo)日下(xia)午的(de)(de)AI應用分(fen)論(lun)壇上,葉順平向外界(jie)透(tou)露豆(dou)(dou)包(bao)語音(yin)模型家族未來(lai)的(de)(de)發展方向。在(zai)全量上線(xian)后,豆(dou)(dou)包(bao)·實(shi)時語音(yin)模型將會提(ti)供更(geng)多音(yin)色(se),玩法(fa)方面擴展音(yin)色(se)克隆、歌唱(chang)能力(li)等(deng)等(deng)。近期,豆(dou)(dou)包(bao)在(zai)歌唱(chang)場景(jing)的(de)(de)指令遵(zun)循(xun)、音(yin)準(zhun)等(deng)屬性已迎(ying)來(lai)提(ti)升(sheng)。
近期爆火的豆包·語音播客模型,已在實踐中展現出了幾大可優化的方向。未來,這一模型生成的播客信息密度會進一步提高,用于提升對話自然度的語氣詞、句式會更加多樣化,不(bu)僅只有簡單(dan)的承接,還能有觀點的交流(liu)與碰撞。
當下,豆包·語音播客模型提供了一男一女兩個音色,不過不同風格的音色已經在開發中。未來,這款模型還可能探索更為豐富的音色組(zu)合,例如(ru)給娛樂、科技等不同細分領(ling)域的播客提供不同音(yin)色,提升(sheng)收聽體驗。
豆包·語音播客模型未來或將支持單口(kou)播(bo)客、多人對談播(bo)客等形式,甚至探索互(hu)動播客的形式——允(yun)許用戶(hu)在收聽過程中插話(hua),甚至影響播客的內容走向。
通(tong)過提(ti)供種種更多的(de)選(xuan)擇,豆包(bao)·語音(yin)播客模(mo)型有望進一(yi)步釋放用戶(hu)在播客和泛音(yin)頻內容場景的(de)消(xiao)費潛(qian)力。
字節還在(zai)近期將其語音合成模(mo)型Seed-TTS升(sheng)(sheng)(sheng)級至(zhi)2.0版本,進一(yi)步提(ti)升(sheng)(sheng)(sheng)模(mo)型表現(xian)力(li),提(ti)供給用戶更豐富的指(zhi)令控(kong)制能(neng)力(li);Seed-ASR語音識別模(mo)型基座再次升(sheng)(sheng)(sheng)級,支持更友(you)好的上下文理(li)解(jie)能(neng)力(li),識別準確(que)率進一(yi)步提(ti)升(sheng)(sheng)(sheng);端到(dao)端同聲傳譯(yi)模(mo)型已經(jing)在(zai)豆包和(he)飛(fei)書內部落(luo)地,在(zai)教育、金(jin)融(rong)、體育等等領域的中英(ying)互譯(yi)效果已媲美(mei)人類(lei)譯(yi)員。
未來,字節跳動將大力(li)加速語音能力(li)對(dui)外輸出。相關舉(ju)措包(bao)(bao)括(kuo)全量開(kai)放(fang)豆包(bao)(bao)·實(shi)時語音(yin)(yin)模(mo)型、提(ti)供(gong)更多(duo)豆包(bao)(bao)同(tong)款音(yin)(yin)色,播客(ke)模(mo)型也有望在近期對外部客(ke)戶(hu)開(kai)放(fang)。對業(ye)內(nei)企業(ye)而言,字節(jie)語音(yin)(yin)模(mo)型家族近期的集(ji)中上(shang)新(xin),意味著(zhu)革新(xin)業(ye)務的機遇(yu)。
結語:押注下一代交互入口,字節搶占領先身位
語音(yin)交(jiao)互(hu)的(de)龐大潛力,已在(zai)業(ye)內成(cheng)為共識。這(zhe)一交(jiao)互(hu)形態原(yuan)生的(de)沉浸感、陪伴感,使其(qi)在(zai)語音(yin)助手、AI硬件、內容制作(zuo)與消費等領域展現(xian)出獨特的(de)優(you)勢和廣闊(kuo)的(de)應(ying)用(yong)場景。隨著生成(cheng)式AI驅動的(de)語音(yin)技(ji)術不斷進(jin)化,語音(yin)或許有望(wang)成(cheng)為下一代人機交(jiao)互(hu)的(de)主要入口之一。
作(zuo)為國(guo)內少數(shu)在語音(yin)模型側(ce)(ce)和語音(yin)交(jiao)互產品側(ce)(ce)都占據(ju)(ju)行業領先身(shen)位的(de)玩家,字節有(you)望通過底層技術的(de)持續提(ti)升和真實數(shu)據(ju)(ju)指導下的(de)能(neng)力優化,為行業和用戶帶來更加智(zhi)能(neng)、便捷和自(zi)然的(de)語音(yin)交(jiao)互體驗。
最后,我們還將(jiang)這篇(pian)文章(zhang)發送給豆包(bao)·語音播客模(mo)(mo)型,一起來聽(ting)聽(ting)這一模(mo)(mo)型是(shi)如何闡述(shu)豆包(bao)語音模(mo)(mo)型家族最新進展(zhan)的(de)吧(ba)。