智東西(公眾號:zhidxcom)
編輯 |?ZeR0

智東西6月1日報道(dao),近期,字節跳動火山語(yu)音(yin)(yin)團隊的最新音(yin)(yin)樂檢索(suo)系(xi)統ByteCover2入(ru)選了國際語(yu)音(yin)(yin)技術領域頂會ICASSP 2022。

該系統主要面向音樂信息檢索(MIR)領域的重要任務之一——翻唱識別(CSI,通過表征學習方法讓其具備提取音樂核心特征的能力,并且該特征能夠對種類繁多的音樂重演繹具有良好的魯棒性,檢索速度提高8

經Da-Tacos數據集上的評估,其準確率遠超其他方案的SoTA性能。?

除了ByteCover2,字節跳動火山語音團隊還有多篇論文被ICASSP 2022收錄,內容涵蓋智能音樂、音頻合成、音頻理解、超腦等多個方向

一、翻唱識別:設計隱式嵌入降維方法?

翻唱識別往往需要對音樂中的一些常見變化具有魯棒性,從而保證系統專注于對音樂旋律走向的建模。在設計翻唱識別系統時,音樂調式偏移、音樂結構變化、音樂節奏變化這三種(zhong)音樂(le)變化通常會被重點考慮(lv)。

此外(wai),抖音平(ping)臺上每日新增千(qian)萬(wan)量級(ji)的用(yong)戶(hu)投稿,如何快速應對巨量查詢需求,提高識別系統的整體(ti)吞吐量并同時確保識別準確性,也(ye)是亟待(dai)解決(jue)的問題。

在(zai)內部開發返廠識別時(shi),字節跳(tiao)動還面臨另(ling)一(yi)挑戰(zhan),即在(zai)設(she)計特征時(shi),如何在(zai)保障其他性質(zhi)的前提下盡可能減(jian)小(xiao)(xiao)特征大小(xiao)(xiao),從而減(jian)少存儲空間(jian),降(jiang)低系統復雜度和(he)成本。

在ByteCover2系統中,字節跳動火山語音團隊通過多任務學習范式聯合ResNet-IBN模型,做到從音頻輸入中提取魯棒且具備區分性的向量表征。針對效率優化問題,團隊還提出了PCA-FC模塊,實踐證明該模塊在保證ByteCover2模型性能不變甚至提高的前提下,可將向量尺寸壓縮至ByteCover1的1/8

字節跳動將音樂檢索速度提高8倍,多篇論文入選語音頂會▲Bytecover模型(xing)結構與訓練流程

1、多任務學習提高音樂檢索能力

翻唱識別領域通常(chang)存在兩(liang)種訓練范式(shi),分(fen)別是多分(fen)類學習和(he)度量學習。

前者(zhe)將每(mei)個曲目視為(wei)一個獨立(li)類別,在(zai)特征層(ceng)后(hou)加上全(quan)連接(jie)層(ceng),并通過交(jiao)叉(cha)熵等分(fen)類損(sun)失對模型進行(xing)訓(xun)練(lian),訓(xun)練(lian)完成后(hou)去掉全(quan)連接(jie)層(ceng),使(shi)用特征層(ceng)的(de)(de)輸出作為(wei)歌曲的(de)(de)表(biao)征;后(hou)者(zhe)直接(jie)在(zai)特征層(ceng)之(zhi)上,使(shi)用triplet loss等度量(liang)學習(xi)損(sun)失訓(xun)練(lian)網絡(luo)。

總體來看,兩種(zhong)訓練范式各(ge)有優劣,團(tuan)隊(dui)通過實驗發(fa)現,分類(lei)損失(shi)往往能(neng)提(ti)高模型對同曲目(mu)不同風(feng)格版本的檢(jian)索能(neng)力,細致設計的度量學(xue)習損失(shi)則能(neng)提(ti)高翻唱網絡對相似(si)風(feng)格不同曲目(mu)音(yin)樂的區分能(neng)力。

因此ByteCover系列模(mo)型對這兩種學習范式進行了(le)(le)結合(he),并通過引入(ru)BNNeck模(mo)塊(kuai),提高了(le)(le)兩種損失的兼容(rong)性(xing)。

2ResNet網絡與IBN正則化方法(ResNet & Instance-Batch Normalization

為(wei)了(le)簡(jian)化(hua)音樂特征(zheng)提(ti)取的流程,加快特征(zheng)提(ti)取速(su)度(du),團隊使用(yong)CQT頻(pin)譜(pu)圖(tu)作為(wei)模(mo)型的輸(shu)入,而(er)不使用(yong)在同期其(qi)(qi)他翻唱識別方法中(zhong)常用(yong)的cremaPCP或其(qi)(qi)他更為(wei)復(fu)雜的特征(zheng),但此(ci)設計(ji)會天(tian)然地在輸(shu)入特征(zheng)層面上損害(hai)模(mo)型對音頻(pin)頻(pin)移的魯(lu)棒性。

因此,團(tuan)隊選擇卷積神經網(wang)絡(luo)做(zuo)了音(yin)樂表征提取(qu)網(wang)絡(luo),希望能(neng)利用(yong)卷積網(wang)絡(luo)的(de)平移不(bu)變性來實現(xian)模型對頻移的(de)不(bu)變性。

實(shi)驗證(zheng)明,CQT譜+普通ResNet組(zu)合已在效率和性能上超過(guo)CremaPCP+CNN的設計(ji)。

深入(ru)探究,團隊(dui)引(yin)入(ru)了(le)Instance-Batch Normalization來從網絡隱(yin)表示(shi)的(de)(de)(de)層面進(jin)一步學習和風(feng)格無關(guan)(guan)的(de)(de)(de)音(yin)樂特(te)(te)征(zheng)(zheng),即特(te)(te)征(zheng)(zheng)圖(tu)上不同通(tong)道間(jian)的(de)(de)(de)均值方差等統計量與(yu)輸入(ru)的(de)(de)(de)風(feng)格化特(te)(te)征(zheng)(zheng)相關(guan)(guan)。IN通(tong)過(guo)對特(te)(te)征(zheng)(zheng)圖(tu)的(de)(de)(de)通(tong)道維度(du)做的(de)(de)(de)歸一化處理,一定(ding)程度(du)上實現了(le)在隱(yin)藏(zang)表征(zheng)(zheng)層面上去除風(feng)格化信息,從而提高翻唱識(shi)別模型對音(yin)色變(bian)化的(de)(de)(de)魯棒(bang)性。

3、特征降維模塊(PCA-FC

通過測算,團隊(dui)發現(xian)工業級別的翻(fan)唱系統(tong)大(da)部(bu)分耗(hao)(hao)時集中在特征(zheng)(zheng)檢索階段,而這(zhe)一(yi)階段的時間消耗(hao)(hao)基本和(he)曲庫的大(da)小以(yi)及特征(zheng)(zheng)向(xiang)量(liang)的尺寸線(xian)性相關。曲庫中歌曲的數目(mu)會隨著業務的增長而不斷增加(jia),因此降低(di)特征(zheng)(zheng)向(xiang)量(liang)尺寸成為(wei)優化檢索系統(tong)整體(ti)耗(hao)(hao)時的必由之(zhi)路,而同(tong)期其他(ta)翻(fan)唱向(xiang)量(liang)特征(zheng)(zheng)降維(wei)的工作(zuo)往往采用(yong)一(yi)個全連接層來(lai)將高(gao)維(wei)向(xiang)量(liang)投影到維(wei)度更低(di)的空間。

實驗(yan)結果發現(xian),單純(chun)使用全(quan)連(lian)接層進(jin)行降(jiang)維會明顯降(jiang)低系統的(de)(de)檢索能力,團隊認(ren)為這(zhe)種現(xian)象(xiang)不僅(jin)是因(yin)為更小的(de)(de)尺(chi)寸(cun)限制了向(xiang)量的(de)(de)表(biao)征能力,性能的(de)(de)損失也來(lai)自(zi)于隨(sui)機初始化的(de)(de)全(quan)連(lian)接層對特征各向(xiang)同性的(de)(de)破壞。

隨后(hou)對數據可(ke)視化(hua)之后(hou)可(ke)發(fa)現(xian),降維后(hou)特征分(fen)布在一個錐形空(kong)間,表(biao)現(xian)出明(ming)顯(xian)的(de)各(ge)向異性(xing),此種(zhong)性(xing)質不利于使用余弦距離為(wei)度(du)量(liang)的(de)向量(liang)檢索(suo)。

因此團隊嘗(chang)試使用PCA對特征向量進(jin)行降(jiang)維操作并隨(sui)后(hou)用PCA的變換矩陣(zhen)初始化(hua)一個全連接(jie)層(ceng),把該層(ceng)和特征提取網絡連接(jie)進(jin)來并聯合訓練,并將模(mo)塊稱作PCA-FC。

實驗結果顯示,PCA-FC能顯著提升降維模型的檢索性能,在保持檢索性能不變的前提下向量尺寸可以被壓縮8倍

字節跳動將音樂檢索速度提高8倍,多篇論文入選語音頂會▲對比結果

從結果來看,一直以來Da-Tacos是作為評估翻唱識別的基準測試數據集,在該數據集上,采用1536維的ByteCover2模型取得了遠超其他方案的SoTA性能,全類平均正確率指標(mAP)達到79.1%,而ByteCover系列以外的(de)最(zui)好方(fang)法Re-MOVE的(de)該項指標(biao)只(zhi)有(you)52.5%。

值得一提的是,128的ByteCover2模型甚至超過了2048的ByteCover1和Re-MOVE方(fang)法(fa)。

此外,ByteCover1系統還參加了2020國際音頻檢索評測大賽MIREX,過程中大幅刷新了翻唱識別賽道歷年最好記錄,mAP指標達到84%,是同年參加該競賽的其他方案性能的14

字節跳動將音樂檢索速度提高8倍,多篇論文入選語音頂會

二、智能音樂:提高挑選音樂片段效率,創新自監督音樂預訓練算法

在智能音(yin)(yin)樂方向,字節(jie)跳動火山語音(yin)(yin)團隊基于Transformer的聲音(yin)(yin)事(shi)件檢測模型HTS-AT、基于層級式(shi)Transformer的自(zi)監督音(yin)(yin)樂預訓練算法S3T兩篇論文(wen)均(jun)被ICASSP 2022收錄。

1HTS-AT:用于聲音分類和檢測的分層標記語義音頻

HTS-AT針對音頻任(ren)務的(de)(de)特性(xing),該結構(gou)能有效(xiao)提(ti)高(gao)音頻頻譜信息在(zai)深度Transformer網(wang)絡中的(de)(de)流動效(xiao)率(lv),提(ti)高(gao)了(le)模型(xing)(xing)(xing)對聲音事件的(de)(de)判(pan)別能力,并且通過降低輸出特征圖的(de)(de)大小,顯著降低了(le)模型(xing)(xing)(xing)地(di)計算量與(yu)內(nei)存消耗。HTS-AT還引入了(le)Token Semantic模塊,使模型(xing)(xing)(xing)具(ju)備預測聲音時間起(qi)始(shi)與(yu)終止點的(de)(de)能力,并且無需使用額外有標注數據進行訓練。

字節跳動將音樂檢索速度提高8倍,多篇論文入選語音頂會▲HTS-AT模型的(de)結構

綜合以上技術,HTS-AT在標準數據集AudioSet上的mAP指標達到0.471是當前的該數據集上的最佳水平,且參數與計算量都小于之前的最佳方法;另外,在聲音事件定位任務上,HTS-AT無需額外標注數據,即達到有監督定位模型的性能水平。?

在音樂(le)識別場景(jing)中,聲音事件檢測模型會挑選(xuan)包含音樂(le)的(de)片(pian)段送入音樂(le)檢索系統,以此(ci)來提高整個系統的(de)效(xiao)率與準確性。

2S3T:針對音樂分類基于Swin Transformer的自監督預訓練

這(zhe)篇文章提出(chu)了一種創新的、基于(yu)層級式Transformer的自監督音(yin)樂預訓練算(suan)法S3T。

S3T使用了大(da)規(gui)模(mo)音(yin)樂(le)預訓練配合(he)少量(liang)標(biao)簽數據(ju)微(wei)調(diao)的(de)范式,充分(fen)利用大(da)量(liang)無標(biao)簽的(de)音(yin)樂(le)數據(ju),通(tong)過挖掘時域(yu)和頻域(yu)的(de)信(xin)息,學習具有較(jiao)強泛化性的(de)通(tong)用音(yin)樂(le)表(biao)征。S3T在多個下游任(ren)務(wu)上均(jun)取得很好效(xiao)(xiao)果(guo),特別是(shi)僅使用10%的(de)標(biao)簽數據(ju)進(jin)行微(wei)調(diao)效(xiao)(xiao)果(guo)便能(neng)超(chao)過使用以往全量(liang)標(biao)簽數據(ju)訓練的(de)模(mo)型,大(da)幅降低了人工數據(ju)標(biao)注的(de)成本。

字節跳動將音樂檢索速度提高8倍,多篇論文入選語音頂會▲S3T模型結構與訓練(lian)流程

音(yin)樂(le)自(zi)監(jian)督(du)學(xue)習(xi)無需大量人(ren)工標(biao)簽便可利用(yong)(yong)大量音(yin)樂(le)數(shu)據充分挖掘其自(zi)身的表征,且擁有較強的通用(yong)(yong)性。本文提出的音(yin)樂(le)表征自(zi)監(jian)督(du)學(xue)習(xi),為音(yin)樂(le)理解(jie)構筑了基礎(chu)。

S3T目(mu)前已經應用(yong)在音(yin)(yin)樂(le)標簽、音(yin)(yin)樂(le)指紋(wen)等(deng)場(chang)景,微調后(hou)的(de)S3T可以(yi)為音(yin)(yin)樂(le)打上風格、語種、情緒等(deng)標簽,可靠的(de)音(yin)(yin)樂(le)標簽可以(yi)進一步服務音(yin)(yin)樂(le)推薦系統,使其精準地向(xiang)來自不同地區的(de)用(yong)戶推送(song)合適的(de)音(yin)(yin)樂(le)。

三、音頻合成:實現數字人個性化穿搭和場景自由

在(zai)音(yin)頻合成方(fang)向,字節跳(tiao)動火山語音(yin)團(tuan)隊基(ji)于服裝風格(ge)遷移實現場景(jing)感知下的人物(wu)視頻生(sheng)成論文被ICASSP 2022收錄。

該方向致力于解(jie)決視頻(pin)中(zhong)人物個性化穿搭和背景場(chang)景自由的選(xuan)擇問題,設計了多(duo)個解(jie)耦(ou)encoder學(xue)習人物不(bu)同的屬性(身(shen)份、衣服和姿態),通過(guo)共享(xiang)decoder融合多(duo)層面信息(xi)。

不同于圖片任務,視頻需要學習(xi)幀之間(jian)的變化(hua),所以(yi)團(tuan)隊設計了幀間(jian)判別器(Inner-frame Discriminator)來(lai)大幅(fu)提升穩定性。具體來(lai)說,在模型生成的結(jie)果上(shang)應(ying)用(yong)掩碼,人物可切(qie)換到任意場景上(shang)。

工作在公開數據集TEDXPeople,相對baseline系統(CVPR2021)視頻中衣服個性化的多項客觀指標均有顯著改善,可以達到SOTA效果:SSIM +0.047,PSNR +4.6,FID(越小越好) -0.4, FVD(越小越好)-0.543

字節跳動將音樂檢索速度提高8倍,多篇論文入選語音頂會▲場(chang)景感知的服裝(zhuang)風格(ge)遷(qian)移模型框架

在數(shu)字(zi)(zi)人多(duo)(duo)模態生成的場景和(he)業(ye)務中,數(shu)字(zi)(zi)人主播(bo)衣服的個性化穿(chuan)搭和(he)場景自(zi)由的選擇(ze),為用戶提供(gong)了自(zi)主可(ke)(ke)控的個性化能力,可(ke)(ke)大(da)幅(fu)增(zeng)加數(shu)字(zi)(zi)人生態的多(duo)(duo)樣(yang)性。

四、音頻理解:提升語音識別定制化性能,優化數據標注質量

在音(yin)(yin)(yin)頻理解(jie)方向,字節跳動火山語(yu)音(yin)(yin)(yin)團(tuan)隊(dui)基于細粒(li)度(du)語(yu)境(jing)(jing)知識(shi)(shi)選(xuan)擇的端(duan)到端(duan)(語(yu)境(jing)(jing))語(yu)音(yin)(yin)(yin)識(shi)(shi)別(bie)(bie)提升方法、非自(zi)回(hui)歸Transformer自(zi)動語(yu)音(yin)(yin)(yin)識(shi)(shi)別(bie)(bie)的最小(xiao)詞誤差訓練、使用梯度(du)掩碼改進端(duan)到端(duan)語(yu)音(yin)(yin)(yin)識(shi)(shi)別(bie)(bie)的偽標簽訓練論文被ICASSP 2022收錄。

此外,面向(xiang)會(hui)議場景,火(huo)山(shan)語音(yin)團隊在ICASSP 2022多(duo)方會(hui)議轉錄挑戰賽(M2MeT)的兩個(ge)限定(ding)訓練數據子賽道上(shang)分(fen)獲第(di)二名和第(di)四名。

1、基于細粒度語境知識選擇的端到端(語境)語音識別提升方法

該(gai)工作在一種被稱為協同解(jie)碼(Collaborative Decoding,ColDec)的(de)語音(yin)識別定(ding)制化/個性(xing)化方(fang)法的(de)基(ji)礎上(shang),提(ti)出(chu)了細粒度語境知識選擇機制(Fine-grained Contextual Knowledge Selection),來進一步增強該(gai)方(fang)法在大熱詞列表和較多干擾熱詞情境下的(de)語音(yin)識別定(ding)制化性(xing)能。在先前工作中,一種被稱為協同解(jie)碼(Collaborative Decoding)的(de)語音(yin)識別定(ding)制化技(ji)術有效地提(ti)升了定(ding)制化識別性(xing)能。

本文(wen)針對其在(zai)大熱(re)詞列表(biao)和較多干擾熱(re)詞情(qing)境下的性能(neng)衰(shuai)減問題,提出了細粒度語境知識選擇(ze)機制(zhi),進(jin)一(yi)步增(zeng)強了協同解碼技術(shu)在(zai)定制(zhi)化場景下的能(neng)力(li)。

在公開數據集Librispeech上,本文方法在基礎CIF語音識別模型的test-clean 2.12%的WER基礎上,進一步為WER帶來了約5%的相對下降;在內部16w小時工業級ASR數據集訓練的語音識別模型的基礎上,該方法在真實會議測試集上為CER帶來了最高約16%的相對下降。

字節跳動將音樂檢索速度提高8倍,多篇論文入選語音頂會▲a. 協同解碼? ? b.細粒度語境知識選擇

應(ying)用(yong)(yong)場景方面(mian),該方法可(ke)被用(yong)(yong)于語(yu)音(yin)識別定制化,例(li)如在智(zhi)能語(yu)音(yin)助手和在線視(shi)頻會議等應(ying)用(yong)(yong)場景中,許多同背景相(xiang)關的關鍵短語(yu)、個性化信息、熱詞等內容都較難識別。

此(ci)外,它也(ye)可(ke)以用(yong)(yong)在(zai)移(yi)動端智能(neng)語音助手的(de)應用(yong)(yong)場景(jing)下(xia),聯(lian)系人列表(biao)中的(de)聯(lian)系人姓名,頻繁出沒的(de)地(di)點位置(zhi)等個性(xing)化信息;在(zai)線會議場景(jing)下(xia),參(can)會人員的(de)姓名,會議主題相關的(de)專業術語等,針對性(xing)地(di)提升這些定制化和個性(xing)化文本內容(rong)的(de)語音識別(bie)性(xing)能(neng),在(zai)實際應用(yong)(yong)場景(jing)中有重要(yao)意義。

2、非自回歸Transformer自動語音識別的最小詞誤差訓練

這篇論文(wen)由字節跳(tiao)動(dong)和南洋理工(gong)大學(NTU)共同(tong)完成。近年來由于基于非自(zi)回(hui)歸Transformer(NAT)的(de)自(zi)動(dong)語音(yin)識別(ASR)框架的(de)以(yi)下優點,分別是“當前的(de)輸(shu)出(chu)與歷史的(de)輸(shu)出(chu)無(wu)關(guan)”以(yi)及“其推理速(su)度非常(chang)快”,其在業界(jie)日益(yi)受到重視。

對此,團隊對于其在語碼轉換語音識別任務(CSSR)上的性能有所期待。另外據不完全了解,似乎并沒有出現將最小詞錯率(MWER)準則應用于NAT模型的先例,所以該工作在一定程度上填補了此項空白,且在SEAME語碼轉換數據集上得到了驗證。

本文(wen)的貢獻主要在(zai)兩(liang)個(ge)方面:(1)在(zai)語(yu)碼轉換的場景下,提出了多種CTC掩蔽(bi)的方式訓(xun)練NAT模型;(2)在(zai)MWER訓(xun)練準(zhun)則下,提出了多種N-best假設的生成方法。

其(qi)發現及結(jie)論是(shi)(shi):(1)無(wu)論在(zai)單語(yu)言(yan)還是(shi)(shi)跨語(yu)言(yan)的(de)場(chang)景下,上(shang)下文相關的(de)場(chang)景信息非常重要,而NAT沒有(you)(you)歷史信息,NAT模型相比自(zi)回(hui)歸的(de)Transformer(AT)得到了一致(zhi)性更(geng)差的(de)結(jie)果;(2)嚴重受限于N-best假設的(de)生(sheng)成方(fang)法,在(zai)NAT模型上(shang)進行基(ji)于N-best的(de)MWER訓練只得到了細微的(de)提升,所以(yi)如何生(sheng)成更(geng)豐富的(de)N-best有(you)(you)待進一步研(yan)究。

3、使用梯度掩碼改進端到端語音識別的偽標簽訓練

一直(zhi)以來,打偽標簽在(zai)自(zi)監督學習中(zhong)都是(shi)(shi)最重要的(de)(de)(de)方法(fa),最近在(zai)語音識別領(ling)域也展現出(chu)極好(hao)的(de)(de)(de)效果,但是(shi)(shi)自(zi)監督學習對(dui)偽標簽的(de)(de)(de)質量極其敏感,主(zhu)要是(shi)(shi)因為偽標簽中(zhong)的(de)(de)(de)錯誤或者噪聲常常會導(dao)致模型(xing)訓練的(de)(de)(de)不穩定(ding)并最終(zhong)收(shou)斂到(dao)非最佳的(de)(de)(de)狀態,特(te)別是(shi)(shi)對(dui)于e2e的(de)(de)(de)模型(xing)比如RNNT。

對此該論文提出了Gradient-mask的(de)方(fang)法來應對以上問題。此方(fang)法在訓練過(guo)程中(zhong)抹去了encoder中(zhong)可見input的(de)對應梯度,從而鼓(gu)勵模(mo)型從不可見的(de)部分進行(xing)推測,并且能有效(xiao)降低(di)模(mo)型對corrupted label的(de)overfit。

應(ying)用場景(jing)方面,此方法(fa)可以有效應(ying)對模型overfit到corrupted label并(bing)提升模型訓練(lian)的效果(guo),例如半監督自學習中,因為domain不match等原(yuan)因導致pseudo-label質(zhi)量(liang)過差,以及已(yi)知一部(bu)分數據標注質(zhi)量(liang)過差的問題。

4ICASSP 2022多方會議轉錄挑戰賽的火山語音系統

會(hui)議場景是(shi)語(yu)音(yin)識別和說話(hua)人(ren)日志技(ji)術應用(yong)中最有價值和挑戰(zhan)的(de)場景之一,會(hui)議場景包(bao)含了豐富的(de)說話(hua)風格和復雜(za)的(de)聲學條件(jian),需要考慮重疊語(yu)音(yin)、未(wei)知數(shu)量說話(hua)人(ren)、遠場信號、噪音(yin)、混響等(deng)挑戰(zhan)。

ICASSP 2022多(duo)通道(dao)多(duo)方會議(yi)轉錄挑戰(zhan)(M2MeT)提(ti)供(gong)了120小時(shi)真實記錄的中文會議(yi)數(shu)據,包(bao)含8通道(dao)麥克風遠場數(shu)據和(he)(he)(he)對應耳機麥克風采集的近場數(shu)據。M2MeT挑戰(zhan)賽(sai)(sai)包(bao)括多(duo)說(shuo)話人語音識別(bie)(bie)和(he)(he)(he)說(shuo)話人日志兩個賽(sai)(sai)道(dao),團隊在限定訓練數(shu)據子賽(sai)(sai)道(dao)上分別(bie)(bie)獲(huo)得第二名(ming)和(he)(he)(he)第四名(ming)。

針對多說(shuo)話人語(yu)音識別(bie)賽道(dao),團隊(dui)提出一種神經(jing)網絡(luo)前端模塊和語(yu)音識別(bie)模塊端到端聯合訓練的(de)(de)方(fang)法,輸(shu)入(ru)8通道(dao)音頻(pin)輸(shu)出多說(shuo)話人識別(bie)文本,除(chu)此(ci)之(zhi)外加入(ru)了豐富的(de)(de)8通道(dao)數據仿真(zhen),在(zai)測(ce)試集上和官方(fang)基線相比CER相對下降32.6%。

在說話人日志賽道中,結合前端信號處理技術,團隊提出一種融合聲源定位信息的說話人日志方法,提高識別準確率;同時針對競賽數據中存在的說話人重疊問題,提出一種多通道融合算法,減少重疊部分的說話人漏檢,最后采用修改的DOVER-Lap算法對多套系統進行融合,最終在測試集上的DER(說話人日志錯誤率)相比官方基線相對下降53.7%

該(gai)技(ji)術可以被用在(zai)會議(yi)室多通道麥克(ke)風場(chang)景下,生成包含(han)說話人信息(xi)的多說話人語(yu)音(yin)轉錄結果。

五、超腦方向:單一模型支持跨語言語音識別,減輕部署維護成本

在超腦方(fang)向(xiang),火(huo)山語(yu)音團隊(dui)基于稀(xi)疏共享子網絡(luo)的(de)跨語(yu)言語(yu)音表征學習論文被ICASSP 2022收錄。

該工作提(ti)出了一種基(ji)于稀疏共享結構(gou)的多(duo)語(yu)言語(yu)音表征學習方法,即從模型(xing)中(zhong)劃分出多(duo)個(ge)稀疏子網絡(luo)(luo)來分別對不同語(yu)言進(jin)(jin)行建(jian)模,進(jin)(jin)而實現語(yu)言自適應訓(xun)練,每個(ge)語(yu)言的子網絡(luo)(luo)都通過(guo)裁剪(jian)不重要的參數進(jin)(jin)行提(ti)取。

基(ji)于此,文(wen)中探索了一(yi)種基(ji)于彩票假設(Lottery Ticket Hypothesis)的(de)提(ti)(ti)取方法(fa)以及另一(yi)種基(ji)于一(yi)階泰勒展(zhan)開的(de)快(kuai)速提(ti)(ti)取方法(fa)。在下(xia)游(you)多語言語音識別任務(wu)上(shang),所提(ti)(ti)出的(de)方法(fa)可以大(da)幅降(jiang)低基(ji)線XLSR模(mo)型的(de)錯(cuo)誤率,并(bing)超過(guo)Gating Network、Adapter等(deng)其他自適(shi)應訓練方法(fa)。

字節跳動將音樂檢索速度提高8倍,多篇論文入選語音頂會▲基于稀疏共享結構的(de)多語言預訓練流(liu)程

在(zai)國際化(hua)背(bei)景(jing)下,為了滿足不同語(yu)言的(de)字幕、審核和翻譯(yi)等(deng)需(xu)求,需(xu)要針對各個語(yu)言去搭建(jian)語(yu)音識(shi)(shi)別系統(tong)。多語(yu)言語(yu)音識(shi)(shi)別的(de)目標是用單一模型去支(zhi)持多個語(yu)言的(de)語(yu)音識(shi)(shi)別,可以有效(xiao)的(de)減輕部署(shu)和維護的(de)成本,并能(neng)在(zai)一些(xie)低資源場景(jing)下提(ti)升(sheng)識(shi)(shi)別效(xiao)果,具有非常(chang)重要的(de)意義(yi)。

結語:AI語音正在業務場景釋放更大價值

字節跳(tiao)動(dong)火山語音(yin)團(tuan)隊(dui)是原字節跳(tiao)動(dong)AI Lab Speech & Audio智能語音(yin)與(yu)音(yin)頻(pin)(pin)團(tuan)隊(dui),致力(li)于(yu)為公司各個業(ye)務提供音(yin)頻(pin)(pin)理(li)解、音(yin)頻(pin)(pin)合成、對話交互、音(yin)樂檢索(suo)和(he)智能教學等AI能力(li)與(yu)方(fang)案。

自2017年成立(li)以來,字節跳(tiao)動火山語(yu)音(yin)團隊研發的AI智能語(yu)音(yin)技(ji)術,已經為今(jin)日頭條、抖音(yin)、剪映、西瓜視頻、番茄(qie)小說、飛書(shu)辦(ban)公套件等(deng)字節跳(tiao)動旗下重量級產品提供了各類AI解決方(fang)案。

截至目(mu)前(qian),該(gai)團(tuan)隊已(yi)服(fu)務(wu)上百個業(ye)(ye)務(wu)合作伙伴(ban)。伴(ban)隨字(zi)節跳(tiao)動(dong)業(ye)(ye)務(wu)的(de)快速(su)發展,其(qi)語音識(shi)別和(he)語音合成覆蓋了多種語言(yan)(yan)和(he)方(fang)言(yan)(yan),已(yi)有多篇(pian)論文入選各類AI頂級會議,未來希望繼(ji)續發展70+語言(yan)(yan)和(he)20+方(fang)言(yan)(yan),用于(yu)滿足內容(rong)創作與交(jiao)流(liu)平(ping)臺的(de)需(xu)求。隨著字(zi)節跳(tiao)動(dong)火山語音團(tuan)隊不斷探索AI與業(ye)(ye)務(wu)場景的(de)高效結合,我(wo)們期待看到其(qi)智能(neng)語音技術實(shi)現更大(da)的(de)用戶價值。