微软最新AI系统！使用云端麦克风阵列，音频转录精度提升22.4%

智東西（公眾號：zhidxcom）
編 | 王穎

導語：微軟利用人工智能轉錄會議音頻，新系統使用云端麥克風陣列。

智東(dong)西9月16日消(xiao)息，微軟(ruan)語(yu)音和對話研(yan)究(jiu)小(xiao)組的科學家(jia)最近研(yan)發了一個系統，利用內置(zhi)于智能手機、筆記本電(dian)腦和平板電(dian)腦中的麥克(ke)風來提高音頻質量。

這(zhe)個系統通過(guo)智(zhi)能硬件連接互聯網，在云端(duan)形成(cheng)臨時(shi)的麥克風陣列，可(ke)以實時(shi)高(gao)精度轉錄(lu)音頻。研究小組計劃(hua)在Interspeech 2019年會議上(shang)發表相關的研究論文。

會議(yi)室的音頻無法及時可靠地傳達給遠程參加(jia)會議(yi)的各方(fang)時，總會令人感到非常無奈。音響效果的差異和(he)干(gan)擾總是導致線(xian)路另一(yi)端接收的音頻清(qing)晰(xi)度降低。

接下(xia)(xia)來我們(men)一起了解一下(xia)(xia)，微軟(ruan)設計的(de)云端麥克風系統(tong)，是(shi)如(ru)何提(ti)高音(yin)頻轉(zhuan)錄的(de)精度和效率的(de)。

微軟最新AI系統！使用云端麥克風陣列，音頻轉錄精度提升22.4%

一、云端麥克風陣列提高音頻精度

微(wei)軟(ruan)團隊的解決方(fang)案是(shi)一個端到端系(xi)統，首先從不(bu)同的麥克(ke)風收集聲音(yin)信(xin)號(hao)，然后進行波束成形，這種技(ji)術能使麥克(ke)風陣列對來(lai)自特(te)定方(fang)向(xiang)的聲音(yin)更加(jia)敏(min)感(gan)。

該系統(tong)的(de)主(zhu)要研究人(ren)員Takuya Yoshioka在(zai)(zai)博客(ke)中寫道：“我們方(fang)法背后的(de)核(he)心思想(xiang)是利用(yong)與會者(zhe)通(tong)常攜帶到會議(yi)現(xian)場的(de)筆(bi)記(ji)本電腦和智能手機等任何與互聯(lian)網相連的(de)設備，虛擬地在(zai)(zai)云端形(xing)成一個臨(lin)時的(de)麥克(ke)風陣(zhen)列。”

由一個識(shi)別信號(hao)之間關系的(de)模型進(jin)行(xing)編(bian)排。在波束形成過程中(zhong)，信號(hao)被反饋到下(xia)游的(de)語音識(shi)別模塊，然(ran)后對它們進(jin)行(xing)合并、注釋并發送回與會者(zhe)。

據(ju)研究團隊介紹，通過他們的(de)方法，使(shi)用(yong)云端麥克風陣列(lie)，參加會議時人們可以使(shi)用(yong)已經(jing)帶到會議現(xian)場的(de)手機、筆記(ji)本電腦(nao)和平(ping)板電腦(nao)實時高精度轉錄音頻，無需專用(yong)的(de)硬件設備。

Takuya Yoshioka指出(chu)，這種(zhong)方(fang)法在(zai)(zai)理論(lun)上(shang)要(yao)比執行上(shang)簡單，因為不(bu)同設備之(zhi)間的音頻保真(zhen)度存在(zai)(zai)很大差(cha)異，不(bu)同麥克風捕捉到的語音信號彼此(ci)并不(bu)一(yi)致。設備的數(shu)量(liang)及(ji)其相(xiang)對位置在(zai)(zai)每次會議之(zhi)間的不(bu)一(yi)致也增加了麥克風陣列(lie)的設計(ji)難(nan)度。

二、語音轉錄系統仍需進一步完善

研究人員報告說，在(zai)定(ding)性測試(shi)中，他們的(de)人工智能系(xi)統(tong)在(zai)使(shi)用3個麥(mai)克(ke)風和7個麥(mai)克(ke)風的(de)情況下(xia)，其性能分別比單設備系(xi)統(tong)高出14.8%和22.4%。

研發團隊(dui)表示(shi)，他們的(de)(de)系統(tong)還不(bu)完善，偶(ou)爾會(hui)因為(wei)重疊的(de)(de)語音而出錯。測試中，有10%的(de)(de)錄音中包含不(bu)止(zhi)一個說話者，這時語音轉(zhuan)錄的(de)(de)錯誤(wu)率(lv)為(wei)13.6%。

論(lun)文(wen)中Takuya Yoshioka和(he)他的同事寫道(dao)：“我們將設備分布在放假各處(chu)，獲得了更好(hao)的空間覆蓋率，研究顯示了多個異步麥克風在真實場景中滿足轉錄的有效性。”

結語：語音轉錄技術提升還需加大研發投入

微軟(ruan)在(zai)語音(yin)轉(zhuan)(zhuan)錄(lu)方(fang)(fang)面的研究迎合了市場的需求。去(qu)年夏天(tian)，微軟(ruan)在(zai)語音(yin)轉(zhuan)(zhuan)錄(lu)方(fang)(fang)面的研究已經應用(yong)在(zai)了微軟(ruan)365上，可以自主將語音(yin)轉(zhuan)(zhuan)換(huan)為文本，與會者(zhe)還能通過(guo)視頻(pin)記錄(lu)轉(zhuan)(zhuan)換(huan)文本，使錄(lu)音(yin)文件的文本轉(zhuan)(zhuan)錄(lu)變(bian)得更加(jia)簡單便(bian)捷(jie)。

幾個月后(hou)，微軟在(zai)又OneDrive和SharePoint中推出了音(yin)頻和視頻文件(jian)的自(zi)動轉(zhuan)錄功(gong)能，進一步提升了文本轉(zhuan)換的效率。

語(yu)音(yin)(yin)文本(ben)的實時轉錄(lu)(lu)，在(zai)辦公和學習場(chang)景(jing)(jing)中都(dou)有很強的實用(yong)性(xing)。目前，語(yu)音(yin)(yin)轉錄(lu)(lu)系統還不(bu)完(wan)善，轉錄(lu)(lu)的準確(que)性(xing)還有待提升，在(zai)數(shu)據、算法(fa)等方(fang)面還需(xu)要更(geng)多(duo)的研發投入(ru)，以滿足(zu)消費者在(zai)不(bu)同場(chang)景(jing)(jing)下的需(xu)求。

論文鏈接：//www.microsoft.commeetingtranscriptionsusingvirtualmicrophonearrays.pdf

原文來自：VentureBeat

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、云端麥克風陣列提高音頻精度

二、語音轉錄系統仍需進一步完善

結語：語音轉錄技術提升還需加大研發投入

相關推薦