
智東西(公眾號:zhidxcom)
編 | 王穎
導語:微軟利用人工智能轉錄會議音頻,新系統使用云端麥克風陣列。
智東(dong)西9月16日消(xiao)息,微軟(ruan)語(yu)音和對話研(yan)究(jiu)小(xiao)組的科學家(jia)最近研(yan)發了一個系統,利用內置(zhi)于智能手機、筆記本電(dian)腦和平板電(dian)腦中的麥克(ke)風來提高音頻質量。
這(zhe)個系統通過(guo)智(zhi)能硬件連接互聯網,在云端(duan)形成(cheng)臨時(shi)的麥克風陣列,可(ke)以實時(shi)高(gao)精度轉錄(lu)音頻。研究小組計劃(hua)在Interspeech 2019年會議上(shang)發表相關的研究論文。
會議(yi)室的音頻無法及時可靠地傳達給遠程參加(jia)會議(yi)的各方(fang)時,總會令人感到非常無奈。音響效果的差異和(he)干(gan)擾總是導致線(xian)路另一(yi)端接收的音頻清(qing)晰(xi)度降低。
接下(xia)(xia)來我們(men)一起了解一下(xia)(xia),微軟(ruan)設計的(de)云端麥克風系統(tong),是(shi)如(ru)何提(ti)高音(yin)頻轉(zhuan)錄的(de)精度和效率的(de)。
一、云端麥克風陣列提高音頻精度
微(wei)軟(ruan)團隊的解決方(fang)案是(shi)一個端到端系(xi)統,首先從不(bu)同的麥克(ke)風收集聲音(yin)信(xin)號(hao),然后進行波束成形,這種技(ji)術能使麥克(ke)風陣列對來(lai)自特(te)定方(fang)向(xiang)的聲音(yin)更加(jia)敏(min)感(gan)。
該系統(tong)的(de)主(zhu)要研究人(ren)員Takuya Yoshioka在(zai)(zai)博客(ke)中寫道:“我們方(fang)法背后的(de)核(he)心思想(xiang)是利用(yong)與會者(zhe)通(tong)常攜帶到會議(yi)現(xian)場的(de)筆(bi)記(ji)本電腦和智能手機等任何與互聯(lian)網相連的(de)設備,虛擬地在(zai)(zai)云端形(xing)成一個臨(lin)時的(de)麥克(ke)風陣(zhen)列。”
由一個識(shi)別信號(hao)之間關系的(de)模型進(jin)行(xing)編(bian)排。在波束形成過程中(zhong),信號(hao)被反饋到下(xia)游的(de)語音識(shi)別模塊,然(ran)后對它們進(jin)行(xing)合并、注釋并發送回與會者(zhe)。
據(ju)研究團隊介紹,通過他們的(de)方法,使(shi)用(yong)云端麥克風陣列(lie),參加會議時人們可以使(shi)用(yong)已經(jing)帶到會議現(xian)場的(de)手機、筆記(ji)本電腦(nao)和平(ping)板電腦(nao)實時高精度轉錄音頻,無需專用(yong)的(de)硬件設備。
Takuya Yoshioka指出(chu),這種(zhong)方(fang)法在(zai)(zai)理論(lun)上(shang)要(yao)比執行上(shang)簡單,因為不(bu)同設備之(zhi)間的音頻保真(zhen)度存在(zai)(zai)很大差(cha)異,不(bu)同麥克風捕捉到的語音信號彼此(ci)并不(bu)一(yi)致。設備的數(shu)量(liang)及(ji)其相(xiang)對位置在(zai)(zai)每次會議之(zhi)間的不(bu)一(yi)致也增加了麥克風陣列(lie)的設計(ji)難(nan)度。
二、語音轉錄系統仍需進一步完善
研究人員報告說,在(zai)定(ding)性測試(shi)中,他們的(de)人工智能系(xi)統(tong)在(zai)使(shi)用3個麥(mai)克(ke)風和7個麥(mai)克(ke)風的(de)情況下(xia),其性能分別比單設備系(xi)統(tong)高出14.8%和22.4%。
研發團隊(dui)表示(shi),他們的(de)(de)系統(tong)還不(bu)完善,偶(ou)爾會(hui)因為(wei)重疊的(de)(de)語音而出錯。測試中,有10%的(de)(de)錄音中包含不(bu)止(zhi)一個說話者,這時語音轉(zhuan)錄的(de)(de)錯誤(wu)率(lv)為(wei)13.6%。
論(lun)文(wen)中Takuya Yoshioka和(he)他的同事寫道(dao):“我們將設備分布在放假各處(chu),獲得了更好(hao)的空間覆蓋率,研究顯示了多個異步麥克風在真實場景中滿足轉錄的有效性。”
結語:語音轉錄技術提升還需加大研發投入
微軟(ruan)在(zai)語音(yin)轉(zhuan)(zhuan)錄(lu)方(fang)(fang)面的研究迎合了市場的需求。去(qu)年夏天(tian),微軟(ruan)在(zai)語音(yin)轉(zhuan)(zhuan)錄(lu)方(fang)(fang)面的研究已經應用(yong)在(zai)了微軟(ruan)365上,可以自主將語音(yin)轉(zhuan)(zhuan)換(huan)為文本,與會者(zhe)還能通過(guo)視頻(pin)記錄(lu)轉(zhuan)(zhuan)換(huan)文本,使錄(lu)音(yin)文件的文本轉(zhuan)(zhuan)錄(lu)變(bian)得更加(jia)簡單便(bian)捷(jie)。
幾個月后(hou),微軟在(zai)又OneDrive和SharePoint中推出了音(yin)頻和視頻文件(jian)的自(zi)動轉(zhuan)錄功(gong)能,進一步提升了文本轉(zhuan)換的效率。
語(yu)音(yin)(yin)文本(ben)的實時轉錄(lu)(lu),在(zai)辦公和學習場(chang)景(jing)(jing)中都(dou)有很強的實用(yong)性(xing)。目前,語(yu)音(yin)(yin)轉錄(lu)(lu)系統還不(bu)完(wan)善,轉錄(lu)(lu)的準確(que)性(xing)還有待提升,在(zai)數(shu)據、算法(fa)等方(fang)面還需(xu)要更(geng)多(duo)的研發投入(ru),以滿足(zu)消費者在(zai)不(bu)同場(chang)景(jing)(jing)下的需(xu)求。
論文鏈接://www.microsoft.commeetingtranscriptionsusingvirtualmicrophonearrays.pdf
原文來自:VentureBeat