智東西(公眾號:zhidxcom)
編 |?王穎

導語:IBM提出分布式處理架構ASR,將語音識別訓練時間從一周縮短至11.5小時。

智(zhi)東西4月11日(ri)消息,IBM將在5月的ICASSP會議上公布新型(xing)AI語音模型(xing)處(chu)理架構ASR,大量縮短語音識別訓練時間。

IBM在最新發(fa)表的論文《分布式深度學習自動語音識(shi)別策略》(Distributed Deep Learning Strategies for Automatic Speech Recognition)中提出了一(yi)種(zhong)分布式處理(li)架(jia)構(ASR),該(gai)架(jia)構可以在流行(xing)的開放源代碼基準測試(Switchboard)上(shang)將訓(xun)練提速15倍,而(er)且不會損失準確性(xing)。

論文(wen)的(de)作者表示,ASR部署在包含多個(ge)顯卡的(de)系統上(shang),可以(yi)將(jiang)培訓時(shi)間總計從(cong)幾周(zhou)減少到(dao)幾天。這項(xiang)工作計劃于下個(ge)月在IEEE國際聲學,語(yu)音和信號處理會議(yi)(ICASSP)會議(yi)上(shang)公布。

從7天到11.5小時 IBM新模型讓語音AI訓練時間更短!

一、分布式深度學習加速算法

IBM團隊(dui)的解決方案需要提高批量(liang)(liang)大(da)小,即可以一次處(chu)理的樣本數量(liang)(liang),但不是不加選擇地處(chu)理,否則將對準確性產生負面影響(xiang)。他(ta)們將批量(liang)(liang)大(da)小增(zeng)加到2560個,同時應用(yong)一種稱(cheng)為異步分散并行隨(sui)機梯度(du)下降(ADPSGD)的分布式深(shen)度(du)學習(xi)技術(shu)。

正(zheng)如(ru)研究人員解釋的(de)(de)(de)那樣,大多數(shu)(shu)深度(du)學習模型(xing)(xing)要(yao)(yao)么采(cai)用(yong)同(tong)步(bu)優(you)化(hua)方(fang)(fang)法(fa),這種(zhong)方(fang)(fang)法(fa)受(shou)到慢系統的(de)(de)(de)不成比例的(de)(de)(de)影(ying)響;要(yao)(yao)么采(cai)用(yong)基于參數(shu)(shu)服務器(PS)的(de)(de)(de)異步(bu)方(fang)(fang)法(fa),這種(zhong)方(fang)(fang)法(fa)往往導致(zhi)模型(xing)(xing)不夠精確。 相比之下,IBM去年在(zai)論文(wen)中首(shou)次詳述的(de)(de)(de)ADPSGD是(shi)異步(bu)和分散的(de)(de)(de),保證了(le)(le)模型(xing)(xing)準(zhun)確性(xing)的(de)(de)(de)基線水平(ping),并為某些(xie)類(lei)型(xing)(xing)的(de)(de)(de)優(you)化(hua)問(wen)題(ti)提供了(le)(le)加速(su)。

在測試中(zhong),該論文的(de)作者表示,ADPSGD縮短(duan)了ASR作業的(de)運行時間(jian)(jian),從(cong)單(dan)個V100圖(tu)形(xing)處(chu)(chu)理器(qi)上(shang)的(de)一周(zhou)縮短(duan)到(dao)32圖(tu)形(xing)處(chu)(chu)理器(qi)系統上(shang)的(de)11.5小(xiao)時。ADPSGD留(liu)給未來工作算法的(de)時間(jian)(jian),可(ke)以處(chu)(chu)理更大的(de)批量和(he)系統優(you)化更強大的(de)硬件。

IBM研究(jiu)人員張偉、崔曉(xiao)東(dong)和Brian Kingsbury在(zai)博文中寫道(dao):“在(zai)半(ban)天內完成一項培訓工作是(shi)可取的(de)(de),因(yin)為它使研究(jiu)人員能(neng)夠(gou)快速迭代(dai)開發(fa)新算法,也可以使開發(fa)人員快速調整(zheng)現有模型以適應他(ta)們(men)的(de)(de)應用,特別(bie)是(shi)在(zai)需(xu)要大(da)量語(yu)音來實現穩(wen)健性(xing)和可用性(xing)所(suo)需(xu)的(de)(de)高精度時的(de)(de)情況下。”

二、復雜模型訓練更需縮短時間

機器學(xue)習訓練中,需(xu)要(yao)克服(fu)的持(chi)續性的挑戰,是可(ke)(ke)靠、強大且(qie)可(ke)(ke)概括的語音識(shi)別。傳統上(shang),訓練自然(ran)語言理(li)解模型需(xu)要(yao)包含數千小時(shi)(shi)語音和(he)數百萬(甚至(zhi)數十億)字的語料(liao)庫,更不用說在合理(li)的時(shi)(shi)間范(fan)圍(wei)內(nei)處理(li)它(ta)們的強大硬件了。

張偉(wei)、崔曉東(dong)和Brian Kingsbury介紹(shao),訓練像蘋(pin)果的(de)(de)(de)Siri、谷(gu)歌智能助理和亞馬遜的(de)(de)(de)Alexa那樣的(de)(de)(de)自動語音(yin)識別(bie)系統,需要復(fu)雜(za)的(de)(de)(de)編碼系統將(jiang)語音(yin)轉換為深度學(xue)習(xi)系統和解碼系統能夠理解的(de)(de)(de)功能,將(jiang)輸出(chu)轉換成(cheng)人類可讀的(de)(de)(de)文本。更復(fu)雜(za)模型系統使大規模訓練更加困難。

論(lun)文發布會議鏈(lian)接(jie)://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=3910

原文來自:VentureBeat