智東西(公眾號:zhidxcom)
編 |?王穎

導語:Facebook研發出可以轉換歌聲的AI模型,能在5~30分鐘將一個歌手的聲音轉換成另一個歌手的聲音。

智東西4月17日消息,Facebook?AI研究院和以色列特拉維夫大學的科學家們發表了一篇關于轉換歌手歌聲的論文——《無監督的歌聲轉換》()。

這篇論文描(miao)述了一種可以直接將一個(ge)歌手的(de)(de)聲(sheng)音轉換成另(ling)一個(ge)歌手聲(sheng)音的(de)(de)系(xi)統。這個(ge)系(xi)統能夠(gou)對以前對未遇到過的(de)(de),未分類、未注釋的(de)(de)數據執行轉換。

研究小組稱,他們的模型僅用(yong)5到30分鐘就能學(xue)會歌手(shou)之間的轉換。

最快5分鐘偷“聲”換日!Facebook用AI玩起假唱

一、AI模型如何轉換歌聲?

這(zhe)個(ge)(ge)(ge)AI模型分(fen)兩個(ge)(ge)(ge)階段(duan)進行培訓。首先對(dui)每個(ge)(ge)(ge)歌手的樣本分(fen)別應用一個(ge)(ge)(ge)稱為softmax重(zhong)構損失的數學(xue)函數(將(jiang)神經網絡得到的多個(ge)(ge)(ge)值,進行歸一化處理,使得到的值在[0,1]之間(jian),讓結果(guo)變得可解釋。即可以將(jiang)結果(guo)看作是概率(lv),某個(ge)(ge)(ge)類別概率(lv)越(yue)大,將(jiang)樣本歸為該(gai)類別的可能(neng)性也就越(yue)高)。

然后混合矢量嵌入(即數(shu)值(zhi)表(biao)示)得到(dao)新歌手的樣(yang)(yang)本,訓練(lian)歌手的樣(yang)(yang)本生成后再(zai)進行反(fan)向(xiang)翻譯步驟。

為了擴充訓(xun)練數據(ju)集(ji),研究人員通過倒向播和改變相(xiang)位來(lai)轉(zhuan)換音頻剪輯。這種(zhong)方法(fa)將(jiang)數據(ju)集(ji)的(de)大小(xiao)增加(jia)(jia)了四(si)倍。第(di)一次增加(jia)(jia)的(de)數據(ju)創造(zao)出了一首胡言(yan)亂(luan)語的(de)歌曲,但(dan)仍然可(ke)以識(shi)別為同(tong)一名歌手所演唱,第(di)二次增加(jia)(jia)的(de)數據(ju)創造(zao)了一個已無法(fa)辨認歌手的(de)新(xin)歌曲。

二、歌聲轉換無需大量訓練數據

論文作(zuo)者表示:“我們的方法(fa)不以(yi)文本或音(yin)(yin)符為條件(jian),不需要各種歌手之間的平行訓練數據,提供了一定(ding)的靈(ling)活性以(yi)及(ji)其他聲音(yin)(yin)特征,可(ke)以(yi)讓我們有能力(li)從自己(ji)聲音(yin)(yin)的某些局限中解放出(chu)來。”

研(yan)究(jiu)人員介(jie)紹,他們的(de)轉換方法建立在WaveNet的(de)基礎上(shang),這是一(yi)種(zhong)(zhong)谷歌開發的(de)自動(dong)編碼器(qi)(一(yi)種(zhong)(zhong)無(wu)監督的(de)神經網(wang)絡模型(xing),它(ta)可以學習到輸入數(shu)據的(de)隱(yin)含特征(zheng)(zheng),同時用學習到的(de)新特征(zheng)(zheng)可以重構出原始輸入數(shu)據),可以從(cong)音(yin)頻(pin)記錄的(de)波形中生成模型(xing)。

它采用(yong)了(le)反向翻譯,即將(jiang)一個數據樣(yang)本(ben)轉換(huan)(huan)為目標樣(yang)本(ben)(在(zai)這(zhe)種情況下(xia),一個歌手(shou)的聲音轉換(huan)(huan)為另一個),然后將(jiang)其翻譯回來(lai),如(ru)果與原文不匹配,則調整(zheng)下(xia)一次嘗試(shi)。

此(ci)外,該研究小(xiao)組的合(he)成(cheng)樣本(ben),在(zai)不輸入歌(ge)手(shou)真實(shi)信(xin)息的情(qing)況下(xia),能夠使用更(geng)接近源(yuan)歌(ge)手(shou)的聲音信(xin)息,構成(cheng)一(yi)個“虛擬(ni)身份(fen)”。

三、歌聲轉換相似度獲好評

在實驗中,研究小組(zu)收(shou)集了(le)兩(liang)組(zu)公開的數據集——斯坦(tan)福大(da)學的移動表(biao)演(yan)數字(zi)檔案館(DAMP)語料庫和(he)新(xin)加坡國立大(da)學的成(cheng)語和(he)口(kou)語語料庫(NUS-48E)。

第一組(zu)中(zhong),他們隨機選擇了(le)5名歌(ge)手(shou)演唱的10首(shou)(shou)歌(ge)(其中(zhong)9首(shou)(shou)被(bei)他們用來訓練AI系統)。?第二(er)組(zu)中(zhong),他們選擇了(le)12名歌(ge)手(shou),每名歌(ge)手(shou)有(you)4首(shou)(shou)歌(ge),所有(you)這(zhe)些歌(ge)曲都(dou)被(bei)用于訓練系統。

接下來,他們讓人(ren)類(lei)評(ping)審員以1-5的評(ping)分(fen)標(biao)準來判斷生成的歌聲(sheng)與目(mu)標(biao)歌聲(sheng)的相似(si)性,并使用一(yi)個包(bao)含分(fen)類(lei)系統的自動測試來更客觀地評(ping)估(gu)樣本的質量。

評審員對轉(zhuan)換后的(de)音頻平均(jun)打分約為(wei)4分(認為(wei)質量較好),而自動測試發(fa)現,所(suo)生(sheng)成樣(yang)本的(de)識別(bie)(bie)精度(du)度(du)幾(ji)乎與重(zhong)建樣(yang)本的(de)識別(bie)(bie)精度(du)一樣(yang)高。

研究人員表示,未來AI歌(ge)聲轉換模型將可以(yi)在存(cun)在背景音樂的情況下執行歌(ge)聲轉換。

結語:AI技術高速發展,不斷催生新技術、新產品誕生

自(zi)1956年(nian)AI的概(gai)念確(que)立以來,人(ren)類(lei)一直在(zai)這個領(ling)域進行不斷的探索。

如今,AI在基礎(chu)研究和(he)(he)技術(shu)產業方面都進入了高(gao)速發展時期,也(ye)開(kai)始越來越多(duo)的(de)應用(yong)于日常生活和(he)(he)工作(zuo)的(de)各(ge)個方面。不斷出(chu)現的(de)各(ge)種AI機(ji)器學習模型被應用(yong)于醫療(liao)、建(jian)筑(zhu)和(he)(he)藝術(shu)等各(ge)個領(ling)域。

AI正在作為新(xin)一輪產業革(ge)命(ming)的(de)核心驅動力,不斷催生(sheng)(sheng)新(xin)技術、新(xin)產品的(de)誕生(sheng)(sheng)。

論文鏈接(jie)://arxiv.org/abs/1904.06590

原文來自(zi):VentureBeat