
智東西(公眾號:zhidxcom)
編譯 |? 孟強
編輯 |??云鵬
智東西7月24日消息,Satbility AI于(yu)7月19日在Arxiv上分享了(le)(le)Stable Audio Open的研究論文(wen),公開了(le)(le)該(gai)模型背后的技術(shu)細節。
Stable Audio Open是StabilityAI于今(jin)年6月(yue)推出(chu)的(de)開(kai)源文本(ben)轉音(yin)頻模(mo)型,可(ke)(ke)免費生成(cheng)長達47秒(miao)的(de)樣本(ben)和音(yin)效,還可(ke)(ke)生成(cheng)44.1kHz高質量立體(ti)聲(sheng)音(yin)頻,并且能在消費級GPU上(shang)運行。除了(le)免費、開(kai)源,該模(mo)型還注重保護創作者(zhe)版權,在數據訓練中盡力避免倫理道德問題。
論文透露,Stable?Audio?Open是(shi)StabilityAI于今年3月推出的商用(yong)Stable?Audio?2的變體模型,整(zheng)體架(jia)構(gou)保持一致,但在訓練數據的采用(yong)和部分架(jia)構(gou)上采取(qu)了調整(zheng),關鍵(jian)架(jia)構(gou)由自動編碼器、基于T5的文本嵌(qian)入以(yi)及擴(kuo)散模型(DiT)構(gou)成。
論文(wen)地址(zhi)://arxiv.org/html/2407.14358v1
一、3個關鍵架構提供支持,免費生成44.1kHz高質量立體聲短音頻
Stable Audio Open引(yin)入了一(yi)種文(wen)本(ben)轉音頻模型,有3個主(zhu)要架構:
- 自動編碼器:將波形數據壓縮到可管理的序列長度;
- 基于T5的文本嵌入;
- 基于transformer的擴散模型(DiT):在自動編碼器的潛在空間中運行。
自(zi)動編(bian)碼(ma)(ma)器(qi)是一種(zhong)神(shen)經網絡(luo)架(jia)構,由編(bian)碼(ma)(ma)器(qi)和(he)解(jie)(jie)碼(ma)(ma)器(qi)組(zu)成,編(bian)碼(ma)(ma)器(qi)將(jiang)輸(shu)入的(de)(de)數據壓縮成一個(ge)較(jiao)小(xiao)的(de)(de)潛在(zai)(zai)空間(jian)表(biao)示,解(jie)(jie)碼(ma)(ma)器(qi)則將(jiang)這個(ge)潛在(zai)(zai)表(biao)示解(jie)(jie)壓還(huan)原(yuan)。Stable Audio Open中的(de)(de)自(zi)動編(bian)碼(ma)(ma)器(qi)把音頻波(bo)形壓縮成一個(ge)較(jiao)短的(de)(de)序列,以便后續處理。
T5(Text-to-Text Transfer Transformer)是一個由谷歌開發的(de)自然語言處理模型(xing),它可以將輸(shu)入(ru)的(de)文(wen)本轉(zhuan)換(huan)為另一種文(wen)本表示。在Stable Audio Open中(zhong),T5模型(xing)將用戶輸(shu)入(ru)的(de)文(wen)本轉(zhuan)換(huan)成(cheng)(cheng)文(wen)本嵌入(ru)(text embedding),以便于將文(wen)本信息(xi)融入(ru)到音頻生成(cheng)(cheng)過程中(zhong)。
DiT(Diffusion Transformer)是(shi)一種擴散(san)模型,在自動編碼器的(de)(de)(de)潛在空間中運行(xing),對(dui)編碼器壓縮后的(de)(de)(de)數據進行(xing)處理和優化,確(que)保解(jie)碼器能(neng)還(huan)原出連(lian)貫、高質量的(de)(de)(de)音頻。
作(zuo)為Stable?Audio?2的(de)(de)變體模型,Stable?Audio?Open在訓練(lian)數(shu)(shu)據(ju)的(de)(de)采用和部(bu)分架構上進行了(le)調整。采取了(le)完(wan)全不同的(de)(de)數(shu)(shu)據(ju)集,并且使用T5代(dai)替(ti)了(le)CLAP(Contrastive Language-Audio Pretraining)。前(qian)者(zhe)由(you)谷歌開發(fa)(fa),專注于文本數(shu)(shu)據(ju),完(wan)成各種自(zi)然語言處理(li)任務,而后者(zhe)由(you)OpenAI研發(fa)(fa),即可處理(li)語言數(shu)(shu)據(ju),也可處理(li)音頻數(shu)(shu)據(ju)。
作為一個開源免費的模型(xing),Stable?Audio?Open無法生成連貫完整的曲目(mu),也不(bu)會針對(dui)完整的曲目(mu)、旋律或人(ren)聲進行優化。
Stability AI稱(cheng),Stable Audio Open專注于(yu)音(yin)(yin)(yin)頻demo和(he)音(yin)(yin)(yin)效(xiao)制(zhi)作,可免費生成最長47秒的44.1kHz高質量立體(ti)聲(sheng)音(yin)(yin)(yin)頻。經過(guo)專業訓練(lian)后,該模型非常適(shi)合(he)創建(jian)鼓點、樂器重復(fu)樂段、環境音(yin)(yin)(yin)、擬(ni)音(yin)(yin)(yin)錄音(yin)(yin)(yin)和(he)其他(ta)用于(yu)音(yin)(yin)(yin)樂制(zhi)作和(he)聲(sheng)音(yin)(yin)(yin)設(she)計的音(yin)(yin)(yin)頻樣本。
此次(ci)開源版本還有(you)一個關鍵優勢,即用戶可以根據自(zi)(zi)己的自(zi)(zi)定義音頻(pin)數據對模型進行微調,這樣(yang),用戶就可以用自(zi)(zi)己的鼓(gu)聲(sheng)錄音來訓練模型,用自(zi)(zi)己的風(feng)格(ge)生成(cheng)獨特的節奏。
二、訓練過程著重保護版權
在(zai)生成式(shi)AI快速發展的背景下,人(ren)們(men)對(dui)音樂行業(ye)使用人(ren)工智能(neng)的爭論日益激烈,特別是在(zai)版(ban)權問題上。Stability AI前音頻副總裁Ed Newton-Rex于2023年底(di)離(li)職,理由(you)是他(ta)不同意Stability AI在(zai)訓練模型(xing)時使用受版(ban)權保(bao)護(hu)的音頻,認(ren)為(wei)此舉(ju)存違背倫(lun)理道德。他(ta)曾參與開發Stable Audio。
生成(cheng)式AI的(de)數據(ju)訓練(lian)(lian)像是一個(ge)黑箱里(li)進行(xing),除了開發商,誰也不知道(dao)訓練(lian)(lian)所使用的(de)數據(ju)是否受(shou)版(ban)權保護(hu)。Newton-Rex說:“許多價值數十億美元(yuan)的(de)科技公(gong)司在(zai)未(wei)經(jing)許可的(de)情況下,利(li)用創作(zuo)(zuo)者的(de)作(zuo)(zuo)品訓練(lian)(lian)生成(cheng)式人(ren)工智(zhi)能模(mo)型(xing),然后使用這(zhe)些(xie)模(mo)型(xing)生成(cheng)新(xin)內(nei)容。”他在(zai)一封(feng)公(gong)開辭(ci)職信中(zhong)表示,他不接受(shou)這(zhe)種依靠侵犯創作(zuo)(zuo)者版(ban)權而(er)牟利(li)的(de)行(xing)為。
Stability AI表(biao)示,為尊重創作(zuo)(zuo)者版(ban)權,Stable Audio Open使用(yong)的(de)(de)(de)數據集來自(zi)Freesound和免費音(yin)樂檔案(FMA),所有使用(yong)的(de)(de)(de)錄(lu)音(yin)均是CC(Creative Commons)許(xu)可(ke)下發布(bu)的(de)(de)(de)音(yin)頻錄(lu)音(yin)。CC是一種(zhong)版(ban)權許(xu)可(ke)機(ji)制,該機(ji)制允許(xu)創作(zuo)(zuo)者共享他們的(de)(de)(de)作(zuo)(zuo)品(pin),并規定他人如(ru)何使用(yong)這(zhe)些作(zuo)(zuo)品(pin)。
為了確保避免使(shi)用任何受版權(quan)保護的(de)材料,Stability AI稱通過使(shi)用音頻標記器識別Freesound中(zhong)的(de)音樂樣本,并將識別出的(de)樣本被發送到(dao)Audible Magic的(de)內容檢測公(gong)司,以確保從(cong)數據集中(zhong)刪除潛(qian)在的(de)受版權(quan)保護的(de)音樂。
Stability AI表示:“這讓我們能夠創建一個開放的音頻(pin)模型(xing),同時又能充分尊重(zhong)創作者的權利(li)。”
結語:開源、免費模型讓文生音頻更普及
Stable Audio Open的(de)推出展示了(le)Stability AI在文(wen)本轉(zhuan)音(yin)(yin)頻模(mo)型(xing)領域的(de)創(chuang)新(xin)和進步。雖然該模(mo)型(xing)在生(sheng)(sheng)成音(yin)(yin)頻長度和連貫性上存在一定(ding)的(de)限制,但其(qi)優點(dian)也顯(xian)而易見。它能免費生(sheng)(sheng)成高質量的(de)44.1kHz立體聲音(yin)(yin)頻,并且能在消費級GPU上運行,降低了(le)文(wen)生(sheng)(sheng)音(yin)(yin)頻的(de)使用門檻。
同(tong)時,Stable Audio Open在開放音頻生成技術的同(tong)時,也為版權保護(hu)樹立了新標(biao)桿。在今后(hou),隨著技術的不斷進步和(he)道德規范(fan)的完善,Stable Audio Open有(you)望(wang)在更(geng)多應用場景(jing)中發揮其潛力,推動(dong)音頻生成技術的發展和(he)普(pu)及。
目前,Stable Audio Open模型權重可在機器(qi)學(xue)習模型平臺Hugging Face上獲取。Stability AI鼓勵聲音設計師、音樂家、開發(fa)人員以及任何對音頻感興趣的(de)人探索該(gai)模型的(de)功能(neng)并提(ti)供反(fan)饋。
來(lai)源:Stability AI