
智東西(公眾號:zhidxcom)
編譯 | 龐小春
編輯 | 程茜
智東(dong)西5月(yue)11日(ri)消息,昨天,語音人(ren)工智能初創(chuang)公司ElevenLabs發(fa)布了音樂生成人(ren)工智能模型的早(zao)期預覽,能夠(gou)根據文本提示(shi),生成帶(dai)有歌詞的歌曲小樣。
ElevenLabs由谷歌的前機器學習工(gong)程(cheng)師(shi)皮(pi)奧特·達布(bu)科(ke)夫(fu)斯基(Piotr Dabkowski)和分析(xi)軟件公司Palantir的前策略(lve)分析(xi)師(shi)馬蒂·斯坦尼(ni)謝夫(fu)斯基(Mati Staniszewski),其音(yin)樂(le)大模(mo)型可用(yong)(yong)于多(duo)種場景。但模(mo)型發(fa)布(bu)以來(lai)并(bing)未受到所有(you)人的歡迎,不少人對其使用(yong)(yong)數據的原創性和使用(yong)(yong)方式表示擔憂(you)。
一、宣傳策略模仿Sora,實時征集網友創意生成音樂
ElevenLabs擅于利用機器(qi)學習(ML)進行不同語(yu)言(yan)的(de)語(yu)音(yin)克隆和合(he)成,該(gai)公司已推出多(duo)種語(yu)音(yin)生成功能,包括文(wen)字轉語(yu)音(yin)、語(yu)音(yin)變聲器(qi)、配音(yin)等。不出所料,該(gai)公司已將目光投向了音(yin)樂產業。
為了提高模型知名(ming)度(du),ElevenLabs采用了薩姆·奧爾特曼(Sam Altman)在推出視頻大(da)模型Sora時的(de)宣傳方(fang)式,在社交媒體上對外征集創意,并將網友提供的(de)文本轉(zhuan)化為音樂。
目前尚未清楚(chu)此模型可以生(sheng)成音樂(le)的(de)時間范圍,但(dan)根據該(gai)公司設計主(zhu)管阿瑪爾·瑞希(xi)(Ammaar Reshi)在X上發布的(de)示例,VentureBeat猜測此模型能夠為三分(fen)鐘的(de)音樂(le)作品生(sheng)成歌詞。
VentureBeat在報道中列(lie)舉了一些音(yin)樂大(da)模型的使用場景:生成一首有趣的搖籃曲(qu)(qu)哄孩子們入睡、為(wei)(wei)營(ying)銷活(huo)動制(zhi)作一首巧妙的廣(guang)告歌曲(qu)(qu)、為(wei)(wei)播客(ke)節(jie)目(mu)設計一段活(huo)潑的音(yin)樂前(qian)奏(zou)等。外(wai)媒認(ren)為(wei)(wei),一些人(ren)或許會(hui)使用這種(zhong)模型來開發(fa)下(xia)一首熱門歌曲(qu)(qu),并稱目(mu)前(qian)已經涌現出大(da)量音(yin)樂人(ren)工智能創(chuang)企,包括Harmonai、Lyrical Labs、Suno AI、Loudly等。
ElevenLabs于1月份推出(chu)了名為(wei)語音(yin)庫(ku)的產品(pin),用(yong)戶可以通過語音(yin)庫(ku)出(chu)售(shou)(shou)這些由人工智能生成的歌曲。目(mu)前(qian),該公司(si)的語音(yin)庫(ku)已允許用(yong)戶出(chu)售(shou)(shou)自己(ji)的人工智能克隆語音(yin),公司(si)會對其語音(yin)的可用(yong)范圍(wei)進(jin)行(xing)控制。
二、訓練數據版權受質疑,還可能被用于深度偽造
然而,音樂(le)生成(cheng)技術(shu)并非受到所有人的歡迎。與所有生成(cheng)式(shi)人工智能應(ying)用程序一(yi)樣(yang),ElevenLabs的問題在于是(shi)(shi)在什么樣(yang)的數據基礎上訓練(lian)此模(mo)型的,訓練(lian)數據是(shi)(shi)否(fou)包(bao)(bao)含(han)受版權保(bao)護的內(nei)容。如(ru)果包(bao)(bao)含(han),ElevenLabs是(shi)(shi)否(fou)獲得了內(nei)容所有者的允(yun)許,或者這些內(nei)容是(shi)(shi)否(fou)受到了合(he)理(li)的保(bao)護。
還有(you)一些反對音樂(le)生(sheng)成技術的人(ren)認為,藝術家(jia)可(ke)能(neng)會失業。人(ren)工智能(neng)將會輕松復制藝術家(jia)的風格,然后代替他們推(tui)出新音樂(le)。此類技術也有(you)可(ke)能(neng)被用來生(sheng)產深度(du)偽造品。VentureBeat已經聯系(xi)了ElevenLabs,希望該公司能(neng)夠就其音樂(le)生(sheng)成模型發表更(geng)多(duo)評論(lun),并稱如果收到回復會及時更(geng)新相關媒(mei)體報道(dao)。
結語:模型尚未成熟,既有機遇也有挑戰
目(mu)前,ElevenLabs的(de)音樂(le)生成大(da)模型仍(reng)處于(yu)早(zao)期預覽版,但是(shi)已(yi)經展現出較大(da)的(de)潛力和影響力。它可以快速產出音樂(le)作品,提高音樂(le)制(zhi)作的(de)效率(lv),但也有可能(neng)會對傳統音樂(le)人造成一定(ding)沖擊。
音(yin)樂生(sheng)成模型的出現,預示著音(yin)樂產業可能會(hui)經歷一(yi)場(chang)由技術驅(qu)動的變革,既帶來機遇也帶來挑戰。
來源:VentureBeat