智東西(公眾號:zhidxcom)
作者 | GenAICon 2024

2024中國生成式(shi)AI大(da)會(hui)于4月(yue)18-19日在北京舉行(xing),在大(da)會(hui)第二天的主會(hui)場(chang)AIGC應(ying)用專場(chang)上(shang),DeepMusic CEO劉曉光(guang)以《AIGC如何賦能(neng)音樂(le)創作(zuo)與(yu)制作(zuo)》為題發表演講。

劉曉(xiao)光系(xi)統性復盤(pan)了當前音(yin)樂商業(ye)格局(ju),包括不同(tong)音(yin)樂用(yong)戶群體(ti)的(de)特征(zheng)與主要使(shi)用(yong)產品、相關音(yin)樂公(gong)司的(de)商業(ye)獲(huo)利模(mo)式(shi)。

他提到當前音樂商業格局主要面向泛音樂愛好者的聽歌度實踐用戶的唱歌消費體驗,中間有1億以上活躍音樂人、音樂實踐者群體的(de)需求尚未得(de)到好(hao)的(de)產品(pin)滿足;同時音樂制(zhi)作流(liu)程長(chang)、門檻(jian)高,這使得(de)音樂AIGC技術有用武(wu)之地。

音樂創作與制作本身具備一定的專業性門檻,非專業人士很難借助音樂來表達自我,AIGC的發展為音樂創作帶來了另一種可能性。劉曉光不僅詳細回顧了音樂生產工具的40年演變歷程以及其中三個關鍵階段,并對近期多個爆款AI音樂生成產品進行推演,解讀其背后采用的技術方案

劉曉光深入講解了音頻模型、符號模型兩類AI音樂模型所涉及的工作原理、訓練數據及算法技術,并就跨平臺一站式AI音樂工作站“和弦派”的設計(ji)邏(luo)輯進行分享。“和(he)弦派”以更直觀的功能譜呈(cheng)現(xian)音樂創(chuang)作部分信息,解決音樂中歌詞、旋律、伴奏等不同模態之間溝通困難的問題(ti),實現(xian)跨PC、手機平臺(tai)的音樂創(chuang)作、制作體驗。

他認為音樂產業明年就能實現自然語言生成高品質伴奏的功能,只需上傳30秒人聲素材,就能生成用自己聲音演唱的歌曲。未來(lai),DeepMusic也會通過積累的(de)精(jing)細(xi)化標注數據,實現對音頻(pin)模型的(de)精(jing)細(xi)化控制。

以下為劉曉光的演講實錄:

我們公司專(zhuan)注(zhu)于音(yin)(yin)(yin)樂(le)AIGC技術,因此,基于在(zai)此領域的(de)專(zhuan)業認(ren)知,我們將(jiang)與大家探討以(yi)下幾個方(fang)面:行業現狀、AIGC對音(yin)(yin)(yin)樂(le)行業的(de)潛(qian)在(zai)影響、AIGC在(zai)音(yin)(yin)(yin)樂(le)數據與技術方(fang)面的(de)應用,以(yi)及未(wei)來發展(zhan)趨勢。

一、音樂商業格局:泛音樂愛好者月活達8億,頭部企業極度集中

我們先來了解(jie)一下音樂行業的整體情況。

音樂行業最外圈的群體是泛音樂愛好者,他們主要通過聽歌來體驗音樂,使用的主要產品包括酷狗音樂、QQ音樂和網易云音樂等。根據上市公司的數據顯示,這一群體的月活躍用戶大約達到8億人

泛音(yin)樂愛好者是(shi)音(yin)樂行業中最廣泛參與的群體之一。出(chu)于對音(yin)樂的興(xing)趣,部分聽歌(ge)人會參與一些與音(yin)樂相(xiang)關的實踐(jian)(jian)活(huo)動(dong),例如,最淺的音(yin)樂實踐(jian)(jian)就(jiu)是(shi)唱K和觀看音(yin)樂演出(chu),主要使用全民K歌(ge)等產品。

中度實踐階段,我們通常會使用一些產品,例如蘋果系統預裝軟件酷樂隊和安卓應用商店中的完美鋼琴。完美鋼琴在安卓應用商店的下載量可能接近1億次,但其留存率卻相對較低。這表明,中度實踐用戶開始對音樂產生需求,但目前市場上的產品并不能完全滿足他們的需求

DeepMusic劉曉光:深度解讀AIGC音樂創作技術原理,明年實現一鍵生成自唱歌曲丨GenAICon 2024

接下來是深度實踐用戶,主要涵蓋15至30歲的年輕人和50歲以上的中老年人。其中,約15%的年輕人已經參與音樂類興趣社團,而約15%的中老年人參與了中老年合唱團等興趣社團。這些用戶逐漸表現出創作的意愿,預計規模大約為2000萬人。我們將這些積極從事音樂實踐的人群統稱為音樂實踐者

從音樂實踐者進一步升級,則為音樂人。國內音樂人總數約為100萬。這一群體主要來自騰訊、網易以及抖音等平臺,主要從事創作和表演活動。作為音樂人,他們至少發布過1首原創作品。大多數(shu)音樂(le)人(ren)并非(fei)經(jing)過傳統的(de)專業(ye)(ye)音樂(le)教育培養而成,而是(shi)通過職(zhi)業(ye)(ye)培訓學校(xiao)獲(huo)得技能(neng),傳統音樂(le)教育并不(bu)為數(shu)字音樂(le)行業(ye)(ye)提(ti)供人(ren)才。

音樂(le)人創作(zuo)(zuo)時使(shi)用的軟(ruan)件(jian)很有意思,比如(ru)作(zuo)(zuo)詞用Word,作(zuo)(zuo)曲(qu)用錄音機(ji),我(wo)(wo)們可能也覺(jue)得(de)用這些軟(ruan)件(jian)制作(zuo)(zuo)音樂(le)有些奇怪,我(wo)(wo)們清楚不(bu)可能用錄音機(ji)做出咱(zan)們平時聽(ting)的高質量(liang)音樂(le)作(zuo)(zuo)品。

還有一個群體被稱為音樂制作人。這(zhe)些人(ren)通(tong)常是(shi)從音樂(le)(le)(le)人(ren)逐漸晉(jin)升而來(lai),他(ta)們(men)需要(yao)經(jing)過(guo)多年的(de)制作(zuo)經(jing)驗才能勝(sheng)任。他(ta)們(men)的(de)主(zhu)要(yao)任務是(shi)將音樂(le)(le)(le)人(ren)提供(gong)的(de)音樂(le)(le)(le)錄音Demo進行制作(zuo)。在(zai)這(zhe)個過(guo)程中,常見的(de)音樂(le)(le)(le)制作(zuo)軟(ruan)件(jian)包(bao)括雅馬哈公司(si)的(de)Cubase和(he)蘋果公司(si)的(de)Logic Pro,它們(men)是(shi)目前主(zhu)流的(de)音樂(le)(le)(le)制作(zuo)工具,通(tong)常運行在(zai)個人(ren)電腦上。然而,這(zhe)些軟(ruan)件(jian)上手門檻極其高(gao)。

DeepMusic劉曉光:深度解讀AIGC音樂創作技術原理,明年實現一鍵生成自唱歌曲丨GenAICon 2024

音樂(le)人群是這樣的(de),那商業是怎么發展(zhan)的(de)呢(ni)?

在這個領域,我們可以看到(dao)唱片公司、經紀公司等行(xing)業參與者。他(ta)們的(de)主要任務是簽約頭部音樂制(zhi)作人(ren),并(bing)從音樂人(ren)那里(li)獲取原創歌(ge)曲,然(ran)后將這些歌(ge)曲制(zhi)作并(bing)發布到(dao)主要的(de)音樂平(ping)臺,如騰(teng)訊(xun)音樂、網易云音樂等。

這(zhe)些平(ping)臺是(shi)這(zhe)個(ge)行(xing)業的(de)(de)甲方公司,其年收入約為500億人民幣。其中,約35%的(de)(de)收入來自(zi)會員費,即(ji)用戶每年支付的(de)(de)訂閱費用,已經超過(guo)億人;另外(wai)55%的(de)(de)收入則(ze)來自(zi)用戶產生的(de)(de)娛樂消費,還有10%來自(zi)廣告。

這500億的(de)(de)終(zhong)端(duan)收入中(zhong),大約(yue)有100億會(hui)被(bei)分(fen)配給音(yin)樂(le)創作者和唱片公司。而唱片公司則通過播(bo)放占比(bi)分(fen)成的(de)(de)方式來分(fen)配收入,即根據某(mou)首歌的(de)(de)播(bo)放量在中(zhong)國整體音(yin)樂(le)聽(ting)眾(zhong)中(zhong)的(de)(de)占比(bi)來確定分(fen)成比(bi)例。

音樂產業是一個極度頭部集中的行業,以周(zhou)杰倫(lun)的播放占比(bi)為(wei)例,其歌曲在(zai)中(zhong)國整體(ti)音樂市場中(zhong)的占比(bi)為(wei)5.6%。這意味著大約每20個(ge)人中(zhong)就有1個(ge)在(zai)聽(ting)周(zhou)杰倫(lun)的歌曲。

我認為外圈的音(yin)樂商業是(shi)頭部集中的,商業模式已經(jing)相對成熟或者(zhe)問題已經(jing)基本得到解決。

二、AIGC打破音樂制作高成本限制,音頻模型引領音樂生產工具3.0時代

AIGC的主要目標是解決音樂領域中的中間環節問題。

我們注意到,在中級階段的音樂實踐者中,缺乏適合他們進行交互式學習和成長的優質產品。而對于深度實踐者,也缺乏能夠幫助他們提升技能的優秀軟件。音(yin)(yin)樂(le)人(ren)在(zai)創作(zuo)(zuo)音(yin)(yin)樂(le)時(shi)使用Word和錄音(yin)(yin)機可能(neng)存在(zai)一些問題。即使他們用這些工(gong)具創作(zuo)(zuo)出作(zuo)(zuo)品,交給音(yin)(yin)樂(le)制(zhi)作(zuo)(zuo)人(ren)后(hou),仍需要大(da)量(liang)的重復工(gong)作(zuo)(zuo)才能(neng)進(jin)一步處理。

我們認為,AIGC音樂領域的目標,實際上是服務大約全球總人口的10%的音樂實踐者

可以發現,盡管中國可能有30%到40%的(de)(de)孩子在小學(xue)(xue)時學(xue)(xue)習(xi)音(yin)(yin)樂,但為(wei)(wei)什么他(ta)們(men)大后和(he)音(yin)(yin)樂商(shang)業(ye)所需的(de)(de)人才不匹配呢?這(zhe)是(shi)因為(wei)(wei)在我(wo)們(men)的(de)(de)音(yin)(yin)樂教育中,更(geng)注重的(de)(de)是(shi)基礎樂理知識、唱和(he)聲、曲式分(fen)析以及(ji)器(qi)樂培訓等(deng),這(zhe)些最終會讓學(xue)(xue)生變成演奏機器(qi)。

然(ran)而,在真正的音樂(le)實踐、娛(yu)樂(le)和(he)商業環境中(zhong),所(suo)需(xu)的是作詞(ci)、作曲、編曲、錄音、演唱以及后期處理等音樂(le)生產過(guo)程的技能。作詞(ci)和(he)作曲相對容易理解,編曲稱作伴奏。

伴(ban)奏是指歌(ge)曲(qu)中的聲音,如(ru)鼓、吉他、貝(bei)斯(si)等樂器。要(yao)(yao)想精通(tong)編曲(qu),需要(yao)(yao)克服的門(men)檻非常高。現(xian)在,如(ru)果我有音樂興(xing)趣,想要(yao)(yao)將其實現(xian)成一個(ge)成品(pin),就(jiu)會發現(xian),這個(ge)過程既困難又昂貴,而且進展緩慢。

接下(xia)來(lai),我將分享(xiang)一下(xia)音樂生產工具(ju)在(zai)過去(qu)40年中的(de)演變。

DeepMusic劉曉光:深度解讀AIGC音樂創作技術原理,明年實現一鍵生成自唱歌曲丨GenAICon 2024

首先是2000年以前,即音樂生產工具1.0時代,幾乎所有的(de)音(yin)樂(le)制作都依賴硬件錄音(yin),那時的(de)音(yin)樂(le)作品(pin)很(hen)有情(qing)調,因為(wei)只有最(zui)專業的(de)音(yin)樂(le)人才有機會(hui)參與錄音(yin)過程。

第二個階段,音樂生產工具2.0時代。蘋果、雅馬哈、Avid幾家公司(si)推(tui)出了一個軟(ruan)件——數字音樂工(gong)作站,這種(zhong)軟(ruan)件在電(dian)腦上(shang)運行(xing),門檻極(ji)高,但功能(neng)卻十分強大,能(neng)夠模擬鋼琴、吉他等(deng)傳統樂器的(de)聲音,在電(dian)腦上(shang)使用MIDI和采樣器。

MIDI是(shi)一種(zhong)按時(shi)(shi)序記錄聲(sheng)音(yin)(yin)高低的(de)數字(zi)協(xie)議,比如(ru)我在3分零(ling)626秒彈奏了一個音(yin)(yin)符,它會(hui)記錄這個音(yin)(yin)符的(de)音(yin)(yin)高和時(shi)(shi)刻。通過記錄一系列這樣的(de)數據,最終可以用電腦(nao)合成出完(wan)整的(de)音(yin)(yin)樂作(zuo)品(pin)。

進入2.5時代,音(yin)樂(le)(le)產業(ye)經歷了一次重大變(bian)革。騰訊音(yin)樂(le)(le)娛樂(le)(le)集(ji)團推(tui)動(dong)了音(yin)樂(le)(le)娛樂(le)(le)的(de)商業(ye)化,使得這個行業(ye)的(de)收入達到了500億,并讓(rang)音(yin)樂(le)(le)人(ren)真正能夠賺到錢。

與(yu)此(ci)同時,音樂(le)生(sheng)(sheng)產工(gong)具也(ye)逐(zhu)漸實現了移(yi)動化。例如,有一種工(gong)具可(ke)(ke)以在(zai)電腦和手(shou)機上使(shi)用(yong),并(bing)且功(gong)能也(ye)變得越(yue)來(lai)越(yue)強大。同時,可(ke)(ke)以利用(yong)AI生(sheng)(sheng)成(cheng)數字化的信號。

正在到來的就是音樂生產工具3.0——音頻模型,這類(lei)工具類(lei)似于語音的TTS模型。

在音樂領域,AI的生產方向大致可以分為兩類:音頻方案音樂符號方案

在音頻(pin)方案中,我們公司于(yu)2018年開始(shi)專(zhuan)注于(yu)音樂AI。當時音頻(pin)模(mo)(mo)型(xing)(xing)尚未成熟,基本上(shang)是通過將數以百萬(wan)計的歌曲(qu)進行(xing)標記,并將自(zi)然(ran)語(yu)言模(mo)(mo)型(xing)(xing)與音頻(pin)模(mo)(mo)型(xing)(xing)對應(ying)起來(lai)(lai),以便通過一些Prompt來(lai)(lai)生(sheng)成音頻(pin)。

在那個(ge)時期(qi),由于音(yin)頻模型尚未(wei)成熟,大多數AI公司(si)致(zhi)力于音(yin)樂符號方(fang)案。

音(yin)(yin)樂(le)符(fu)(fu)(fu)號(hao)方案(an)的核心思想是(shi)從我們(men)平時聽到的歌曲中提取音(yin)(yin)樂(le)信(xin)息,包括歌詞、旋律(lv)、演唱方式、和弦進程、使(shi)用(yong)的樂(le)器以(yi)(yi)及樂(le)器的音(yin)(yin)色等,然后對這(zhe)些(xie)信(xin)息進行(xing)數字化標注。通過對這(zhe)些(xie)音(yin)(yin)樂(le)符(fu)(fu)(fu)號(hao)進行(xing)訓(xun)練,可以(yi)(yi)生成新的音(yin)(yin)樂(le)符(fu)(fu)(fu)號(hao)。最后,通過傳統的音(yin)(yin)樂(le)制作流程,將這(zhe)些(xie)音(yin)(yin)樂(le)符(fu)(fu)(fu)號(hao)渲染成音(yin)(yin)頻。

這個過程涉及(ji)到(dao)三個主要技(ji)術(shu)領域(yu):首先是音(yin)樂信息提取技(ji)術(shu),通(tong)常用于聽歌識曲等功能;其(qi)次是AI作(zuo)詞、AI作(zuo)曲、AI編曲等技(ji)術(shu),用于生成音(yin)樂符號;最終,將(jiang)符號轉化為音(yin)頻(pin)的(de)過程,就是以往數字音(yin)樂工(gong)作(zuo)站所做(zuo)的(de)工(gong)作(zuo)。

三、推演爆款音樂生成產品的技術方案,打造一站式音樂工作站

最近大家可能注意到Suno和Udio等產品頻繁出現在屏幕上,但實際上技術突破來自于MusicLMMusicGen

這(zhe)兩者是(shi)最早能夠通過(guo)自(zi)然語言與音頻進(jin)行對位,并逐幀生成(cheng)音頻的技術,這(zhe)是(shi)一種(zhong)顛覆性的進(jin)展,首次出(chu)現在前年年底到去年年初(chu)。而(er)后出(chu)現的Suno和Udio則(ze)采用了音頻方案(an),如(ru)網易天(tian)音,還有(you)例如(ru)天(tian)工SkyMusic,他們采用的是(shi)符號方案(an)。

DeepMusic劉曉光:深度解讀AIGC音樂創作技術原理,明年實現一鍵生成自唱歌曲丨GenAICon 2024

音頻方(fang)案和符(fu)號(hao)方(fang)案各有(you)特點。音頻方(fang)案是端到端模(mo)型,使得生成的音樂(le)聽起來更貼近真實、完整(zheng),融合(he)度更高。而符(fu)號(hao)模(mo)型則能夠(gou)控制生成內容的各個方(fang)面。我們認為未(wei)來這兩(liang)種模(mo)型會融合(he)發展。

MusicLM和MusicGen大致能(neng)夠生成的自然語言Prompt背(bei)景音(yin)樂作品(pin),會有一個顯著(zhu)的前(qian)景旋律,這對(dui)于推斷它們的技術實現方式將會非常有幫(bang)助,能(neng)判斷出這些作品(pin)都(dou)是(shi)基于音(yin)頻方案生成的結果。符號方案生成的音(yin)頻聽起(qi)來(lai)可(ke)能(neng)音(yin)質更高,但伴(ban)奏和人聲的融合程度沒那么好,純BGM大概(gai)就是(shi)這種效(xiao)果。

符號方案和音頻方案使用了不同的技術棧

在(zai)我(wo)們(men)的符號方案中,我(wo)們(men)采用了領先的算法。我(wo)們(men)使用一個標注(zhu)工具(ju)來處理數據。以大家耳熟能詳(xiang)的《七(qi)里香(xiang)》為(wei)例,在(zai)我(wo)們(men)的標注(zhu)工具(ju)中,頂(ding)部的藍(lan)色波形代(dai)表音頻(pin)文件(jian),我(wo)們(men)需要(yao)標注(zhu)其中的關鍵(jian)樂理信息。

DeepMusic劉曉光:深度解讀AIGC音樂創作技術原理,明年實現一鍵生成自唱歌曲丨GenAICon 2024

首先,自動識別(bie)出(chu)這(zhe)些藍(lan)色(se)線,將它(ta)們與上方的(de)11、12、13小(xiao)節(jie)線對齊;接下來,標注旋律、歌詞、和弦、段落以(yi)及調式(shi)等音樂中重要(yao)的(de)樂理信息;一旦完(wan)成(cheng)了這(zhe)些標注,就可(ke)以(yi)使用單模(mo)態生成(cheng)旋律,生成(cheng)旋律和歌詞的(de)對位,或者根據輸入(ru)的(de)歌詞生成(cheng)伴奏和旋律。有了大量這(zhe)樣的(de)數據,我們就可(ke)以(yi)開發(fa)出(chu)生成(cheng)式(shi)AI模(mo)型(xing)。

由于音頻方(fang)案的(de)火爆(bao)產品并未公開其(qi)具體實(shi)現(xian)方(fang)式,我們(men)通(tong)過大(da)量實(shi)驗(yan)進行推(tui)測,和(he)大(da)家分享我們(men)對(dui)AI和(he)音樂結合(he)的(de)認(ren)知。我們(men)認(ren)為這種生產方(fang)式顛覆了(le)我們(men)對(dui)智能(neng)技術的(de)認(ren)知。

最近,音頻模(mo)型(xing)產(chan)品火了起來(lai)。我們看到這(zhe)些產(chan)品的(de)體驗大致是這(zhe)樣的(de):輸入一段歌詞和(he)一些Prompt,就能生成完整音樂(le)。

根據我(wo)們的(de)(de)推斷,它的(de)(de)算法可(ke)能(neng)是這(zhe)樣的(de)(de):首(shou)先(xian),有(you)了一(yi)批音樂數據,同時(shi)標(biao)注(zhu)了對應的(de)(de)歌詞。這(zhe)種數據在QQ音樂等平臺上都(dou)可(ke)以(yi)直接獲取。另外,現在已經有(you)一(yi)項成(cheng)熟的(de)(de)技術叫做人聲伴奏(zou)分(fen)離,可(ke)以(yi)將(jiang)音頻中(zhong)的(de)(de)人聲和伴奏(zou)分(fen)離開來。

現場演示的(de)人聲(sheng)(sheng)里帶有(you)和聲(sheng)(sheng)。在訓練時,我現在只看到前三行(xing),大概是將音頻進(jin)行(xing)切(qie)片,然后通(tong)過一個分離(li)的(de)BGM和其(qi)中標注的(de)歌詞來(lai)生成最終完整的(de)音樂(le)。這是模型大概的(de)工作原理。

因此,我(wo)們最(zui)終(zhong)看到(dao)(dao)的(de)是,輸入一(yi)(yi)個(ge)(ge)Prompt,它(ta)會(hui)從一(yi)(yi)個(ge)(ge)BGM庫(ku)中找到(dao)(dao)與之最(zui)匹(pi)配的(de)音(yin)(yin)(yin)頻片(pian)段,然(ran)后根據輸入的(de)歌詞或者想要的(de)樂器,在(zai)原始音(yin)(yin)(yin)頻上疊加一(yi)(yi)個(ge)(ge)人(ren)(ren)聲(sheng)(sheng)模型(xing)。它(ta)們對音(yin)(yin)(yin)樂的(de)理(li)解與我(wo)們不(bu)太一(yi)(yi)樣,它(ta)們將音(yin)(yin)(yin)樂理(li)解為一(yi)(yi)個(ge)(ge)人(ren)(ren)聽著(zhu)伴奏,朗讀歌詞的(de)TTS模型(xing)。整(zheng)(zheng)個(ge)(ge)過程(cheng)是一(yi)(yi)個(ge)(ge)端到(dao)(dao)端的(de)模型(xing),所以在(zai)整(zheng)(zheng)個(ge)(ge)音(yin)(yin)(yin)樂中,伴奏和人(ren)(ren)聲(sheng)(sheng)的(de)融(rong)合效果非常好(hao)。

四、一站式低門檻音樂創編軟件“和弦派”:解決可控性、兼容性、跨平臺三大挑戰

我剛剛分享了一下音樂行業的整體情況,以及音頻模型、符號模型等的大致工作原理。現在我想分享一下我們自己的產品,叫做“和弦派”。它是一(yi)(yi)個移動端(duan)一(yi)(yi)站式的(de)低門(men)檻音樂(le)創編軟件,AI在其中發(fa)揮了很大的(de)作用。我們(men)希望通(tong)過(guo)這個產品解(jie)決幾個問題。

第一,我們希望AI是可控的。但(dan)是(shi)在音(yin)樂(le)中,我們重新定義了控(kong)制的(de)(de)(de)方式(shi)。例如(ru),我們現在談(tan)論如(ru)何(he)描述音(yin)樂(le)知(zhi)識(shi),大(da)多數人可能(neng)首先想到的(de)(de)(de)是(shi)五線(xian)譜(pu)。然(ran)而(er)(er),五線(xian)譜(pu)是(shi)兩百年(nian)前(qian)的(de)(de)(de)產物(wu),當時還沒(mei)有留(liu)聲機。五線(xian)譜(pu)的(de)(de)(de)目(mu)的(de)(de)(de)是(shi)記(ji)錄音(yin)樂(le)應該如(ru)何(he)演奏,而(er)(er)不(bu)是(shi)現在流行音(yin)樂(le)中常見的(de)(de)(de)記(ji)錄方式(shi)。我們希(xi)望(wang)音(yin)樂(le)有一種更直觀的(de)(de)(de)控(kong)制方式(shi)。

第二,過去我們在創作音樂時,可能會用Word來寫歌詞,用錄音機來錄制曲子。我們希望能夠將這些功能整合到一個平臺上,實現一站式的音樂創作體驗。另(ling)外,在制作人(ren)和音(yin)(yin)(yin)樂人(ren)這個(ge)行業,每個(ge)人(ren)購買的(de)(de)(de)音(yin)(yin)(yin)源可(ke)能(neng)不(bu)同,這就導致(zhi)了互相之間的(de)(de)(de)工程(cheng)文件無法(fa)兼容的(de)(de)(de)問(wen)題。我們(men)希望(wang)能(neng)夠(gou)解決這個(ge)問(wen)題,讓不(bu)同音(yin)(yin)(yin)源之間的(de)(de)(de)工程(cheng)文件能(neng)夠(gou)互相兼容。

第三,我們希望能夠在手機上完成創作音樂這件事情,而不是打開(kai)電腦。然而,在(zai)手機上(shang)進行音樂創作(zuo)確實存在(zai)很(hen)大的困難。例如,在(zai)安卓系統下,實際(ji)上(shang)沒有一個很(hen)好的音頻引擎來支持(chi)這項開(kai)發(fa)工作(zuo)。因此(ci),我們花了很(hen)多時(shi)間去開(kai)發(fa)跨平臺的音頻引擎,以解決這個問題(ti)。

我們(men)(men)的整(zheng)體設計思(si)路如(ru)下(xia),這是音樂功(gong)能譜。首先,我們(men)(men)意識到(dao)這個產品并(bing)不(bu)是面向全人類的,而是針對人類中大約10%的用(yong)戶。功(gong)能譜基本上是音樂愛好(hao)者(zhe)需要了解的內容(rong),其中包括(kuo)段落和和弦,告訴樂手(shou)如(ru)何(he)演(yan)奏;還(huan)包括(kuo)旋律和歌詞,告訴歌手(shou)如(ru)何(he)演(yan)唱。

DeepMusic劉曉光:深度解讀AIGC音樂創作技術原理,明年實現一鍵生成自唱歌曲丨GenAICon 2024

流(liu)行音(yin)樂并不那(nei)么復雜,通(tong)常只包含一(yi)個(ge)伴奏和一(yi)個(ge)人(ren)(ren)聲。人(ren)(ren)聲部分由數字表(biao)示,例如(ru)“Do、Re、Mi、Do、Re、Mi”,并附帶歌詞,以指導歌手的演唱。而剩下的段落和和弦(xian)則指導所有(you)樂器(qi)如(ru)何演奏。簡而言之,就是(shi)這兩部分構成了音(yin)樂功能(neng)譜。

我們通過創作功能譜或者采用其他方法呈現,創造了音樂。將功能譜轉化為聲音,這是音樂創作;將功能譜變成我們能聽到的音樂,這是音樂制作。這個過程最終形成了我們的產品——和弦派

在和(he)弦(xian)派中,我(wo)們提供了一(yi)個功能(neng)譜的(de)編輯頁(ye)面。你(ni)可(ke)以隨(sui)意輸入和(he)弦(xian)、旋律(lv)和(he)歌(ge)詞。通過AI輔助編曲功能(neng),你(ni)可(ke)以生成(cheng)伴(ban)奏;通過AI的(de)歌(ge)聲合成(cheng)功能(neng),你(ni)可(ke)以讓這些輸入內容被演唱出來。

借助大量的詞、曲和(he)和(he)弦對位數據,我(wo)(wo)們能實現旋律(lv)生(sheng)(sheng)成和(he)弦、和(he)弦生(sheng)(sheng)成旋律(lv)等(deng)功能。這意味著你(ni)可以輸入一(yi)(yi)段(duan)歌(ge)詞,我(wo)(wo)們就能為(wei)你(ni)生(sheng)(sheng)成一(yi)(yi)首(shou)完整的歌(ge)曲;或(huo)者,你(ni)哼唱(chang)一(yi)(yi)段(duan)旋律(lv),我(wo)(wo)們能為(wei)你(ni)配上(shang)和(he)弦和(he)伴奏。這一(yi)(yi)切(qie)都可以在(zai)一(yi)(yi)個軟(ruan)件中一(yi)(yi)站式完成。

針對(dui)(dui)(dui)不同的(de)(de)(de)(de)用(yong)戶,我們提供了各種(zhong)交互式(shi)體驗。例如,對(dui)(dui)(dui)于中(zhong)度實(shi)踐用(yong)戶,基于大型(xing)語言模型(xing)的(de)(de)(de)(de)理解(jie)能(neng)力,能(neng)生成(cheng)歌(ge)詞,并根據這些歌(ge)詞生成(cheng)音(yin)樂的(de)(de)(de)(de)其(qi)他(ta)信(xin)息;對(dui)(dui)(dui)于深度實(shi)踐用(yong)戶,他(ta)們通常已經理解(jie)了和(he)弦(xian)的(de)(de)(de)(de)概念,但可能(neng)對(dui)(dui)(dui)和(he)弦(xian)的(de)(de)(de)(de)具體細(xi)節不夠了解(jie);對(dui)(dui)(dui)于更深度的(de)(de)(de)(de)音(yin)樂人,他(ta)們可以編輯所有的(de)(de)(de)(de)和(he)弦(xian),調整音(yin)高,并修改歌(ge)詞,以快速創建(jian)所需的(de)(de)(de)(de)BGM。

我們可以關閉(bi)吉(ji)(ji)他(ta)軌道,換成電吉(ji)(ji)他(ta),并(bing)調整演奏方式(shi),即使不懂(dong)吉(ji)(ji)他(ta)也(ye)能自由創作。我們已(yi)經(jing)有許(xu)多用戶通過這種方式(shi)制作出了不錯的作品,其中有些甚至深(shen)(shen)深(shen)(shen)打動了我。

我(wo)們(men)的(de)整體產(chan)品(pin)都能在一個手機軟件(jian)里一站式輸出。我(wo)們(men)堅(jian)定地(di)致力于(yu)移動端產(chan)品(pin),因為我(wo)們(men)相信(xin)許多(duo)00后(hou)(hou)和(he)05后(hou)(hou)的(de)孩(hai)子并不太習慣使用(yong)電腦。我(wo)們(men)預見(jian)未(wei)來的(de)音(yin)樂制作大部分流程都將在手機上(shang)完成(cheng)。只(zhi)有在最(zui)后(hou)(hou)需(xu)要進(jin)(jin)行(xing)精細調整時(shi),才會轉移到電腦上(shang)進(jin)(jin)行(xing)。

五、2025或實現AI生成伴奏,上傳30秒人聲就能用自己聲音演唱歌曲

讓(rang)我(wo)們來談談我(wo)們對(dui)音樂產業未(wei)來發展的看法。

首先,我們認為在音樂消費端,AI和大數據等技術的發展不會帶來太大的變化。因為音樂行(xing)業本身就是一(yi)個供大(da)于求的行(xing)業,AI的出(chu)現雖然提高了(le)生產效率(lv),但并不(bu)會對行(xing)業生態造成巨大(da)的影響(xiang)。然而,在音樂生產端,我們相信將會有越來(lai)越多的人參與(yu)其(qi)中,進行(xing)實(shi)踐,從(cong)中獲得樂趣(qu)。

DeepMusic劉曉光:深度解讀AIGC音樂創作技術原理,明年實現一鍵生成自唱歌曲丨GenAICon 2024

新(xin)的音頻(pin)模型(xing)可(ke)(ke)(ke)以(yi)(yi)通過一個簡單的Prompt生成出完整(zheng)(zheng)的BGM,而TTS模型(xing)可(ke)(ke)(ke)以(yi)(yi)生成完整(zheng)(zheng)的歌曲。接下來,我們可(ke)(ke)(ke)以(yi)(yi)預見(jian),人們將(jiang)能夠自(zi)己制作個性化的BGM,并在其上填寫歌詞(ci)。每一句(ju)歌詞(ci)都(dou)可(ke)(ke)(ke)以(yi)(yi)重新(xin)編(bian)輯,例如,如果覺得第(di)二句(ju)不(bu)夠理想(xiang),就可(ke)(ke)(ke)以(yi)(yi)重新(xin)編(bian)寫。

與此(ci)同時,音量調整(zheng)也將(jiang)變得更(geng)加靈(ling)活(huo)。我們(men)相(xiang)信,在今年年底,不止一家公司將(jiang)推出這樣的產(chan)品(pin)。到(dao)那時,音樂(le)制(zhi)作過(guo)程將(jiang)變得更(geng)加普及化。音樂(le)人們(men)可(ke)能會(hui)首先選擇一個自己喜歡的BGM,然后利用語言模型(xing)為歌詞尋找(zhao)靈(ling)感,并逐(zhu)句(ju)進行(xing)修改和嘗試。最終,他們(men)可(ke)以按照傳統的錄音和音樂(le)制(zhi)作工(gong)作流程完成作品(pin),并進行(xing)發布。

明年大概就能實現自然語言生成伴奏的功能,而且音質應該也會相當不錯。你只需上傳大約30秒的人聲素材,就能夠用你自己的聲音來演唱歌曲。音質會達到基本可用的水平。

到(dao)那時(shi),我(wo)們就可(ke)以摒棄(qi)傳統的(de)錄音(yin)或者“MIDI+采樣器”的(de)工作(zuo)流程,轉而使用“BGM+歌詞”的(de)輸入方式。我(wo)們只(zhi)需要進(jin)行(xing)簡單的(de)粗顆粒度修改,利用音(yin)頻模型調整(zheng)音(yin)樂,直到(dao)滿意為止,然后就可(ke)以直接發行(xing)作(zuo)品。

DeepMusic劉曉光:深度解讀AIGC音樂創作技術原理,明年實現一鍵生成自唱歌曲丨GenAICon 2024

那時我們對于音樂(le)制作工具(ju)的理(li)解可(ke)能(neng)會回歸(gui)到我設(she)定一首歌,包括前奏(zou)、間奏(zou)和副歌等(deng)部分(fen)(fen),然后在其中輸入(ru)歌詞。我們可(ke)以(yi)(yi)將(jiang)歌曲(qu)分(fen)(fen)割成不同的區域,并在每個區域選擇不同的樂(le)器庫。用(yong)戶可(ke)以(yi)(yi)通過拖(tuo)拽樂(le)器到相(xiang)應的區域,并指(zhi)示該(gai)樂(le)器的演(yan)奏(zou)方式,最終就(jiu)能(neng)夠生成整(zheng)首音樂(le)。

最終實現這樣的體驗,必然需要結合錄音(yin)、MIDI、采樣器(qi)以及音(yin)頻模型(xing)等技術。國內(nei)在音(yin)頻模型(xing)方面可(ke)能會有一些差距(ju),但(dan)我們堅信,對于未來(lai)面向(xiang)音(yin)樂人和音(yin)樂愛(ai)好者的產品,我們所做的積累毫(hao)無疑問是有意義的。

以上是劉曉光演講內容的完整整理。