12月5日(ri)-6日(ri),由(you)智東西與智猩猩聯合(he)主辦的2024中國生成式AI大會(上海站)在(zai)上海圓滿舉行。在(zai)大會首日(ri)的主會場(chang)上,趣丸科(ke)技副總(zong)裁(cai)賈朔以《探索音樂創作的技術平權(quan)——AI音樂的創新(xin)實踐》為題發表(biao)了演講(jiang)。

賈朔認為,2024年是AIGC音樂爆發元年,人工智能的創新發展大大降低了音樂創作門檻,音樂創作賽道終于迎來了“創作平權”時刻,普通用戶也能用低門檻的方式體驗音樂創作的樂趣。

音樂生成之所以是被LLM浪潮覆蓋的最后一種模態,成為漏網之魚,源自于音樂的特殊性——時間序列性、多層次結構、情感一致性、評估主觀模糊性。

目前Diffusion in Transformer(DiT)成為大多數閉源的主流選擇,而國產AI音樂的歌聲自然度更是突破人耳識別閾值,效果比肩美國頭部模型。

賈朔分享了人與音樂的AI交互形式的變化,從文生音樂,到三鍵成曲,再到哼唱成曲。今年7月份,天譜樂全球首發多模態音樂生成模型,支持視頻成曲和圖片成曲功能,一鍵根據用戶視頻或圖片生成一首完整的音樂。

此外,賈朔在現場首次預告天譜樂的新功能——MidiRender,功能類比于一個精準、可控音樂版的Control Net,專(zhuan)業的(de)創作(zuo)用戶可以輸入自(zi)己的(de)音樂構想,讓天譜樂AI根據這(zhe)個原創音樂片段填充歌詞、完成編曲。

以下為賈朔(shuo)的演講實錄(lu):

一、2024年是AI音樂爆發元年,迎來“創作平權”時刻

2024年是一個重要的年份,音樂創作賽道終于迎來“創作平權”時刻。

文字、圖片(pian)、視頻這些模態(tai)的創作平權問題早(zao)在移動(dong)互聯網(wang)時(shi)(shi)代已經(jing)被(bei)解決(jue)。一個普(pu)通人(ren)想要創作這些,都可以輕(qing)松實(shi)現。因為(wei)移動(dong)互聯網(wang)時(shi)(shi)代的一個主線任務(wu),就是不斷降低創作門檻,實(shi)現全民UGC內容(rong)創作。

但是,音樂屬于移動互聯(lian)網時代(dai)的(de)一個漏網之(zhi)魚。普通人想要用簡(jian)單的(de)操作在(zai)手機上完成低門檻音樂創(chuang)作,是比較難的(de)。到了(le)2024年,AIGC到來(lai)的(de)時代(dai),這個任務終于要被完成了(le)。

趣丸科技賈朔:探索音樂創作的技術平權——AI音樂的創新實踐

這(zhe)(zhe)里整理了各個模態成(cheng)熟的(de)時間(jian)線。可(ke)以(yi)會(hui)看(kan)到這(zhe)(zhe)一(yi)波(bo)生(sheng)成(cheng)式人(ren)工智能(neng)的(de)浪潮。有幾(ji)個標志性的(de)事(shi)件(jian),比如(ru)說文(wen)本生(sheng)成(cheng),代(dai)表事(shi)件(jian)像ChatGPT率先(xian)發布3.5版本,把文(wen)本生(sheng)成(cheng),特(te)別是(shi)(shi)基于transformer的(de)交互對話把熱度給點(dian)燃了。緊隨其后(hou)(hou)(hou)是(shi)(shi)文(wen)生(sheng)圖也在(zai)2023年(nian)(nian)前(qian)后(hou)(hou)(hou)成(cheng)熟,普通(tong)人(ren)輸入一(yi)段簡單的(de)文(wen)字咒語,就可(ke)以(yi)輸出(chu)非(fei)常專業的(de)圖片效果,甚至(zhi)是(shi)(shi)近似(si)照片的(de)圖像。文(wen)生(sheng)視頻(pin)(pin)是(shi)(shi)在(zai)2023年(nian)(nian)底到2024年(nian)(nian)年(nian)(nian)初,Sora的(de)出(chu)現讓文(wen)生(sheng)視頻(pin)(pin)率先(xian)進入AIGC成(cheng)熟的(de)臨界點(dian)。反倒是(shi)(shi)音(yin)樂在(zai)這(zhe)(zhe)幾(ji)個主流(liu)模態里面,它是(shi)(shi)最(zui)后(hou)(hou)(hou)一(yi)個成(cheng)熟的(de)。

二、天然特殊性讓音樂生成需要克服四大難題

為什么音樂(le)(le)總(zong)是最(zui)后(hou)一(yi)個(ge)?它(ta)有(you)哪些(xie)特殊性?我(wo)們天譜樂(le)(le)團隊深(shen)耕這個(ge)行(xing)業很長時間,對音樂(le)(le)生成有(you)一(yi)些(xie)理解,主要反映在四個(ge)方面。

首先,它需要很強的“時間序列性”。一首音(yin)樂(le)三分(fen)鐘,它的(de)時(shi)間(jian)順序(xu)要(yao)遵循(xun)音(yin)樂(le)上的(de)規律跟(gen)結構。如果結構錯(cuo)了,人可以很容(rong)易識別出來它不自然,它不是人類生成(cheng)的(de)。

其次,是“多層次結構”。大(da)家如(ru)果平時聽(ting)音樂(le)比較(jiao)多(duo)(duo)的話,會(hui)留意(yi)到一(yi)首音樂(le)的編曲里面,會(hui)有(you)非常多(duo)(duo)的空(kong)間編排。比如(ru)說人聲可能是靠(kao)前或靠(kao)后,同時你的左(zuo)側(ce)可能有(you)一(yi)個架子鼓(gu),右側(ce)有(you)一(yi)個大(da)提琴或小提琴,這些會(hui)帶來非常多(duo)(duo)的空(kong)間結構信息,在生成領域它同樣需要解(jie)決和(he)克服。

趣丸科技賈朔:探索音樂創作的技術平權——AI音樂的創新實踐

第三點,情感一致性。眾(zhong)所周知,音(yin)樂是(shi)用來統一(yi)情緒的(de)一(yi)種工具。同時,如果一(yi)個(ge)音(yin)樂作品(pin)80%的(de)部分非(fei)常符合邏(luo)輯,但是(shi)唯獨有一(yi)兩個(ge)音(yin)稍微有點瑕疵,達不(bu)到人類對這(zhe)個(ge)音(yin)樂的(de)效果預期。人類就會瞬(shun)間識別出來。如果同樣的(de)事情發(fa)生(sheng)在文生(sheng)圖(tu),一(yi)些小(xiao)瑕疵可(ke)能不(bu)會產生(sheng)特別嚴重的(de)問題(ti)。

第四點,評價主觀模糊性。大家(jia)做(zuo)大模(mo)型、做(zuo)AIGC生成,經常做(zuo)一些跑分(fen)題庫去量化(hua)、評(ping)(ping)價一個(ge)模(mo)型效果好壞?但是在(zai)音(yin)(yin)樂領(ling)域,它的(de)(de)評(ping)(ping)價非常主觀。你問(wen)一個(ge)人(ren)這個(ge)音(yin)(yin)樂好不(bu)好,他(ta)會回答喜歡或(huo)者不(bu)喜歡。但是,對一個(ge)音(yin)(yin)樂的(de)(de)喜好評(ping)(ping)價,并沒有太多建設性的(de)(de)反饋價值。同時,這個(ge)評(ping)(ping)價有模(mo)糊性、主觀性,更多取決于個(ge)人(ren)的(de)(de)審美(mei)偏好,而非音(yin)(yin)樂質量高低。

三、國產AI音樂歌聲自然度比肩美國頭部模型

在當下這個時(shi)間節點(dian),做(zuo)一個音(yin)樂生(sheng)成大模型(xing)或產品的選擇空間并不(bu)大。音(yin)樂生(sheng)成不(bu)像其它模態(tai)有成熟的開(kai)(kai)源方案。事實上,無論在國(guo)內還是國(guo)外(wai),基本都是閉(bi)源項目(mu)主(zhu)導(dao),要么(me)(me)從(cong)預訓(xun)練環節開(kai)(kai)始自己訓(xun)練,要么(me)(me)直接套殼。

我們看到,在技術路線選擇上,今年有一個比較明顯的趨勢,Diffusion in Transformer(DiT)成為大多數閉源的主流選擇。包括Suno CEO在一個公開分享中也提到,Transformer更適合處理時序結構上的問題,而Diffusion更適合處理一些高維空間問題。

當然(ran),盡管大家的技術路線(xian)選擇一致,但是具體的架(jia)構設計還是存在非常大的差(cha)異。例如造車必須有四個輪(lun)子(zi),但是輪(lun)子(zi)應(ying)該怎么(me)設計大家各有不同。

今年除了搞技術的對音樂感興趣,音樂人也很關心。我們跟一些音樂人溝通,現在音樂生成效果這么好,什么問題導致他們無法使用這些AI工具。他們回答兩個點,第一點,人聲的自然度問題。舉個例子,在3D建模有一個很有名的效應,叫做恐怖谷效應。即一個(ge)東(dong)西(xi)已經(jing)有九(jiu)分(fen)像,就差10%,但是人類可以很快識(shi)別出來(lai),并(bing)且對(dui)它產生厭惡(e)和反抗情緒(xu)。

為(wei)了攻克(ke)這個問題(ti),天譜樂團隊從(cong)模型結構上調(diao)整了幾十版,實(shi)驗(yan)上百次,最(zui)后我們認為(wei)拿出了一個比較有競爭力的結果。

趣丸科技賈朔:探索音樂創作的技術平權——AI音樂的創新實踐

我們拿天譜樂最新的版本跟音樂人交流,音樂人給了很高的評價。他們說AI音樂這個賽道仿佛到了圍棋遇到AlphaGo的時刻。同時,我們也找了音樂高校學生,他們具備專業的音樂訓練,可以比普通人給出更專業的評價。我們做了一個盲測,用相同的Prompt測試了50條輸出音樂,讓音樂高校學生盲測給天譜樂和國內外產品打分,最終結果是天譜樂AI最新2.2版本的中文人聲唱詞已經達到一個新的天花板水平,歌聲自然度更是突破人耳識別閾值,效果比肩美國頭部模型。

▲天譜樂AI生成(cheng)歌曲《堵》

四、首創圖頻生曲功能革新AI音樂交互形式

文生音樂是(shi)最適合的交互方式(shi)嗎(ma)?很多人覺得“搖(yao)歌(ge)”這個事情就像開(kai)盲盒(he),覺得“音樂效(xiao)果(guo)不錯(cuo),但是(shi)跟我有什么關系呢?

趣丸科技賈朔:探索音樂創作的技術平權——AI音樂的創新實踐

針對這個命題,天譜樂團隊做了一系列的探索,我們在2023年推出“三鍵成曲”模式,用戶輸入三個音即可擴寫形成一首完整歌曲。2024年天譜樂進一步推出“哼唱成曲”,很多人在洗澡(zao)的時候會隨心哼(heng)唱一段(duan),同樣可(ke)以擴寫(xie)成歌曲。

當然,這些可(ke)能都還不夠簡(jian)單(dan),怎樣才能讓音樂創作更簡(jian)單(dan)呢?類似移動互聯(lian)網時期(qi)的(de)手(shou)(shou)機攝像頭就是最(zui)平權的(de)輸入媒介(jie),人人都能拿起手(shou)(shou)機拍一拍照。我們在想,如果用戶旅游(you)中(zhong)拍了一張照片、一段視頻,天譜樂是否可(ke)以幫他(ta)生成一個完整的(de)作品?

帶著這個想法,天譜樂首發了全球首個多模態音樂生成模型。這個模型可以理解畫面的內容、情緒,從而自動匹配最合適的歌曲。

▲天譜樂視頻生曲

五、AI如何為人類創造更大價值

2024年(nian)整個AI音樂賽(sai)道的門檻(jian)終于(yu)被徹底打(da)下(xia)來了。圖(tu)片創作(zuo)、視頻創作(zuo)、音樂創作(zuo)確實到了人(ren)類歷史最(zui)簡單的一個時代。

前幾周我(wo)跟一個湖畔大學的老師交流,他提到一個新的問題:天譜樂這個AI音(yin)樂工具能幫助(zhu)人類作曲(qu)家作出更(geng)好(hao)的音(yin)樂嗎(ma)?當時我(wo)思考了很久(jiu),我(wo)們(men)做這個模型目的是什么?只是讓(rang)更(geng)多人可(ke)以(yi)(yi)輕松(song)創(chuang)作出60分(fen)的音(yin)樂嗎(ma)?還是可(ke)以(yi)(yi)創(chuang)造更(geng)大的價值,輔助(zhu)人類不斷突(tu)破創(chuang)意天花板,創(chuang)作出更(geng)好(hao)的內容(rong)呢?

我們(men)發現市面上(shang)普遍的音(yin)樂(le)生成大模型(xing),除了人聲不好之外,很(hen)重(zhong)要(yao)的問題(ti)是現在的AI不聽話,不按照作曲家、音(yin)樂(le)人的意圖創(chuang)作,AI過(guo)多(duo)地自由發揮。

趣丸科技賈朔:探索音樂創作的技術平權——AI音樂的創新實踐

所以基于這個思考,我們拿出了一個新功能,今天是第一次正式地對外亮相,天譜樂下一個版本會發布的一個叫MidiRender的功能。大概介紹一(yi)(yi)下這(zhe)個(ge)功能(neng)。在(zai)文(wen)生圖領域有(you)一(yi)(yi)個(ge)非常(chang)重(zhong)要(yao)的(de)發展節點(dian),就是(shi)(shi)(shi)Control Net的(de)出(chu)現,讓文(wen)生圖變(bian)得(de)非常(chang)可控。AI音(yin)樂(le)也需(xu)要(yao)類似的(de)一(yi)(yi)個(ge)東西。第(di)一(yi)(yi)步是(shi)(shi)(shi)核心的(de)創(chuang)意部分,我們還是(shi)(shi)(shi)希望人(ren)類作曲(qu)家(jia)來主導,用樂(le)器、編曲(qu)軟件都(dou)好,先去彈一(yi)(yi)段(duan)(duan)基礎的(de)動(dong)機(ji)旋(xuan)律。第(di)二步,在(zai)以前人(ren)類作曲(qu)家(jia)從創(chuang)作一(yi)(yi)段(duan)(duan)動(dong)機(ji)旋(xuan)律到完(wan)成一(yi)(yi)首完(wan)整(zheng)的(de)創(chuang)作,往(wang)往(wang)要(yao)花幾周甚(shen)至(zhi)幾個(ge)月的(de)時間(jian)。而(er)現在(zai),天(tian)譜樂(le)AI完(wan)全有(you)能(neng)力來加速完(wan)成這(zhe)個(ge)動(dong)作。大家(jia)聽DEMO可以感(gan)受到,最終出(chu)來的(de)音(yin)樂(le)跟(gen)最初(chu)人(ren)類作曲(qu)家(jia)的(de)動(dong)機(ji)旋(xuan)律是(shi)(shi)(shi)完(wan)全匹配(pei)的(de)。這(zhe)也是(shi)(shi)(shi)我們認為AI大模型作為工具,可以為藝術(shu)家(jia)服務的(de)一(yi)(yi)個(ge)事情,而(er)不(bu)是(shi)(shi)(shi)去搶(qiang)奪創(chuang)作主導權。

▲輸入音頻

▲生成結果

翻開人(ren)類(lei)(lei)歷史,人(ren)類(lei)(lei)可能(neng)真正擅長的有兩件(jian)(jian)事(shi)(shi)情。第(di)一(yi)(yi)件(jian)(jian)事(shi)(shi)情是(shi)犯重復的錯誤,比如周期(qi)性的謎之自信,覺得可以(yi)創造(zao)(zao)(zao)出比自己(ji)更聰明(ming)的東(dong)西(xi)(xi)。第(di)二件(jian)(jian)事(shi)(shi)情是(shi)人(ren)類(lei)(lei)非常擅長制造(zao)(zao)(zao)工(gong)(gong)具。人(ren)類(lei)(lei)每一(yi)(yi)次制造(zao)(zao)(zao)一(yi)(yi)個新的工(gong)(gong)具,都在不(bu)斷拓展自己(ji)能(neng)力的外(wai)延,所(suo)以(yi)今天(tian)人(ren)類(lei)(lei)才徹底成為這個星球的霸主。所(suo)以(yi)我認為技術最(zui)終還(huan)是(shi)要(yao)服務于人(ren),技術的出現不(bu)是(shi)為了取代人(ren)類(lei)(lei)工(gong)(gong)作,而是(shi)幫助人(ren)類(lei)(lei)創造(zao)(zao)(zao)更美(mei)麗(li)的東(dong)西(xi)(xi)。

以上是(shi)賈(jia)朔(shuo)演講內容的完(wan)整整理。