
智東西(公眾號:zhidxcom)
作者?| 王涵
編輯?| 漠影
智東西7月23日報道,7月11日,清華大學和生數科技發表合作論文,正式推出一種基于免訓練方法的精準時間可控長時文生音頻系統FreeAudio。
論文鏈(lian)接:
據介紹,該系統無需額外訓練,可以基于自然語言文本與時間提示實現精確的時間控制與長時音頻生成,突破10秒時長限制,解鎖了10秒以上場景的文生音效時間精準可控。
該方(fang)法利用LLM對(dui)時(shi)間(jian)結構(gou)進行規劃,將文本與時(shi)間(jian)提示解析為一系列(lie)互不重疊的時(shi)間(jian)窗(chuang)口(kou),并為每個窗(chuang)口(kou)生成(cheng)(cheng)適配的自然語(yu)言描述。隨后,FreeAudio再依次生成(cheng)(cheng)各時(shi)間(jian)片(pian)段(duan)的音頻內容(rong),并通過(guo)上下文融合與參(can)考引(yin)導機制(zhi)實現最終的長時(shi)音頻合成(cheng)(cheng)。
目前相關研究成果已被計算機多媒體領域的國際頂級會議ACM Multimedia 2025錄(lu)用,并由AC推薦為Oral錄(lu)取。
此前,生(sheng)(sheng)數(shu)科技曾(ceng)聯合(he)清華大(da)學推出文生(sheng)(sheng)音(yin)(yin)效(xiao)系統,自稱是全球首個實(shi)現(xian)10秒內精(jing)準時(shi)(shi)間控制的商業(ye)落(luo)地系統,支持獨立時(shi)(shi)間窗音(yin)(yin)效(xiao)生(sheng)(sheng)成,其多音(yin)(yin)軌時(shi)(shi)間窗可控功能已通過生(sheng)(sheng)數(shu)科技Vidu平臺落(luo)地商用。?
先從(cong)幾個例子感受(shou)一下:
1、狼嚎聲(sheng)(sheng)拼接蟋蟀聲(sheng)(sheng):
2、森林復合音效:
3、男聲吉他伴唱:
Demo鏈接(jie):
一、3大核心技術,FreeAudio系統突破10秒時長瓶頸
文生音頻(pin)(T2A)生成技術雖(sui)在生成模型推動下取(qu)得進展,但受限(xian)于(yu)時(shi)間對齊的(de)音頻(pin)-文本數(shu)據質量和數(shu)量,現有系統在處理含(han)精確(que)時(shi)間控(kong)制的(de)復(fu)雜文本提示(shi)時(shi)表現不佳。
即(ji)便部分研究通過(guo)數據(ju)(ju)增(zeng)強或引入(ru)時(shi)(shi)間條件實現了(le)10秒(miao)內(nei)的時(shi)(shi)間可控生成,生成質量仍有限。此外,多數公開音頻數據(ju)(ju)集時(shi)(shi)長較短(duan)(通常約 10 秒(miao)),且標(biao)注(zhu)較粗,制(zhi)約了(le)細(xi)粒度時(shi)(shi)間控制(zhi)和長時(shi)(shi)連貫(guan)性模型的發展。
清華大學和生數科技合作研發的FreeAudio系統,能夠依據自然語言文本與時間提示,無需額外訓練即可同時支持時間控制與長時生成,突破了10秒時長限制,其主要有3大核心技術:
1、LLM規劃:
該(gai)系統利用大語言(yan)模(mo)型(LLM)的規劃能力(li),將文本和(he)時間提示轉(zhuan)換為(wei)一系列非重疊時間窗口,每(mei)個窗口配有自(zi)然(ran)語言(yan)重新描述(shu),解決時間重疊和(he)間隙問題。
▲時間可控音頻生成的LLM Planning和Decoupling & Aggregating Attention Control模(mo)塊(kuai)
2、解耦與聚合注意力控制:
在DiT-based T2A模型(xing)基礎上,該系統對基礎潛變量按時間窗口(kou)分割,引導每個子段(duan)與對應重新描述提示獨立進(jin)行交叉注意力計算(suan),再將子段(duan)聚合整合,實現時間對齊和全局(ju)一(yi)致性。
▲長時(shi)音(yin)頻(pin)生成(cheng)的整體架構(gou)圖
3、長時生成優化技術:
(1)上下文潛變量合成:FreeAudio系(xi)統通(tong)過處(chu)理相鄰音頻段(duan)重疊(die)區域,增強局部邊界平滑度;
(2)參考引導:在自注意力模塊(kuai)中,該系(xi)統利(li)用參(can)考音頻特征,維持(chi)長時音頻的(de)全局一致性;
(3)上下文修剪與拼接:該(gai)系統去除重疊區域冗余部分(fen),后將解碼(ma)后的段拼接,以生(sheng)成最終長時(shi)音頻(pin)。
二、多項指標得分最優,長時生成能力排名第一
在時間可控音頻生成實驗中,在AudioCondition測試集上,FreeAudio系統的事件級(Eb)和片段級(At)得分均排名第一。
在客觀指標方面,FreeAudio系統的FAD和KL散度與最優的訓練型模型相當,CLAP分數排名第一。在主觀評估中,FreeAudio系統同樣獲得了最高的時間一致性(xing)與音頻可聽性(xing)評分。
進一步的消融實驗表明,參考引導技術有效提升了長時音頻的全局一致性,當λ在0.1至0.2范圍內時,各項指標均表現最優,在同類設置中排名第一。
在長時生成性能上,針對26秒和90秒生成任務,FreeAudio系統在多數指標上排名第一,在主觀評估中,其質量、一致性和連貫性三個維度的得分均排名第一。
三、將繼續研究更長時長機制,FreeAudio或在Vidu產品端上線
此次推出的FreeAudio系統實現了新的技術突破,即突破10秒時長限制,能夠在10秒以上場(chang)景(jing)中實現文生音效的時間精(jing)準控(kong)制。
總的來說,該系統解決了多個行業痛點,如避(bi)免音效版(ban)權風險,解(jie)決音效匹(pi)配難題(ti);大幅降低(di)音效制作成本;支持多音軌秒級(ji)對齊,如環境聲與(yu)動物鳴叫可精準疊(die)加等。?
據了解,FreeAudio系統未來或將考慮在Vidu產品端上線(xian)。研發團隊計劃(hua)在(zai)未(wei)來進一步探索結合自然語言(yan)事(shi)件描述(shu)的訓練(lian)式時(shi)間控制(zhi)文本(ben)到音頻生(sheng)成系統(tong),以提升時(shi)間對齊精度和音頻生(sheng)成質量(liang)。
在長(chang)時音頻生成方面,未來他們還計劃(hua)研究(jiu)支持更(geng)長(chang)時長(chang)甚至無限長(chang)生成的機制,同時希望將該方法拓(tuo)展至空間音頻生成等方向(xiang),以(yi)支持更(geng)多樣的聽覺場(chang)景。
結語:FreeAudio系統具備應用潛力
隨(sui)著AI音頻生成(cheng)技術的(de)加速發展,市場對(dui)精(jing)準(zhun)時(shi)(shi)間(jian)控制(zhi)和長時(shi)(shi)音頻生成(cheng)的(de)需求日益凸顯,但(dan)現有方(fang)案在時(shi)(shi)長限制(zhi)、版(ban)權(quan)風險(xian)及(ji)制(zhi)作成(cheng)本等(deng)方(fang)面仍存在瓶頸。
FreeAudio系統突(tu)破了“10秒魔(mo)咒”,技(ji)術成(cheng)果獲國際頂級會議(yi)認可(ke),為行業(ye)提(ti)供了新的(de)解(jie)決(jue)方案。未(wei)來(lai)隨著商業(ye)化落地及技(ji)術迭代,其(qi)在(zai)影視(shi)音效等領域的(de)應用潛力值得關注。