
智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西10月15日報道,今日,火山引擎在視頻云技術大會上發布大模型訓練視頻預處理方案,助力解決視頻大模型訓練的成本、質量、性能等方面的技術挑戰。該技術方案現已應用于豆包視頻生成模型。
火山引擎還發布并開源了移動端后處理解決方案BMF lite版本。BMF lite支持端側大模型接入和算子(zi)加速,更(geng)加輕量(liang)、通用。
同時,火山引擎推出跨語言同聲復刻直播方案、多模態視頻理解與生成方案、對話式AI實時交互方案和AIG3D&大場景重建方案,從(cong)視頻(pin)的生(sheng)產端、交(jiao)互端到(dao)消費(fei)端,全鏈路融入AI能力。
去年推出的字節自研視頻編解碼芯片,經過抖音集團內部的實踐驗證,在同等視頻壓縮效率下,成本節省了95%以上,還在2024MSU世界編碼器大賽中一舉奪得最佳ASIC編碼器。該芯片將于近期正式對外開放測試,招募首批種子用(yong)戶,共同探索商業(ye)價(jia)值的可復制性。
火山引擎也與出海先鋒攜手,從趨勢、技術、玩法等角度共同探索出海新增長機遇。火山引擎視頻云國際業務負責人梁建在會上發布了出海全景圖。
火山引擎總裁(cai)譚待在致辭(ci)時(shi)談道,洶涌而(er)來(lai)的技(ji)術(shu)浪潮帶來(lai)前(qian)所未有的挑戰:1)生成式(shi)AI帶動視(shi)頻數據(ju)指(zhi)數級(ji)增(zeng)長,對(dui)計(ji)算效能提(ti)出嚴峻考驗;2)多模態媒體處(chu)理需求日(ri)益凸顯,對(dui)音視(shi)頻處(chu)理的生產端(duan)、交(jiao)互(hu)端(duan)、消費端(duan)提(ti)出了全新要求;3)如何讓技(ji)術(shu)應用真正落(luo)地并帶來(lai)世紀業務價值,是當(dang)前(qian)必須面對(dui)的問題。
應對這些挑戰,火山引擎視頻云基于抖音真實業務實踐和與行業客戶共創,正積極探索大模型AI與視頻技術的深度融合;在技術底座層面,依托自研的算力編解碼技術和多媒體處理框架,致力于優化成本并提升計算效率;在處理鏈路層面,結合大模型和AI技術,全面優化了生產交互和消費鏈路,以打造更智能、更交互、更沉浸的用戶體驗;在業務增長層(ceng)面,與(yu)抖(dou)音平臺生(sheng)態(tai)緊(jin)密(mi)聯動,構(gou)建從(cong)內容(rong)分發到(dao)變現的全鏈條業務(wu)增長模式。
一、應對AI視頻時代技術挑戰:自研芯片對外開測,BML視頻處理框架上新
抖音集團視(shi)頻架(jia)構(gou)負(fu)責(ze)人王悅分享了一組來自(zi)市場調(diao)研(yan)機構(gou)的數(shu)據:視(shi)頻是云業務中(zhong)(zhong)增長最快的工(gong)作(zuo)負(fu)載之一;到2026年,視(shi)頻在數(shu)據中(zhong)(zhong)心基(ji)礎設(she)施中(zhong)(zhong)的占比(bi)將(jiang)從10%增長到20%~25%;到2024~2030年,市場規模預(yu)計將(jiang)達(da)千億美元(yuan)。
他談道,AI視頻時代面臨三重挑戰:一是計算效能,生成式AI技術大幅降低視頻生成的門檻,導致視頻數據以驚人的20倍速增長;二是編解碼極限,編解碼技術的智能化升級正推動與AI/大模型技術的深度融合,不僅提升了編解碼效率,而且為用戶帶來了更加優質的視頻體驗;三是框架瓶頸,需(xu)要構建更強大、更靈活(huo)的(de)多媒體(ti)處理框架,滿足日多模態(tai)/跨模態(tai)預訓練處理需(xu)求。
王悅宣布,火山引擎去年推出的自研視頻編解碼芯片取得顯著進展,在抖音集團內部實踐驗證中實現了效率的顯著提升和成本的大幅降低,在同等視頻壓縮效率下,成本節省了95%以上。火山引擎也將首次正式對外開放測試,招(zhao)募首批種(zhong)子用(yong)戶,共(gong)同探索商業(ye)價(jia)值的(de)可復制性。該芯片的(de)BVE1.2編(bian)碼(ma)器,在2024MSU世界編(bian)碼(ma)器大(da)賽中(zhong)首次(ci)亮相就以其(qi)優(you)異的(de)編(bian)解碼(ma)性能和(he)吞吐(tu)率(lv)的(de)大(da)幅領先,奪得最佳ASIC編(bian)碼(ma)器。
在智能編解碼的算法層,火山引擎的圖像視頻壓縮技術也取得了突破性進展,其自研編解碼技術BVC升級到更高效的第二代,并融合了深度學習技術,推出了傳統-智能混合編解碼解決方案。
該(gai)(gai)方(fang)案(an)在(zai)充分(fen)理(li)解傳(chuan)統編(bian)(bian)碼技術和(he)深(shen)度學習壓(ya)縮(suo)技術各自原(yuan)理(li)的(de)(de)(de)基(ji)礎上(shang),將(jiang)二者有機(ji)的(de)(de)(de)融合成一體。傳(chuan)統編(bian)(bian)碼框架(jia)加入了非對稱四(si)叉樹劃(hua)分(fen)等創新技術,智能編(bian)(bian)碼模塊則引入了基(ji)于深(shen)度學習的(de)(de)(de)環路濾波、自適(shi)應變(bian)采樣等技術。這(zhe)種(zhong)結合極大(da)提升了編(bian)(bian)解碼的(de)(de)(de)效率,該(gai)(gai)方(fang)案(an)在(zai)第六(liu)屆深(shen)度學習圖像壓(ya)縮(suo)挑戰賽(sai)的(de)(de)(de)高(gao)碼率和(he)低馬力兩個壓(ya)縮(suo)賽(sai)道(dao)上(shang)均取得了主(zhu)觀(guan)和(he)客(ke)觀(guan)的(de)(de)(de)雙料(liao)指(zhi)標冠軍。
在框架層面,火山引擎自研視頻處理框架BMF自去年開源以來,在助力AI初創項目落地和移動端開源層面不斷演進,今日進一步發布并開源移動端后處理解決方案BMF lite版本。
BMF lite具有更(geng)輕量、更(geng)通用(yong)、更(geng)高(gao)效(xiao)、更(geng)前沿等特點,比如它(ta)沒有第三方(fang)依(yi)賴,具有輕量化的結構設計、多平臺統一的接口形式、Kernel融合方(fang)案等,支持端(duan)側大模型接入和算(suan)子加速(su)、算(suan)法間復用(yong)資源(yuan)。
目前BMF lite已廣泛應用于抖音各業務上,每天服務超10億名用戶,處理視頻圖片萬億次。
由(you)于端(duan)側對(dui)功耗(hao)和內存非常敏感(gan),火山引擎(qing)重點建設(she)(she)(she)基于跨(kua)平(ping)臺資源復(fu)用的(de)算(suan)(suan)法(fa)(fa)(fa)包(bao)框架(jia)設(she)(she)(she)計(ji),整體(ti)對(dui)外將采用跨(kua)平(ping)臺的(de)數(shu)(shu)據結構設(she)(she)(she)計(ji),適配安卓、iOS、Web、PC等平(ping)臺,復(fu)用相同的(de)算(suan)(suan)法(fa)(fa)(fa)實(shi)例,不(bu)同算(suan)(suan)法(fa)(fa)(fa)可復(fu)用算(suan)(suan)子及數(shu)(shu)據資源。這個(ge)方案(an)針對(dui)點播和直播后(hou)處理的(de)場景(jing)收(shou)益明顯(xian)。
在模塊算法層面,火山引擎此次開源對外輸出了超分、降噪、大模型文生圖算法能力,選取的模型是開源的,將在一些抖音實際落地的工程優化方案應用到模型加速中。火山引擎也同步開源了基于GPU加速的7種常用基礎圖像算子能力,并充分擴充了客戶端的一些異構能力,包括DSP、NPU、端側GPU。
二、依托BMF框架,視頻生成大模型已上線火山引擎
對訓練視頻進行預處理是保障大模(mo)型訓練效(xiao)果的重(zhong)要前(qian)提。預(yu)處理(li)過程可(ke)統一視(shi)頻的數據(ju)格(ge)式、提高數據(ju)質量、實現(xian)數據(ju)標準化(hua)、減少數據(ju)量以及處理(li)標注信(xin)息,從而使(shi)模(mo)型能更高效(xiao)地(di)學(xue)習(xi)視(shi)頻中(zhong)的特征和(he)知識,提升訓練效(xiao)果和(he)效(xiao)率。
隨著視頻生成模型興起,訓練大模型的處理框架面臨諸多挑戰:首先是成本挑戰,超大規模視頻訓練數據集導致計算和處理成本激增;其次是質量挑戰,視頻樣本數據質量參差不齊,處理鏈路環節多、工程復雜,數據樣本待分類、分段和清洗;三是性能挑戰,涉及(ji)多種異(yi)構(gou)算力資(zi)源(yuan)的調(diao)度和(he)部(bu)署。
借助英特爾CPU等資源,火山引擎大模型訓練視頻預處理方案依托于自研多媒體處理框架BMF,能有效應對模型訓(xun)(xun)練的算力成本挑(tiao)戰。該方案還在算法(fa)和工程方面進行了調優,可以對海量視(shi)頻數據高質量預(yu)處理(li)(li),短時間內實現處理(li)(li)鏈(lian)路的高效協同,提高模型訓(xun)(xun)練效率(lv)。
BMF通過和豆包大模型團隊合作,對海量視頻數據進行了預處理。基于火山引擎視頻處理平臺和BMF框架,火山引擎短時間內生產了足夠多高質量的視頻素材用于模型訓練,也有力支撐了視頻生成大模型的上線與調優。
火山BMF大模型訓練視頻預處理方案應對成本挑戰,使用了海量的潮汐資源和精細化混部調度;應對質量及性能挑戰,使用30+種算子對視頻進行了多維度分析和篩選,利用DMF框架靈活調度將復雜的算子處理流程靈活部署在多種資源上,實現了快速的性能調優;應對協同挑戰,利用BMF動態模塊特(te)性(xing),實現插件化解(jie)耦、多語言開發,相比(bi)傳統框架將迭代(dai)效率提(ti)升(sheng)了數倍。
英特爾大(da)數(shu)據(ju)高(gao)級(ji)首席工程師程從超分享說,大(da)模型和生成(cheng)式AI時代(dai)面(mian)臨高(gao)算力、高(gao)質量數(shu)據(ju)集、改善(shan)描述(shu)復雜性、構建開源生態等方面(mian)的(de)挑(tiao)戰。視頻(pin)(pin)轉碼性能對CPU的(de)計算能力敏感(gan),CPU的(de)頻(pin)(pin)率、核數(shu)和cache的(de)大(da)小(xiao)都很重要。通常視頻(pin)(pin)處理的(de)節點(dian)都是數(shu)據(ju)中心里性能較為(wei)高(gao)端的(de)服務器。
英特爾(er)能夠(gou)為不同(tong)的(de)視(shi)頻處理選擇最合(he)適的(de)平臺(tai),比如一機多卡高密度(du)GPU可滿足(zu)編解(jie)碼密度(du)和成本需求,CPU和GPU方案的(de)靈(ling)活(huo)配置能夠(gou)根據具體應用來分配資(zi)源,至(zhi)強CPU可實現視(shi)頻質量最優(you)、編碼靈(ling)活(huo)、穩定可靠。
三、多項“音視頻+AI”技術方案,助力企業全鏈路適配AIGC
火山引擎視(shi)頻云(yun)團隊為字節跳動提供音視(shi)頻技術,并通過火山引擎服務外部客戶。
Bytedance Research負責人李航談道,豆包視頻生成模型PixelDance在訓練過程(cheng)中(zhong)采用了(le)火山引擎大模(mo)型(xing)(xing)訓練視頻預處理(li)方案,充分利用了(le)大量潮汐(xi)資(zi)源,為模(mo)型(xing)(xing)訓練提(ti)供(gong)了(le)有力支(zhi)撐。
火山引擎視頻云團隊提供的點播解決方案還(huan)為(wei)PixelDance生產的視(shi)頻提供了(le)從編(bian)輯、上傳、轉碼、分(fen)發、播(bo)放的全生命周(zhou)期一(yi)站式服務,讓模(mo)型的商業化應用有了(le)保障。
豆包視頻生成模型PixelDance于9月24日發布,該模型采用DiT架構,通過高效的DiT融合計算單元和全新設計的擴散模型訓練方法,突破了多主體運動的復雜交互、多鏡頭切換的內容一致性難題。目前,豆包視頻生成模型已通過火山引擎面向企業開啟邀測。
PixelDance1.4新版本有四大(da)特(te)點:1、能(neng)生(sheng)成(cheng)人物(wu)的復雜連續動(dong)作;2、能(neng)生(sheng)成(cheng)復雜的多主體交互;3、能(neng)一次(ci)性生(sheng)成(cheng)多鏡(jing)頭(tou)視頻;4、擁(yong)有超強的運鏡(jing)控制(zhi)能(neng)力。
其(qi)核心技術包括大(da)規模擴散生成模型、高(gao)壓(ya)縮(suo)比&高(gao)還原(yuan)性視(shi)頻編碼解碼模型、精準視(shi)頻描述模型、大(da)規模公開視(shi)頻數(shu)據處(chu)理管線等。
火山引擎視頻云負責人Yongyuan談道,在AI視頻時代,人和AI交互變得更加動態和生動,這要求處理鏈路更加智能和交互。
會上,火山引擎發布了跨語言同聲復刻直播方案、多模態視頻理解與生成方案、對話式AI實時交互方案和AIG3D&大場景重建方案,從視頻的生(sheng)產端、交互端到消費端,全鏈路融入AI能力。
在生產端,跨語(yu)言同聲復刻直(zhi)播方(fang)(fang)(fang)案(an)能夠優化同傳直(zhi)播,實現更加精準的(de)字幕識別、更快輸(shu)出并帶有自然斷句,還通過虛擬人技術調整口型,支持6國以(yi)上(shang)的(de)語(yu)言輸(shu)出;多模(mo)態視頻理解(jie)與(yu)生成(cheng)方(fang)(fang)(fang)案(an)能夠應用(yong)于短(duan)劇、賽事(shi)、教育等場景;多模(mo)態電(dian)商素材生成(cheng)方(fang)(fang)(fang)案(an)可(ke)生成(cheng)圖文、解(jie)說、AIGC視頻和3D模(mo)型。
在交互端,依托豆包大(da)模(mo)型和火山(shan)引擎視頻云自(zi)研的多項(xiang)算法,對(dui)話式(shi)AI實(shi)時交互方案使得人與AI的交互更(geng)加自(zi)然,提(ti)供了(le)智能(neng)對(dui)話和自(zi)然語言處(chu)理(li)的強大(da)能(neng)力、媲(pi)美真(zhen)人的自(zi)然生(sheng)動音色,也支持聲音復刻,可(ke)實(shi)現毫秒(miao)級人聲檢測(ce)和打(da)斷(duan)響(xiang)應,能(neng)過濾90%噪聲,精準識別打(da)斷(duan)意圖,并通過流式(shi)處(chu)理(li)將端(duan)到端(duan)響(xiang)應延時降低(di)至1秒(miao)。
在消費端,AIG3D方(fang)案使3D構建(jian)更便捷;大場(chang)景(jing)重建(jian)方(fang)案具有高效渲染速度,支持(chi)二(er)次創作,可(ke)低(di)成(cheng)(cheng)本生成(cheng)(cheng)直播(bo)布景(jing),使場(chang)景(jing)重建(jian)更真實(shi);6DoF直播(bo)方(fang)案提供實(shi)時3D模型渲染、低(di)延(yan)時6DoF并能降低(di)采(cai)集(ji)成(cheng)(cheng)本,讓空(kong)間體驗更沉浸。
例如,火山引擎通過AI生成3D內(nei)容和(he)大場(chang)景重建(jian)方案,為山西高平二郎廟金(jin)代戲臺和(he)北京(jing)正乙祠兩座珍貴的歷史(shi)建(jian)筑生成了(le)3D數字資產,并以虛(xu)擬直(zhi)播間的形式應用于(yu)抖音(yin)戲曲直(zhi)播場(chang)景。
抖音開放平臺開發者運營負責人李建男分享了AI新產能助力業務增長的三個關鍵詞——創建新場景、制造新體驗、塑造新產能。她分享了一些數據:AI智能體將直播間變現效(xiao)(xiao)率(lv)提升了36%;生成(cheng)式AI大(da)(da)大(da)(da)降低創(chuang)作門檻,帶(dai)動圖片、視頻(pin)、故事、IP、辦公、學習等優質內容量(liang)級增(zeng)長(chang)200%;引入AI創(chuang)作工具能帶(dai)動視頻(pin)投稿量(liang)、平均(jun)W數、內容豐富(fu)度的有效(xiao)(xiao)增(zeng)長(chang)。
李建男總結道,通過三方模型引(yin)入數據場景開放,能夠實(shi)現(xian)(xian)垂類深度支持,帶動(dong)線索轉(zhuan)化率提(ti)升(sheng),從而提(ti)升(sheng)營銷(xiao)效(xiao)果,這對(dui)服(fu)(fu)務(wu)商是一(yi)個非(fei)常好的(de)機遇,可帶動(dong)服(fu)(fu)務(wu)商商業(ye)價值提(ti)升(sheng),進(jin)而帶來更(geng)多(duo)精準語料,進(jin)一(yi)步驅動(dong)技術進(jin)步,實(shi)現(xian)(xian)更(geng)好的(de)模型訓練效(xiao)果提(ti)升(sheng)。
結語:AI+視頻技術深度融合,推動用戶體驗多維度轉變
生成式AI為視(shi)頻化社會(hui)帶來了(le)革命性變(bian)化,不僅(jin)能(neng)提升內容創作效(xiao)果,還豐富(fu)了(le)交互體(ti)(ti)驗。在AIGC、多模態等技(ji)術的共同推動下,用戶體(ti)(ti)驗在多個(ge)維度上(shang)經(jing)歷(li)著深(shen)刻(ke)轉變(bian)。
與(yu)此同時(shi),AI+視頻(pin)也給底層技(ji)術的(de)效能(neng)化(hua)(hua)(hua)、編(bian)解(jie)碼的(de)智(zhi)能(neng)化(hua)(hua)(hua)、處理框(kuang)架(jia)的(de)廣泛化(hua)(hua)(hua)帶來新挑戰(zhan)。作為AI視頻(pin)時(shi)代智(zhi)能(neng)底座的(de)構(gou)建商(shang),火山引擎希望讓多(duo)媒體處理框(kuang)架(jia)的(de)部署更(geng)加規模化(hua)(hua)(hua)、普惠(hui)化(hua)(hua)(hua),進一步(bu)控(kong)制算力成本(ben)和提高計算效率,推動(dong)編(bian)解(jie)碼與(yu)智(zhi)能(neng)技(ji)術更(geng)好融合,從而提升(sheng)最終(zhong)的(de)體驗(yan)效果。