智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影

近年來,視頻化正(zheng)呈現出從(cong)互聯網向全行(xing)業(ye)(ye)滲透的(de)(de)趨勢(shi)。視頻已從(cong)一項單純的(de)(de)功能,發展為企(qi)業(ye)(ye)推動用(yong)戶增長、提升業(ye)(ye)務效率和增加(jia)商業(ye)(ye)變(bian)現的(de)(de)關鍵(jian)手段,并重塑(su)營銷、知識、商業(ye)(ye)和空間的(de)(de)交(jiao)互體驗。

我們的生產生活越來越離不開視頻,視頻云也被賦予了重要的使命。

顧名思(si)義,視(shi)頻云是(shi)一(yi)(yi)項覆蓋了從視(shi)頻生產、處(chu)理(li)、分析到消費的(de)全鏈路(lu)技術能力,這(zhe)一(yi)(yi)產業自移動互聯網(wang)發展以(yi)來持(chi)續壯大,是(shi)云計算領域(yu)的(de)一(yi)(yi)條主(zhu)賽道。

當下,隨著AI、VR/AR等技(ji)術帶來新(xin)的(de)生產力變革,云(yun)計(ji)算公司(si)開始把(ba)這些新(xin)技(ji)術與視頻云(yun)充分(fen)融合,形成驅動體驗創(chuang)新(xin)的(de)新(xin)基石。

8月22日,字節跳動旗下的火山引擎舉辦了一場視頻云&AIGC技術大會,首次公布其視頻云產品與爆火的AIGC(生成式AI)領域的重磅成果,覆蓋芯片、框架及方案各個方面,面向全行業視頻化時代交出一份“新答卷”。

視(shi)頻(pin)(pin)化(hua)時代面臨(lin)什么樣的(de)機遇(yu)和挑戰(zhan)?AI與(yu)VR/XR等技術(shu)如何影(ying)響視(shi)頻(pin)(pin)云(yun)技術(shu)走勢?行業滲透與(yu)視(shi)頻(pin)(pin)化(hua)應用融合,火山引擎視(shi)頻(pin)(pin)云(yun)又有哪些布局?

對(dui)話(hua)火山(shan)引擎視頻云負責人(ren)Yongyuan,我(wo)們對(dui)此進行了深入探(tan)討。

一、從傳統到AI,視頻云要飛躍三道技術新邊界

進入全行業視頻化時代,算力、體驗和交互層都面臨“新邊界”。Yongyuan談到他的洞察:

第一是算力邊界。視頻(pin)數據體量(liang)激增,分辨(bian)率和清晰度持續提升,算力(li)瓶頸是當前視頻(pin)行業面臨的最(zui)大挑戰。

第二是體驗邊界。用戶持續追求更清晰、更流(liu)暢的極致(zhi)體驗(yan),處理(li)的算法(fa)和流(liu)程要跳出現有(you)框架探索體驗(yan)邊(bian)界。

第三是交互邊界。沉(chen)浸式媒(mei)體方向在(zai)持(chi)續(xu)加溫,蘋果(guo)發布(bu)的Vision Pro帶來了新憧憬,2D畫面的邊界向3D畫面突破(po)。

為了(le)探索(suo)這三個邊界,火山引(yin)擎已經采取了(le)一系列探索(suo)和實踐(jian)。

1、探索算力邊界,火山引擎推出兩“芯”

首先來看一組數(shu)據,Yongyuan告訴智(zhi)東西,視頻(pin)所(suo)消耗的算(suan)力(li)要比圖片大上百倍(bei),比文字大上萬倍(bei),對算(suan)力(li)需求極大。為(wei)了應對這些(xie)挑戰,火山引擎(qing)自研了一系列底層硬件技術(shu)。

8月22日,火山引擎自研視頻編解碼芯片、自研ARM陣列服務器等技術首次公開,揭開了火山引擎視頻云的底座基石。基于抖音的(de)(de)大規模應用(yong)(yong)實踐和打磨(mo),火山引(yin)擎實現了(le)從通用(yong)(yong)計(ji)算到異構(gou)計(ji)算的(de)(de)躍進,沉(chen)淀了(le)可為不同(tong)視頻場景(jing)提供專用(yong)(yong)且適用(yong)(yong)的(de)(de)算力(li)支持。

據稱其自研視頻編解碼芯片相對主流硬件編碼器能提升超30%的壓縮效率,一臺(tai)芯(xin)片(pian)服務器(qi)的轉碼(ma)(ma)能力(li),相當于(yu)百臺(tai)CPU服務器(qi)的算(suan)力(li),可用于(yu)視(shi)頻點播、視(shi)頻直播、VR點/直播、圖(tu)片(pian)轉碼(ma)(ma)等多個(ge)場景。

全行業視頻化時代:火山引擎要跨越三道“新邊界”▲自研視頻編(bian)解碼芯片成果

Yongyuan說,這一芯片集成了整(zheng)個字節貼合業務的優質編解碼和前處理算法(fa),從而實現效果和效率的大(da)大(da)提升。

同時,火山引擎(qing)視(shi)頻(pin)云還自研了ARM陣列(lie)服(fu)務器(qi)。據稱(cheng),其在轉碼場景(jing)相比x86資源可以實現成(cheng)本節省超40%,在云游(you)戲場景(jing)對比同類服(fu)務器(qi)有(you)非(fei)常高的性價比。同時,通過云原(yuan)生(sheng)技術對ARM異構陣列(lie)服(fu)務器(qi)進行管理和調度,其實現了存儲和計算分離,保障用(yong)戶數據安全(quan)。

2、探索體驗邊界,火山引擎全面布局AIGC

AIGC正卷入視(shi)頻(pin)業,全方位地改(gai)變(bian)音視(shi)頻(pin)行(xing)業的玩法。Yongyuan告訴智東西:“AIGC技(ji)術作為(wei)一種新的視(shi)頻(pin)內(nei)容(rong)生(sheng)產方式,包(bao)括內(nei)容(rong)生(sheng)產效率、豐(feng)富度(du)、個(ge)性化程度(du)都會大(da)大(da)提升。”

可以看到,在抖音等短視頻平臺上,很多人已經習慣了使用各種智能特效進行創作,也更頻繁地看到虛擬數字人直播賣貨等內容,AI已經融入到了人們的視頻體驗中。而為了讓更多人能用上這些前沿技術,字節正通過火山引擎為外部提供技術服務。火山引擎此前推出的智能創作云,就支持了更多企業進行智能化內容創作。

簡單來說(shuo),火山(shan)引擎智(zhi)能創作(zuo)云是一個智(zhi)能內容生產平(ping)臺,為企業(ye)提供(gong)各(ge)類AI賦(fu)能的創作(zuo)工(gong)具、編輯技術(shu)、正(zheng)版(ban)素材和流(liu)程管(guan)理。目(mu)前,火山(shan)引擎智(zhi)能創作(zuo)云已經(jing)探索推出(chu)AIGC腳本撰(zhuan)寫、文生圖、批量海(hai)報制作(zuo)、數字人分身等(deng)多(duo)項能力(li)。

不同于個人創作,企業視頻創作面臨創意缺乏、工具難用、協作困難、難以持續等更復雜的挑戰,智能創作云則從創意策劃、視(shi)頻制(zhi)作(zuo)、內容發布到(dao)數據回(hui)饋,從每一個環節(jie)降低內容創作(zuo)者的(de)創作(zuo)門(men)檻。比如,國內知名房(fang)(fang)屋租賃服務(wu)公司自如就借助火山引擎智(zhi)能創作(zuo)云,通過“剪同(tong)款”API能力(li),批(pi)量制(zhi)作(zuo)房(fang)(fang)源介紹視(shi)頻,引導用戶(hu)點擊VR看房(fang)(fang),從而增(zeng)加了房(fang)(fang)源曝(pu)光率。

AI能力不僅改變了視頻內容生產的方式,還為視頻處理提供了更多可能。AI影片修復是一個典型代表場景。就在(zai)8月16日(ri),火山引擎、抖音(yin)聯合中(zhong)(zhong)國電(dian)(dian)影資料館宣(xuan)布(bu)將對(dui)100部香(xiang)港經典老(lao)電(dian)(dian)影進行4K修復。這是其首次將AIGC視覺(jue)大(da)模型應(ying)用(yong)于老(lao)片修復中(zhong)(zhong),在(zai)觀影活動中(zhong)(zhong)得到了一(yi)致好評。

全行業視頻化時代:火山引擎要跨越三道“新邊界”
▲修復前(左(zuo)),修復后(右)

追溯其背后技術,本次修復師基于AIGC大模型完成,這相比傳統的影片修復有什么不同?

Yongyuan告訴智東(dong)西,相比于(yu)傳(chuan)統的去(qu)噪、插幀(zhen)等(deng)算法以(yi)及先(xian)前的AI技術(shu),火(huo)山(shan)引擎采用的AIGC視(shi)覺模(mo)型是關鍵(jian)差(cha)異點。借助其強大(da)的生成能(neng)力和豐富的先(xian)驗知識,實現修復效果在清晰(xi)度(du)、色彩、流暢度(du)和瑕疵(ci)消除等(deng)方面(mian)的全方位提升。針對老片修復場景,火(huo)山(shan)引擎對AIGC視(shi)覺大(da)模(mo)型進行了生成質(zhi)量、視(shi)頻任務和效率方面(mian)的算法優化,讓視(shi)覺大(da)模(mo)型能(neng)夠在視(shi)頻場景下更加(jia)穩定、優質(zhi)、高效地輸出內容。

實際上,火山引擎視頻云的很多產品能力都有AI技術的加持,例如“智能轉檔”使用了AI重采樣方案,滿足了高質量多碼率分發需求,支持直播、點播多檔位畫質提升。 “極智超清”是基于人眼(yan)的(de)主(zhu)觀(guan)感(gan)受最優(you)為基準的(de)AI前處理方案,該方案不(bu)僅可(ke)以提(ti)升主(zhu)觀(guan)畫質,還(huan)可(ke)以進一步實(shi)現整體帶寬降(jiang)低15-35%。

3、探索交互邊界,基于PICO打造VR直播等應用

在探(tan)索交互邊(bian)界方面(mian),火山引擎(qing)視頻云(yun)基于在字節(jie)跳動旗下VR品牌PICO 上(shang)的實踐和探(tan)索,沉淀了很多優(you)質的能(neng)力。

比如(ru),火山引擎的VR 360°全(quan)景圖像(xiang)(xiang)技術在今(jin)年(nian)CVPR Workshop舉(ju)辦的一項比賽(sai)中,雙(shuang)目超(chao)分雙(shuang)三次(ci)(ci)插值保真賽(sai)道和360°全(quan)景圖像(xiang)(xiang)超(chao)分賽(sai)道上,榮(rong)獲了(le)雙(shuang)料(liao)冠軍,技術能力達(da)到行業領先水(shui)平。本次(ci)(ci)火山引擎還推(tui)出了(le)8K 360度 VR直播云制(zhi)播解決方(fang)案,據(ju)稱能大大降(jiang)低VR內(nei)容的開發(fa)和消(xiao)費(fei)門檻。

可以看到,從通用算力到異構算力、從傳統到AI、從二維到三維,視頻行業已被新技術掀起陣陣新浪潮,而火山引擎已經加速布局。

二、從互聯網到傳統行業,讓視頻成為企業的增長引擎

技術的(de)價(jia)值體現在實(shi)戰落地(di)應用。面向視頻(pin)化全行(xing)業滲(shen)透的(de)趨勢,火山引擎已經將(jiang)其視頻(pin)云從游戲、電商、社交等(deng)消費互(hu)聯網領域向醫療、金融(rong)、教育、汽車等(deng)行(xing)業互(hu)聯網延(yan)伸。

本次,火山引擎重磅推出了一系列行業解決方案,覆蓋互動娛樂、在線教育、金融合規、智能駕駛等場景。

首先,這些方案大多將技術與場景深入結合,帶來了更有沉浸感、交互感的視頻體驗。

以互動娛樂行業為例,在與抖音多人合唱項目合(he)(he)作中,火山引擎(qing)視頻云行業首發「多(duo)人視頻一起唱方(fang)案」,把(ba)合(he)(he)唱互(hu)動方(fang)案從雙人升級到(dao)多(duo)人,現在已經可以(yi)達到(dao)九人合(he)(he)唱;并實現了36ms超低延時合(he)(he)拍(pai),支持48kHZ采樣(yang)率,滿(man)足(zu)K歌場(chang)景的聽(ting)感盛宴;同時集成25W+高品質曲庫,助力用(yong)戶實現了隨時隨地與朋友一起想唱就唱,感受最(zui)鮮活多(duo)樣(yang)的音樂魅力。

此外,火山引擎還推出了彈幕互動方案,這是一(yi)種(zhong)直播(bo)平臺興起(qi)的彈幕互動玩法,允(yun)許觀眾通過發送點贊、彈幕和(he)禮物來參與并影響(xiang)互動內容。火(huo)山引擎視頻云(yun)行(xing)業首推云(yun)游(you)戲+RTC(實時音視頻)彈幕互動方(fang)案,融合云(yun)游(you)戲服務的強(qiang)大底(di)層算力以及 RTC 先進架構(gou)設計和(he)音視頻能(neng)力,獨家支持RTC+云(yun)游(you)戲云(yun)端合流功(gong)能(neng),能(neng)解決多源音視頻流管理和(he)同步(bu)問(wen)題。

全行業視頻化時代:火山引擎要跨越三道“新邊界”

▲彈幕互動應用界面

同時,火山引擎的AIGC能力也被嵌入這些方案之中,為企業帶來全新的視頻生產體驗。

比如面向金融領域,在(zai)火山引(yin)擎與國(guo)信證(zheng)券(quan)聯合(he)(he)落地的金融直(zhi)播(bo)解決方案中,國(guo)信證(zheng)券(quan)上線了AI虛擬數字主播(bo),并結(jie)合(he)(he)數字人使用(yong)AI短視頻模板(ban)自(zi)動化生(sheng)成實時短視頻。金融行業智(zhi)能直(zhi)播(bo)面臨合(he)(he)規(gui)性挑戰,AI生(sheng)成內容(rong)需要(yao)逐幀做(zuo)合(he)(he)規(gui)審核,國(guo)信證(zheng)券(quan)正(zheng)探(tan)索通過AIGC做(zuo)初(chu)審再采用(yong)人工復審,從而提升內容(rong)創作和審核效率(lv)。

此外值得一提的是,從2D到3D視覺的交互升級,在這些行業方案中亦有多處體現。

火山引擎行(xing)業首推的(de)VR云制(zhi)播(bo)方案,從內(nei)容生產到傳(chuan)輸分發降低(di)VR內(nei)容的(de)開發和消費(fei)門檻。比如在其與央視(shi)打(da)造身臨(lin)其境(jing)的(de)虛擬演播(bo)平臺(tai)案例中(zhong),央視(shi)通過火山引擎視(shi)頻(pin)云和云創(chuang)智媒的(de)能力(li),輕量化地用一臺(tai)筆(bi)記(ji)本實現VR視(shi)頻(pin)的(de)制(zhi)作,而不再需要一個(ge)演播(bo)室和一堆硬件系統。

可見,除了在抖音熟悉的互聯網領域,火山引擎在金融、傳媒、汽車等領域不斷探索并且推出相應方案,探索視頻云“三道技術邊界”并不是說說而已,而是已經有了深入實戰經驗。

三、三年商業化深耕,火山引擎視頻云“破繭”

火山引擎(qing)自2020年(nian)正式(shi)對外商業化,但視頻技(ji)術服務(wu)可追溯到2013年(nian)。

Yongyuan回顧,自2013年今(jin)日(ri)頭條平臺(tai)(tai)的(de)短視(shi)頻(pin)(pin)內(nei)容誕生,團隊就開(kai)始做視(shi)頻(pin)(pin)方面(mian)積累。2016年抖音的(de)孵化(hua),則促(cu)使團隊進一步(bu)以視(shi)頻(pin)(pin)中臺(tai)(tai)的(de)方式輸出更(geng)多音視(shi)頻(pin)(pin)技(ji)術(shu)支(zhi)持。隨著(zhu)2017~2020年抖音規模不斷變(bian)大,更(geng)多音視(shi)頻(pin)(pin)的(de)標準(zhun)化(hua)工(gong)具(ju)出現,逐步(bu)具(ju)備(bei)了對外服務的(de)條件。

2021年(nian)6月,字節正式推出(chu)(chu)火(huo)山引擎(qing)云(yun)服務(wu)業務(wu)板(ban)塊;12月,火(huo)山引擎(qing)發(fa)布了包括了視頻云(yun)在(zai)內(nei)的五大類共(gong)78項云(yun)服務(wu),確立“IaaS+PaaS+SaaS”完整云(yun)服務(wu)體(ti)系。2022年(nian)7月,火(huo)山引擎(qing)推出(chu)(chu)音視頻云(yun)端一體(ti)解決方案(an)veVOS,進一步(bu)助力企業客戶的業務(wu)敏捷(jie)創新(xin)。

2023年,隨著火山引擎的商業化落地進入規模化階段,其底層技術也加速迭代,這些自研芯片及服務器等技術并不對外銷售,而是通過視頻云的方式服務企業。“我們的核心技術都會沉淀在火山引擎,以‘對內對外統一’的方式提供,這是火山引擎做云的一個出發點。”Yongyuan說。

隨著技術(shu)和商業地圖的(de)進(jin)一步(bu)完善,火山引擎(qing)正大步(bu)駛(shi)向視頻云領域的(de)新藍海(hai)。

結語:全行業視頻化浪潮下,視頻云成企業增長新引擎

知名調查機構IDC預測,到(dao)2025年,超80%全(quan)球(qiu)數(shu)據將是(shi)音視(shi)(shi)頻(pin)等非結(jie)構化數(shu)據,這(zhe)樣的超視(shi)(shi)頻(pin)化成為數(shu)字時(shi)代的重要特征。同時(shi),AIGC、VR等技術(shu)的爆發,帶來(lai)視(shi)(shi)頻(pin)生(sheng)產(chan)的成本不斷降(jiang)低(di),可(ke)能(neng)將視(shi)(shi)頻(pin)行業市(shi)場撐(cheng)大十(shi)倍都不止。

本次,火(huo)山引擎推出了一系列底層硬件(jian)及產品(pin)和行業(ye)解決方案,在視頻云(yun)領域(yu)的布局進一步加(jia)深(shen)。從(cong)傳(chuan)統到AI,從(cong)2D到3D,從(cong)泛(fan)互(hu)聯網到行業(ye),火(huo)山引擎在拓(tuo)寬自身云(yun)業(ye)務(wu)發展邊(bian)界的同時,也為企業(ye)提供了通過視頻及AI技術(shu)實現數(shu)字化升級的新選(xuan)擇。