智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影

今年(nian),字節跳動旗下AI應用豆包(bao)的交互方式迎來(lai)多次升級,從春節期間(jian)的實時(shi)語音通(tong)(tong)話(hua),再到5月(yue)份新(xin)增的視(shi)頻(pin)通(tong)(tong)話(hua)功能,如今,豆包(bao)已經能像真人一樣(yang)通(tong)(tong)過多模態(tai)交互實現無縫溝通(tong)(tong)。

我們先來看幾個例子:

打開視頻通(tong)話功能(neng),隨(sui)手對準(zhun)一個歐(ou)洲小國的國旗,豆包便能(neng)結(jie)合音(yin)視頻信息,瞬間給出正確答案。

通話過程中,用戶可以隨意地停頓、思考、改變話題,豆包能準確地把握回復的時機;而在豆包說話時,可以隨時打斷(duan),向它(ta)提出(chu)新的要求。

在地鐵站、電梯、地下車庫等較為復雜的網絡環境下,豆包的實時(shi)交互能力也不會大(da)打折扣。下方(fang)案例中,豆包的響應速度(du)沒有(you)出(chu)現明顯的問題,給出(chu)的回答也正確、清晰(xi)。

要實現這種近乎直(zhi)覺性的體驗,并在一款國民級AI應用中穩(wen)定(ding)提(ti)供實時音視頻交(jiao)互(hu),豆包需要攻克不少挑(tiao)戰。

除(chu)了提(ti)升模(mo)型能力(li)之外,實時音視頻交互要(yao)如何將(jiang)攝像頭捕捉的畫(hua)面高清(qing)呈現,如何將(jiang)AI的視覺推(tui)理和搜(sou)索反(fan)饋同步,又如何在(zai)瘋狂丟包的弱(ruo)網環境中依舊維持高質量通(tong)信?

豆包最終選擇的方案,是火(huo)山引擎的RTC(Real Time Communication,實時音視頻)技(ji)術。目前,真人用戶間的音視頻通話幾乎都依賴RTC技術,火山引擎智能交互產品負責人楊若揚向智東西透露,他認為,未來的人機(ji)音視頻通(tong)話也(ye)必將全面(mian)進入RTC時代。

一、實時交互技術路徑分野,RTC憑借什么勝出?

RTC是(shi)一項(xiang)專(zhuan)門為低延遲互動設計的技術(shu),能降低通(tong)信延遲、確(que)保實(shi)時性和質量,讓用戶(hu)與用戶(hu)、用戶(hu)與系統間實(shi)現近乎“面對面”般的無縫音(yin)視頻交互體驗。

這項技術涉及多個(ge)模塊(kuai),比如音視頻的(de)(de)采集(ji)與編解碼、網絡傳輸、網絡自適應等,這些(xie)模塊(kuai)協(xie)同工作,保證(zheng)了用戶(hu)從攝像頭、麥克風(feng)采集(ji)的(de)(de)數據能清(qing)晰(xi)流暢的(de)(de)傳送至接收方,而用戶(hu)也能及時收到對方的(de)(de)音視頻反饋。

你給豆包打的這通視頻背后,藏著AI實時交互的體驗密碼

雖(sui)然RTC并不是目前業內唯一的實(shi)時交互方案,但與基于TCP協議實(shi)現的另一大(da)主流方案WebSocket相比,RTC擁有顯(xian)著的優勢(shi)。

協議方面,RTC底層采用UDP傳輸,避免了傳統TCP必須完整接收再傳給應用層的機制。RTC允許一定程度丟包但保證速度,因此延遲非常低,特(te)別適合實時音視頻通話(hua)和互動

理(li)想(xiang)情況(kuang)下,RTC和WebSocket的(de)語音延(yan)遲差異不大。但現(xian)實世界的(de)網(wang)絡情況(kuang)復雜多變,WebSocket對丟包比較敏(min)感,網(wang)絡波動(dong)時延(yan)遲明(ming)顯升高,不如RTC流(liu)暢。

RTC技術具有較強的抗弱網能力。線上實測數據清晰印證,在20%丟包環境下,WebSocket方案已出現嚴重卡頓、斷連,并且線上已有高達15%的用戶不可用;而RTC即使在80%極端丟包下(xia),不可用率也僅為1%,體驗稍有滯后(延(yan)時4.6s)。

在(zai)視頻場景,RTC技(ji)術還可(ke)以利用其帶寬估計(ji)、前(qian)向糾(jiu)錯(FEC)和丟(diu)包重傳等(deng)抗擁塞能力(li)與端(duan)到端(duan)傳輸優(you)化,有效(xiao)降低移動網(wang)絡或擁擠WiFi下畫面(mian)花(hua)屏與卡頓的風險。

火山(shan)引擎的RTC技術于2021年(nian)隨品牌發布上(shang)線(xian),但(dan)其研發始于2017年(nian),用于滿足抖音直(zhi)播(bo)連麥等需求。此后,這一技術陸續在字(zi)節(jie)內(nei)部(bu)的音視頻(pin)通話、社(she)交娛樂、游(you)戲、在線(xian)會議等場景(jing)落(luo)地。

2021年火山引擎成立后,其RTC技術逐漸產品化,承載能力也不斷提升。而生成式AI的爆發,給RTC技術帶來了新的發展機遇,2024年初,火山引擎推出了基于(yu)RTC的對話式AI技術方案,這便是豆(dou)包交互體驗升(sheng)級(ji)背后的重要支撐。

二、豆包交互體驗再升級,揭秘背后核心技術棧

我們已在(zai)文章開頭的案例中,看到了(le)RTC支持下豆包(bao)語音交互(hu)、視(shi)頻電話(hua)的流(liu)暢(chang)、即時(shi)性體驗。在(zai)智(zhi)東(dong)西與火山引(yin)擎智(zhi)能(neng)交互(hu)產品負責人(ren)楊若揚的溝通中,我們了(le)解(jie)到了(le)這(zhe)一效果背后(hou)的具體實現。

豆包首先充分利用了(le)(le)火山引擎RTC方案的既有(you)優勢,實現了(le)(le)低延遲、高質量和抗弱網的音(yin)視(shi)頻交互體驗。

在網絡層面,火山引擎擁有覆蓋全球的邊緣節點和骨干網絡,這能有效(xiao)縮短數據傳(chuan)(chuan)輸(shu)物理(li)路(lu)徑(jing),減少中間節點,降(jiang)低延遲和丟包風險。同時(shi),智(zhi)能路(lu)由(you)技術(shu)可實時(shi)感知鏈路(lu)狀態和擁塞情況,動態選擇最優路(lu)徑(jing),確(que)保數據傳(chuan)(chuan)輸(shu)高效(xiao)流暢。

你給豆包打的這通視頻背后,藏著AI實時交互的體驗密碼

在算法層面,火山引擎RTC技術擁有網絡、音頻和視頻多類算法。網(wang)絡(luo)側通過動(dong)(dong)態(tai)帶寬(kuan)、自(zi)適(shi)應傳輸、前向(xiang)糾錯、智(zhi)能重傳等機(ji)制提升弱網(wang)適(shi)應能力;音(yin)視(shi)頻側結(jie)合(he)神(shen)經網(wang)絡(luo)編(bian)解(jie)碼、分層和感(gan)知內容編(bian)碼等技術,動(dong)(dong)態(tai)優(you)化編(bian)碼參(can)數(shu),有效緩解(jie)“最(zui)后一(yi)公里(li)”網(wang)絡(luo)不確定性,保(bao)障用(yong)戶端音(yin)視(shi)頻傳輸的清(qing)晰度與(yu)穩定性。

楊若揚認為,在豆包這樣的“對話式AI”場景,RTC技術所服務的對象已從人和人之間的交流,轉變為人與機器的交流。火山引擎RTC技術針對新場景的特點,在音視頻處理層面做了針對性的升級和優化

視頻流與大模型在輸入輸出形式上存在明顯差異:視頻由一幀幀圖片組成,而當前的多模態大模型以理解單張圖片為主,這要求模型能分析幀間聯系與時序,保證語義連續,因此必須不斷優化視頻理解與關鍵幀提取算法,以提(ti)升模型對(dui)動(dong)態場景的感知與處理能力。

在(zai)人(ren)與AI的對(dui)話(hua)中,AI如何準確斷句,選擇接話(hua)、插話(hua)的時(shi)機也是(shi)一(yi)大挑戰。人(ren)類能憑語境判(pan)斷對(dui)方(fang)話(hua)語結(jie)束時(shi)間,并憑音色識(shi)別說話(hua)者、濾(lv)除無關(guan)噪(zao)(zao)聲,而大部分AI系統僅依賴停(ting)頓(dun)時(shi)長判(pan)斷,往(wang)往(wang)不(bu)夠(gou)準確,這就需要(yao)引入(ru)智能語義判(pan)停(ting)與聲紋(wen)降(jiang)噪(zao)(zao)算法(fa)。

智(zhi)能語(yu)義判停(ting)技術可以(yi)根據語義判(pan)斷(duan)用戶(hu)話(hua)語是否(fou)完(wan)整,讓(rang)模型(xing)不(bu)會過早回復。下方案例中,用戶(hu)可以(yi)停頓,思考,而不(bu)會被豆包插話(hua)。

聲紋降(jiang)噪算法(fa)能在嘈雜環境(jing)中聚焦目標(biao)說(shuo)話者,屏蔽環境(jing)人聲(sheng)(sheng)及(ji)噪聲(sheng)(sheng)干擾(rao),將誤打斷率降低15%-20%。

這些改進讓AI在(zai)音視頻通話中展現出更(geng)接近人類的特征,也(ye)讓用(yong)(yong)戶在(zai)與豆(dou)包(bao)對話時能獲得更(geng)加流暢、自然、貼(tie)近真實互動的使用(yong)(yong)感受。

三、智能音視頻交互需求井噴,RTC有望提供堅實底座

隨著大模型與AI應用(yong)的(de)日漸成熟,音視頻已成為新一代(dai)AI交互中(zhong)不可(ke)或缺的(de)一部分(fen),這(zhe)些模態所提(ti)供的(de)沉浸式體驗對用(yong)戶天然有吸(xi)引力和親近性。

在虛擬陪伴(ban)、智能(neng)玩具、智能(neng)家居、智能(neng)教(jiao)育等廣(guang)闊場(chang)景中,用(yong)戶對于(yu)低延(yan)時(shi)、高質(zhi)量、自然流暢的(de)人機對話(hua)需求與日俱增,而火山(shan)引擎RTC這樣能(neng)夠支撐復雜場(chang)景實(shi)時(shi)音視頻交互的(de)底層傳輸技術(shu)正是保(bao)障用(yong)戶體驗的(de)關鍵(jian)。

你給豆包打的這通視頻背后,藏著AI實時交互的體驗密碼

在多Agent、多人場景中,RTC技術還展現出較好的可擴展性,相較傳統WebSocket實現(xian)語音方案(an),RTC在網絡(luo)層(ceng)和算法層(ceng)都更(geng)為成熟,原生(sheng)支持房間管(guan)理、多流控制、音視頻(pin)混音與優先(xian)級(ji)策略,可(ke)應用于(yu)多人娛樂、企業(ye)辦公等場景。

火山(shan)引(yin)擎(qing)基(ji)于RTC的(de)對話式(shi)AI技(ji)術(shu),不僅(jin)僅(jin)是(shi)“豆包專(zhuan)屬”,而是(shi)能為所(suo)有AI時代的(de)產(chan)品(pin)提供重要價值(zhi)。作為火山(shan)引(yin)擎(qing)的(de)核心音視(shi)頻技(ji)術(shu)之一,RTC 已廣泛(fan)應(ying)用(yong)于字節各大業務場景(jing),在真(zhen)實用(yong)戶環(huan)境中反復打磨與優化。

同時,火山引擎提供的RTC服務與其內部業務完全同源,換句話說,企業通過火山引擎接入RTC,使用的就是與抖音、飛書、豆包同款的算法、架構與策略。

當然,RTC技術也存在行(xing)業共性(xing)難(nan)題:一方(fang)面,自建集成(cheng)方(fang)案門檻較高,需(xu)要(yao)專門的網(wang)絡傳輸與音視頻處理能力(li),另(ling)一方(fang)面,云服務資源消耗也不(bu)可小(xiao)覷,此外深(shen)度(du)音頻算法調優也需(xu)大量投入。

楊若揚觀察到,上述難題導致許多企業不得不選擇實現成本相對低廉、門檻較低的WebSocket,一定程度上犧牲用戶體驗,等待用戶規模擴展后再考慮換用更成熟方案,這無形中限制了產品的成長與競爭力。

針對這些痛點(dian),火山(shan)引擎對話式AI一站式方案提供了低(di)門檻、高質量(liang)的(de)接入途(tu)徑。開發者無需從零開始搭建(jian)復(fu)雜架(jia)構,即可(ke)實現用戶與AI的(de)實時音視頻互動,構建(jian)契(qi)合業務場景的(de)AI實時對話能力。

你給豆包打的這通視頻背后,藏著AI實時交互的體驗密碼

▲火山(shan)引擎對話式AI官(guan)網:

//www.volcengine.com/product/veRTC/ConversationalAI

火山引擎還為開發者提供了每月10000分鐘的免費額度,進一步(bu)降(jiang)低了開發者的前期驗證與迭代(dai)成本。

結語:從難點到標配,RTC成對話式AI首選項

在(zai)(zai)對(dui)話式AI場景中,RTC正在(zai)(zai)成為企業的優選方(fang)案(an),這種整合方(fang)案(an)讓(rang)企業能更(geng)加專注業務創新,以更(geng)低成本、更(geng)快(kuai)速度落(luo)地語音(yin)與音(yin)視頻能力,從一開始(shi)就為用戶帶來高(gao)品(pin)質的交互(hu)體驗,為下(xia)一代(dai)智(zhi)能應用贏得先機與口碑。

火(huo)山引擎(qing)的(de)對(dui)話(hua)式(shi)AI一站式(shi)方案,讓實時音視頻從“難點(dian)”變成“標配”,為各類AI應(ying)用與智能體生態拓(tuo)展(zhan)廣闊空間,讓未來的(de)人機互動更加順暢、高效、有溫度。

楊若揚稱,在多模態(tai)音視頻技術上,火(huo)山(shan)引(yin)擎希望讓人(ren)和AI之(zhi)(zhi)間的(de)對話越(yue)來越(yue)接近(jin)人(ren)與(yu)人(ren)之(zhi)(zhi)間的(de)真(zhen)實(shi)溝通,這也(ye)是(shi)他們未來持續努(nu)力的(de)方(fang)向(xiang)。