智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 心緣

智東西6月17日報道,今天,豆包電腦版和網頁版全量上線了AI播客功能。用戶上傳PDF或網頁(ye)鏈接后(hou),可一鍵生(sheng)成雙人對話的播客節目。

剛剛,豆包AI播客上線:8萬字文檔秒變節目,語氣詞和停頓都像人

上線后,智東西第一時間對豆包AI播客功能進行了體驗。實測中,豆包能將8萬詞英文文檔在3秒內生成為播客(ke)節目,用戶可在(zai)對話界面收聽播(bo)客(ke),收聽的同時(shi),豆包會(hui)并行生成后續內容。

豆包交付的AI播客節目以男女雙人(ren)對(dui)談的(de)形式進行,能對(dui)用戶上傳的(de)網頁、文件等(deng)進行深(shen)度改造(zao),使(shi)其更適合聽眾消費(fei)。

AI播客對談的節奏流暢自然,還會有大量的語氣詞、附和、停頓,這很好地模擬(ni)了(le)真人博(bo)客(ke)中的(de)口語(yu)習(xi)慣,有效提升了(le)擬(ni)人程度。智東西(xi)還(huan)了(le)解到,這兩(liang)個聲音是由字(zi)節與(yu)專業播客(ke)創作者聯(lian)手(shou)打造(zao)的(de)。

不過,在實測中,我們也發現了豆包AI播客當前存在的部分問題。例如,其生成節目的信息密度并不高,且含有大量(liang)重復的句式和語(yu)氣(qi)詞,在長時間收(shou)聽后,用戶可能會覺得有些單調。

日前,智東西曾與字節跳動語音中臺負責人鄭煒明進行交流,他向智東西透露,未來,豆包AI播客的收聽體驗會進一步豐富,不會只有簡單的承接,還能有觀點的交流與碰撞。團隊已經在開發不同風格的音色,探索音色克隆、風格定制等功能,語種(zhong)范圍也會擴展至中文之(zhi)外。

先前(qian),豆包(bao)·AI播(bo)客模型(xing)已在字節(jie)旗(qi)下的AI Agent平臺扣(kou)子空間上線,并支(zhi)持(chi)一(yi)句話生成播(bo)客的功能(neng),可(ke)自主查找(zhao)相關話題,輸出播(bo)客。

一、8萬詞PDF文件秒出播客,還能自主給節目“劃重點”

豆包AI播客功能的入口放在了輸入框下方,點擊進入后,會跳轉出兩個選項。用戶既可上傳文件,也可將網頁發送給豆包。不過,目前豆包AI播客僅(jin)支持PDF文(wen)件的上傳。

剛剛,豆包AI播客上線:8萬字文檔秒變節目,語氣詞和停頓都像人

首先來聽聽生成效果。智東西(xi)將一份8萬余詞、共140頁的(de)(de)起(qi)訴(su)書上傳(chuan)給豆(dou)包(bao),在(zai)花費數秒鐘解析文件后,豆(dou)包(bao)立刻返回了可(ke)供收聽播(bo)客(ke)(ke)的(de)(de)播(bo)放器和一張播(bo)客(ke)(ke)封(feng)面圖,完整生成一檔播(bo)客(ke)(ke)的(de)(de)時間大約在(zai)1-2分鐘,用戶可(ke)以邊(bian)聽邊(bian)等(deng),不影(ying)響收聽體(ti)驗。

剛剛,豆包AI播客上線:8萬字文檔秒變節目,語氣詞和停頓都像人

實測多個案例后,智東西發現豆包生成的AI播客基本遵循了一個(ge)特定(ding)的模式——女主持人負責(ze)控制(zhi)播客的節(jie)奏、提問等,男主持人負責(ze)主要內容(rong)的講述。

豆包AI播客所生成的節目的語言風格較為口語(yu)化(hua),在收聽過程中完全感受不到原文件中正式甚至有些拗口的表達。盡管智東西上傳的是一份英文文件,也沒(mei)有明顯的翻(fan)譯腔。

具體的收聽體驗層(ceng)面,可以(yi)聽到AI主播們會通過(guo)調整語速等方式來強調重點信息。

也會使用一些語氣詞和(he)包含(han)情感的(de)評價(jia),這加強了(le)播(bo)客的(de)“真(zhen)人感”。

在網頁轉播客場(chang)景(jing),豆包AI播客能交付不(bu)錯的結果(guo),不(bu)會受到網頁上無關信息的影響,基(ji)本可以準(zhun)確反映網頁主要內(nei)容(rong)。

在智(zhi)東(dong)西先前參與的內測(ce)中(zhong),豆包(bao)還會在網(wang)頁地址欄(lan)右側提供“網(wang)頁播客”的入口,不過(guo)在公測(ce)版本中(zhong),這一功能尚未上線(xian)。

剛剛,豆包AI播客上線:8萬字文檔秒變節目,語氣詞和停頓都像人

二、可定制性、信息密度仍有提升空間,未來或擴展多人對談、單口播客

目前豆包AI播(bo)客(ke)功能的提(ti)(ti)示詞(ci)是固定的,用(yong)戶無(wu)法給出(chu)播(bo)客(ke)制(zhi)(zhi)作(zuo)的更具體建議,在可定制(zhi)(zhi)化程(cheng)度上還有(you)些提(ti)(ti)升空間。系統提(ti)(ti)示詞(ci)很簡(jian)單,就是“生成(cheng)播(bo)客(ke)”。

用戶暫時也無法直接導出豆包AI播客的生成結果。有需(xu)要下(xia)載播(bo)客的(de)用(yong)戶可以移步“扣子空間”進行體(ti)驗,在(zai)這(zhe)一應用(yong)中,豆包AI播(bo)客及其封面都可導(dao)出,還能看到具體(ti)的(de)逐字稿。

剛剛,豆包AI播客上線:8萬字文檔秒變節目,語氣詞和停頓都像人

智東西用不同長度的文本測試了豆包生成的AI播客時長。最終,其生成的節目最長不會超過10分鐘,大多集中在5分鐘左右。這導致了一些問題:當用戶上傳高信息量長文檔時,可能會被過度壓縮和省略;上(shang)傳簡短的內(nei)容時,豆包也會(hui)煞有介(jie)事的講上(shang)兩三分鐘。

在第一部分的測試案例中,長文檔中后半部分內容便被完全省略了。在下方案例中,智東西將一篇數百字的快訊發送給了豆包,由于原本的信息量不大,最終其生成結果也略顯單薄。大量語氣詞、口語化表述和模式化問答的存在,導致信(xin)息密度有(you)待提高

剛剛,豆包AI播客上線:8萬字文檔秒變節目,語氣詞和停頓都像人

▲快訊原文

此外,豆包中提供的AI播客功能并不能對材料中的已有話題進行補充,提供背景信息,這可能導致播客在內容深度(du)和廣(guang)度(du)方(fang)面有(you)所欠缺(que)

結語:AI播客已成熱門賽道

近期,AI播(bo)客(ke)已經成為業內一條相對小眾、但獲得諸多(duo)企(qi)業押(ya)注(zhu)的(de)賽道。除了字節的(de)豆包AI播(bo)客(ke)之(zhi)外,前段時間,國內頭(tou)部播(bo)客(ke)平臺小宇(yu)宙已經利用MiniMax的(de)語音(yin)技術,內測(ce)了外語播(bo)客(ke)一鍵(jian)轉(zhuan)中文收聽功(gong)能。海(hai)外的(de)谷歌NotebookLM生成播(bo)客(ke)功(gong)能更是收獲一批忠實用戶。

中國(guo)擁(yong)有(you)(you)全球增長最快(kuai)的播(bo)(bo)客市(shi)場。2025年(nian),中文播(bo)(bo)客聽眾的數量預計將突破1.5億。AI播(bo)(bo)客有(you)(you)望通過給(gei)創作者提(ti)供便利、給(gei)消費者提(ti)供豐富的收(shou)聽選擇,進一(yi)步(bu)釋(shi)放這一(yi)市(shi)場的潛力。

我們也(ye)讓(rang)豆包將這篇文章(zhang)轉為了播客,一(yi)起來(lai)聽聽最終(zhong)的效(xiao)果吧。