
智東西(公眾號:zhidxcom)
編譯 | 程茜
編輯 | 李水青
智(zhi)東西8月29日消息(xi),今天凌晨(chen),OpenAI發(fa)布為(wei)開發(fa)人員打(da)造的(de)語音轉語音模型(xing)GPT-RealTime,并同步(bu)更新了包(bao)括遠程MCP服(fu)務器支持(chi)、圖像輸入和SIP(通過會話發(fa)起(qi)協議)電話呼叫支持(chi)的(de)API功能。
OpenAI稱這(zhe)是其(qi)迄(qi)今為止(zhi)最先進(jin)的(de)語音合成(cheng)模(mo)型,GPT-RealTime在遵循復雜指令(ling)、精(jing)確(que)調用工(gong)具(ju)以及生成(cheng)更自(zi)然(ran)、更具(ju)表現力的(de)語音方面有所改(gai)進(jin)。該模(mo)型可以自(zi)然(ran)朗讀重復的(de)字母(mu)、數字,無縫切換語言(yan),甚至可以捕捉笑聲等非語言(yan)信號。
今(jin)天OpenAI還發布了兩(liang)個新語音(yin)Cedar和Marin,它們將在Realtime API中獨家提供。
定價(jia)方面,通用版Realtime API和新的GPT-RealTime模型從(cong)今(jin)天起對所有(you)開(kai)發者開(kai)放,GPT-RealTime每(mei)(mei)百(bai)(bai)萬(wan)token音頻輸(shu)(shu)入價(jia)格(ge)為32美元(yuan),緩存輸(shu)(shu)入每(mei)(mei)百(bai)(bai)萬(wan)token為0.4美元(yuan),每(mei)(mei)百(bai)(bai)萬(wan)token音頻輸(shu)(shu)出價(jia)格(ge)64美元(yuan),GPT-RealTime相比(bi)gpt-4o-realtime-preview價(jia)格(ge)下調20%。
OpenAI增加了對(dui)對(dui)話(hua)上下(xia)文的(de)細粒度控(kong)制,允許開發者設(she)置智(zhi)能token限制,并(bing)一次截斷多個回合,顯著降低長會話(hua)的(de)成本。
去年(nian)10月,OpenAI發(fa)布了Realtime API的(de)公開(kai)測(ce)試版,至今已經有數千名開(kai)發(fa)者使用該(gai)API并(bing)提出建(jian)議。
但從OpenAI在社交平臺(tai)X的(de)評論區來看,有(you)用(yong)戶對(dui)這一新模型(xing)充滿期待(dai),稱語(yu)音應(ying)用(yong)將(jiang)變得更(geng)加有(you)趣,但也(ye)有(you)開(kai)發者反(fan)應(ying),模型(xing)的(de)聲音還是(shi)很像機器人,且舊的(de)語(yu)音角色聽起來只是(shi)稍(shao)微更(geng)具(ju)表現力。
一、能捕捉笑聲,無縫切換語言調整語氣
OpenAI針對GPT-RealTime的音(yin)頻質量(liang)、理解(jie)用戶指(zhi)令、遵循指(zhi)令等方面進行了(le)改進。
語(yu)(yu)音Agent想要讓用戶(hu)能持續對(dui)話(hua),模型需要像人類(lei)一樣帶(dai)有(you)語(yu)(yu)調、情感(gan)和節奏,以(yi)創造(zao)愉悅(yue)的對(dui)話(hua)體驗(yan)。博客(ke)中提到,GPT-RealTime可以(yi)產出更自然的高(gao)質量語(yu)(yu)音,并能遵循細粒度(du)的指令,例(li)如“快速專業地說話(hua)”或(huo)“用法(fa)國口音富有(you)同情心地說話(hua)”。
在理(li)解(jie)用戶指令(ling)方面(mian),GPT-RealTime可以(yi)捕捉笑聲等非語言(yan)線索(suo),在句子中切(qie)換語言(yan),并調整語氣。根(gen)據OpenAI內部評估(gu),該模型在西班(ban)牙語、中文、日語和法語等語言(yan)中,檢測電話號(hao)碼(ma)等的字母數(shu)字序(xu)列的準(zhun)確性也更高。
Big Bench Audio評估中,GPT-RealTime的(de)準確(que)率為82.8%,超過了(le)OpenAI 2024年12月發布的(de)舊模型。Big Bench Audio基準測試是一個用于評估支(zhi)持(chi)音頻(pin)輸(shu)入(ru)的(de)語言模型推理能力的(de)評估數據集。
在構建語音轉語音應用時(shi),開發(fa)者(zhe)會向模型(xing)提(ti)供一系列行為指令(ling)(ling)(ling),包括如(ru)何說話、在特定情況(kuang)下該(gai)說什么(me)(me)、該(gai)做(zuo)什么(me)(me)或不(bu)該(gai)做(zuo)什么(me)(me)。OpenAI專注于(yu)改(gai)進模型(xing)對這(zhe)些(xie)指令(ling)(ling)(ling)的(de)遵(zun)循程度(du),使(shi)(shi)得即(ji)使(shi)(shi)是微(wei)小的(de)指令(ling)(ling)(ling)也能為模型(xing)傳(chuan)遞(di)更多(duo)信息。
在(zai)衡量指令遵循(xun)準確(que)性的(de)MultiChallenge音(yin)(yin)頻基準測(ce)試中,GPT-RealTime得分為(wei)30.5%,相(xiang)較舊模型的(de)20.6%有顯著(zhu)提升。MultiChallenge評估大(da)模型在(zai)處理與人類的(de)多輪(lun)對話(hua)時的(de)表現(xian),OpenAI從測(ce)試題中篩選出適合音(yin)(yin)頻呈現(xian)的(de)子集,通過文本轉(zhuan)語音(yin)(yin)(TTS)技術將其轉(zhuan)換為(wei)語音(yin)(yin),進而制作(zuo)出本次評估的(de)音(yin)(yin)頻版(ban)本。
要構(gou)建(jian)一個(ge)具(ju)備語音(yin)轉(zhuan)語音(yin)模(mo)型的(de)強(qiang)大語音(yin)Agent,模(mo)型需(xu)要能夠在(zai)正(zheng)確的(de)時間調(diao)用正(zheng)確的(de)工具(ju)。OpenAI在(zai)三個(ge)維(wei)度上改進了(le)函(han)數(shu)調(diao)用:調(diao)用相關函(han)數(shu)、在(zai)適(shi)當的(de)時間調(diao)用函(han)數(shu)以及(ji)使(shi)用適(shi)當的(de)參(can)數(shu)調(diao)用函(han)數(shu)。在(zai)測量函(han)數(shu)調(diao)用性能的(de)ComplexFuncBench音(yin)頻(pin)評估(gu)中,GPT-RealTime得分66.5%,超過舊模(mo)型分數(shu)。而我們(men)在(zai)2024年(nian)12月發(fa)布的(de)模(mo)型得分為(wei)49.7%。
此外,OpenAI還改(gai)進了異步函數(shu)調用。長時間(jian)運(yun)行的函數(shu)調用將不再中斷會(hui)話(hua)(hua)流(liu)程,模(mo)型可(ke)以在(zai)等待結果時繼續流(liu)暢地(di)對話(hua)(hua)。此功能(neng)已在(zai)GPT-RealTime中原生提升支持,開發者無需(xu)更新代(dai)碼。
ComplexFuncBench測(ce)(ce)量模型處理(li)具(ju)有挑戰性(xing)的(de)函數調用(yong)(yong)任務(wu)的(de)能力。它(ta)在(zai)多(duo)步調用(yong)(yong)、推(tui)理(li)約束或(huo)隱式參數、處理(li)非(fei)常長的(de)輸入等場景(jing)中評估性(xing)能。我(wo)們(men)將原(yuan)始文本提示轉換為語音,以構建此評估來(lai)測(ce)(ce)試我(wo)們(men)的(de)模型。
二、保留語音細微差別,新增四大RealTime API新功能
與傳(chuan)統將語音轉(zhuan)(zhuan)文(wen)本和(he)文(wen)本轉(zhuan)(zhuan)語音的多模(mo)型鏈(lian)式流程不同,Realtime API通過單個(ge)模(mo)型和(he)API直接處理和(he)生成音頻,這減少了延遲,保留(liu)了語音中的細(xi)微差別,并(bing)使得其響應更(geng)自然、更(geng)具表(biao)現力。
RealTime API的新(xin)功(gong)能包括:
開發(fa)者可以通過在(zai)會(hui)話(hua)配置(zhi)中傳入遠程MCP服務器的URL在(zai)會(hui)話(hua)中啟用MCP支持。連接(jie)后(hou),API會(hui)自動(dong)處理(li)工具調用,無需(xu)開發(fa)者手(shou)動(dong)設(she)置(zhi)集成。
這種設置使開發者只(zhi)需將(jiang)會(hui)話指(zhi)向不同的MCP服務器,就立即可用。
圖(tu)像(xiang)輸入(ru)方面(mian),開發(fa)者可(ke)以(yi)在(zai)Realtime API會(hui)話(hua)中添加(jia)圖(tu)像(xiang)、照片和截圖(tu),與(yu)音頻或文本一起使用。現在(zai)模型可(ke)以(yi)基于用戶實(shi)際(ji)看(kan)到的內容來構建對話(hua),使用戶能夠提出諸如“你看(kan)到了什(shen)么?”或“閱讀此截圖(tu)中的文本”等問題。
與(yu)其將(jiang)圖(tu)像視為實時(shi)視頻(pin)流,系統更像是將(jiang)圖(tu)片(pian)添(tian)加到對話中。開(kai)發者的應用程序可以決(jue)定與(yu)模型共(gong)享哪(na)些(xie)圖(tu)像以及何(he)時(shi)共(gong)享,這樣就能控制模型看到什么以及何(he)時(shi)回(hui)應。
OpenAI還增加了使Realtime API更易于集(ji)成的功能,包括會話(hua)發(fa)起協議(SIP)支(zhi)持、可重用提示。
SIP支(zhi)持通過Realtime API直接連接開發者的應用程序到公共(gong)電(dian)話網(wang)絡、PBX系統(tong)、辦(ban)公電(dian)話和其他SIP終端(duan)。
可重用(yong)提示(shi)允(yun)許開(kai)發者保存和重用(yong)提,包含開(kai)發者消(xiao)息、工具、變量以及示(shi)例(li)用(yong)戶/助手消(xiao)息,且(qie)支持跨Realtime API會話(hua)使用(yong),與Responses API的使用(yong)邏輯一致(zhi)。
結語:設多層防護指南防止模型濫用
為了(le)防(fang)止實時(shi)語(yu)音(yin)對話被濫用(yong),Realtime API包含多層安全防(fang)護和緩(huan)解(jie)措施,OpenAI對Realtime API會(hui)話采(cai)用(yong)主動分類器,這(zhe)意味著如果檢測到某些(xie)對話違反了(le)有害內容指南,可以中止這(zhe)些(xie)對話。開發者還可以使用(yong)Agents SDK添加自己的額外安全防(fang)護措施。
當下,超逼真的(de)(de)實時語(yu)音(yin)(yin)對話已經(jing)展現出頗為廣(guang)闊的(de)(de)應用(yong)場景,豆包(bao)實時語(yu)音(yin)(yin)對話、百度(du)新(xin)推的(de)(de)數(shu)字員(yuan)工等,都將語(yu)音(yin)(yin)作為與用(yong)戶(hu)的(de)(de)主要交(jiao)互形(xing)式,再(zai)加上OpenAI此次發布的(de)(de)新(xin)語(yu)音(yin)(yin)轉語(yu)音(yin)(yin)模(mo)型(xing),也展現出更強的(de)(de)推理(li)能力(li)和更自然的(de)(de)語(yu)音(yin)(yin)表(biao)現力(li),使其能夠處理(li)復雜的(de)(de)多步驟(zou)請求,在不同賽道構建AI Agent。