OpenAI杀入语音模型大战！祭出最强GPT-RealTime，加量还降价

智東西（公眾號：zhidxcom）
編譯 | 程茜
編輯 | 李水青

智(zhi)東西8月29日消息(xi)，今天凌晨(chen)，OpenAI發(fa)布為(wei)開發(fa)人員打(da)造的(de)語音轉語音模型(xing)GPT-RealTime，并同步(bu)更新了包(bao)括遠程MCP服(fu)務器支持(chi)、圖像輸入和SIP（通過會話發(fa)起(qi)協議）電話呼叫支持(chi)的(de)API功能。

OpenAI稱這(zhe)是其(qi)迄(qi)今為止(zhi)最先進(jin)的(de)語音合成(cheng)模(mo)型，GPT-RealTime在遵循復雜指令(ling)、精(jing)確(que)調用工(gong)具(ju)以及生成(cheng)更自(zi)然(ran)、更具(ju)表現力的(de)語音方面有所改(gai)進(jin)。該模(mo)型可以自(zi)然(ran)朗讀重復的(de)字母(mu)、數字，無縫切換語言(yan)，甚至可以捕捉笑聲等非語言(yan)信號。

今(jin)天OpenAI還發布了兩(liang)個新語音(yin)Cedar和Marin，它們將在Realtime API中獨家提供。

定價(jia)方面，通用版Realtime API和新的GPT-RealTime模型從(cong)今(jin)天起對所有(you)開(kai)發者開(kai)放，GPT-RealTime每(mei)(mei)百(bai)(bai)萬(wan)token音頻輸(shu)(shu)入價(jia)格(ge)為32美元(yuan)，緩存輸(shu)(shu)入每(mei)(mei)百(bai)(bai)萬(wan)token為0.4美元(yuan)，每(mei)(mei)百(bai)(bai)萬(wan)token音頻輸(shu)(shu)出價(jia)格(ge)64美元(yuan)，GPT-RealTime相比(bi)gpt-4o-realtime-preview價(jia)格(ge)下調20%。

OpenAI增加了對(dui)對(dui)話(hua)上下(xia)文的(de)細粒度控(kong)制，允許開發者設(she)置智(zhi)能token限制，并(bing)一次截斷多個回合，顯著降低長會話(hua)的(de)成本。

去年(nian)10月，OpenAI發(fa)布了Realtime API的(de)公開(kai)測(ce)試版，至今已經有數千名開(kai)發(fa)者使用該(gai)API并(bing)提出建(jian)議。

但從OpenAI在社交平臺(tai)X的(de)評論區來看，有(you)用(yong)戶對(dui)這一新模型(xing)充滿期待(dai)，稱語(yu)音應(ying)用(yong)將(jiang)變得更(geng)加有(you)趣，但也(ye)有(you)開(kai)發者反(fan)應(ying)，模型(xing)的(de)聲音還是(shi)很像機器人，且舊的(de)語(yu)音角色聽起來只是(shi)稍(shao)微更(geng)具(ju)表現力。

OpenAI殺入語音模型大戰！祭出最強GPT-RealTime，加量還降價

一、能捕捉笑聲，無縫切換語言調整語氣

OpenAI針對GPT-RealTime的音(yin)頻質量(liang)、理解(jie)用戶指(zhi)令、遵循指(zhi)令等方面進行了(le)改進。

語(yu)(yu)音Agent想要讓用戶(hu)能持續對(dui)話(hua)，模型需要像人類(lei)一樣帶(dai)有(you)語(yu)(yu)調、情感(gan)和節奏，以(yi)創造(zao)愉悅(yue)的對(dui)話(hua)體驗(yan)。博客(ke)中提到，GPT-RealTime可以(yi)產出更自然的高(gao)質量語(yu)(yu)音，并能遵循細粒度(du)的指令，例(li)如“快速專業地說話(hua)”或(huo)“用法(fa)國口音富有(you)同情心地說話(hua)”。

在理(li)解(jie)用戶指令(ling)方面(mian)，GPT-RealTime可以(yi)捕捉笑聲等非語言(yan)線索(suo)，在句子中切(qie)換語言(yan)，并調整語氣。根(gen)據OpenAI內部評估(gu)，該模型在西班(ban)牙語、中文、日語和法語等語言(yan)中，檢測電話號(hao)碼(ma)等的字母數(shu)字序(xu)列的準(zhun)確性也更高。

Big Bench Audio評估中，GPT-RealTime的(de)準確(que)率為82.8%，超過了(le)OpenAI 2024年12月發布的(de)舊模型。Big Bench Audio基準測試是一個用于評估支(zhi)持(chi)音頻(pin)輸(shu)入(ru)的(de)語言模型推理能力的(de)評估數據集。

OpenAI殺入語音模型大戰！祭出最強GPT-RealTime，加量還降價

在構建語音轉語音應用時(shi)，開發(fa)者(zhe)會向模型(xing)提(ti)供一系列行為指令(ling)(ling)(ling)，包括如(ru)何說話、在特定情況(kuang)下該(gai)說什么(me)(me)、該(gai)做(zuo)什么(me)(me)或不(bu)該(gai)做(zuo)什么(me)(me)。OpenAI專注于(yu)改(gai)進模型(xing)對這(zhe)些(xie)指令(ling)(ling)(ling)的(de)遵(zun)循程度(du)，使(shi)(shi)得即(ji)使(shi)(shi)是微(wei)小的(de)指令(ling)(ling)(ling)也能為模型(xing)傳(chuan)遞(di)更多(duo)信息。

在(zai)衡量指令遵循(xun)準確(que)性的(de)MultiChallenge音(yin)(yin)頻基準測(ce)試中，GPT-RealTime得分為(wei)30.5%，相(xiang)較舊模型的(de)20.6%有顯著(zhu)提升。MultiChallenge評估大(da)模型在(zai)處理與人類的(de)多輪(lun)對話(hua)時的(de)表現(xian)，OpenAI從測(ce)試題中篩選出適合音(yin)(yin)頻呈現(xian)的(de)子集，通過文本轉(zhuan)語音(yin)(yin)（TTS）技術將其轉(zhuan)換為(wei)語音(yin)(yin)，進而制作(zuo)出本次評估的(de)音(yin)(yin)頻版(ban)本。

OpenAI殺入語音模型大戰！祭出最強GPT-RealTime，加量還降價

要構(gou)建(jian)一個(ge)具(ju)備語音(yin)轉(zhuan)語音(yin)模(mo)型的(de)強(qiang)大語音(yin)Agent，模(mo)型需(xu)要能夠在(zai)正(zheng)確的(de)時間調(diao)用正(zheng)確的(de)工具(ju)。OpenAI在(zai)三個(ge)維(wei)度上改進了(le)函(han)數(shu)調(diao)用：調(diao)用相關函(han)數(shu)、在(zai)適(shi)當的(de)時間調(diao)用函(han)數(shu)以及(ji)使(shi)用適(shi)當的(de)參(can)數(shu)調(diao)用函(han)數(shu)。在(zai)測量函(han)數(shu)調(diao)用性能的(de)ComplexFuncBench音(yin)頻(pin)評估(gu)中，GPT-RealTime得分66.5%，超過舊模(mo)型分數(shu)。而我們(men)在(zai)2024年(nian)12月發(fa)布的(de)模(mo)型得分為(wei)49.7%。

此外，OpenAI還改(gai)進了異步函數(shu)調用。長時間(jian)運(yun)行的函數(shu)調用將不再中斷會(hui)話(hua)(hua)流(liu)程，模(mo)型可(ke)以在(zai)等待結果時繼續流(liu)暢地(di)對話(hua)(hua)。此功能(neng)已在(zai)GPT-RealTime中原生提升支持，開發者無需(xu)更新代(dai)碼。

ComplexFuncBench測(ce)(ce)量模型處理(li)具(ju)有挑戰性(xing)的(de)函數調用(yong)(yong)任務(wu)的(de)能力。它(ta)在(zai)多(duo)步調用(yong)(yong)、推(tui)理(li)約束或(huo)隱式參數、處理(li)非(fei)常長的(de)輸入等場景(jing)中評估性(xing)能。我(wo)們(men)將原(yuan)始文本提示轉換為語音，以構建此評估來(lai)測(ce)(ce)試我(wo)們(men)的(de)模型。

OpenAI殺入語音模型大戰！祭出最強GPT-RealTime，加量還降價

二、保留語音細微差別，新增四大RealTime API新功能

與傳(chuan)統將語音轉(zhuan)(zhuan)文(wen)本和(he)文(wen)本轉(zhuan)(zhuan)語音的多模(mo)型鏈(lian)式流程不同，Realtime API通過單個(ge)模(mo)型和(he)API直接處理和(he)生成音頻，這減少了延遲，保留(liu)了語音中的細(xi)微差別，并(bing)使得其響應更(geng)自然、更(geng)具表(biao)現力。

RealTime API的新(xin)功(gong)能包括：

開發(fa)者可以通過在(zai)會(hui)話(hua)配置(zhi)中傳入遠程MCP服務器的URL在(zai)會(hui)話(hua)中啟用MCP支持。連接(jie)后(hou)，API會(hui)自動(dong)處理(li)工具調用，無需(xu)開發(fa)者手(shou)動(dong)設(she)置(zhi)集成。

這種設置使開發者只(zhi)需將(jiang)會(hui)話指(zhi)向不同的MCP服務器，就立即可用。

圖(tu)像(xiang)輸入(ru)方面(mian)，開發(fa)者可(ke)以(yi)在(zai)Realtime API會(hui)話(hua)中添加(jia)圖(tu)像(xiang)、照片和截圖(tu)，與(yu)音頻或文本一起使用。現在(zai)模型可(ke)以(yi)基于用戶實(shi)際(ji)看(kan)到的內容來構建對話(hua)，使用戶能夠提出諸如“你看(kan)到了什(shen)么？”或“閱讀此截圖(tu)中的文本”等問題。

與(yu)其將(jiang)圖(tu)像視為實時(shi)視頻(pin)流，系統更像是將(jiang)圖(tu)片(pian)添(tian)加到對話中。開(kai)發者的應用程序可以決(jue)定與(yu)模型共(gong)享哪(na)些(xie)圖(tu)像以及何(he)時(shi)共(gong)享，這樣就能控制模型看到什么以及何(he)時(shi)回(hui)應。

OpenAI還增加了使Realtime API更易于集(ji)成的功能，包括會話(hua)發(fa)起協議（SIP）支(zhi)持、可重用提示。

SIP支(zhi)持通過Realtime API直接連接開發者的應用程序到公共(gong)電(dian)話網(wang)絡、PBX系統(tong)、辦(ban)公電(dian)話和其他SIP終端(duan)。

可重用(yong)提示(shi)允(yun)許開(kai)發者保存和重用(yong)提，包含開(kai)發者消(xiao)息、工具、變量以及示(shi)例(li)用(yong)戶/助手消(xiao)息，且(qie)支持跨Realtime API會話(hua)使用(yong)，與Responses API的使用(yong)邏輯一致(zhi)。

結語：設多層防護指南防止模型濫用

為了(le)防(fang)止實時(shi)語(yu)音(yin)對話被濫用(yong)，Realtime API包含多層安全防(fang)護和緩(huan)解(jie)措施，OpenAI對Realtime API會(hui)話采(cai)用(yong)主動分類器，這(zhe)意味著如果檢測到某些(xie)對話違反了(le)有害內容指南，可以中止這(zhe)些(xie)對話。開發者還可以使用(yong)Agents SDK添加自己的額外安全防(fang)護措施。

當下，超逼真的(de)(de)實時語(yu)音(yin)(yin)對話已經(jing)展現出頗為廣(guang)闊的(de)(de)應用(yong)場景，豆包(bao)實時語(yu)音(yin)(yin)對話、百度(du)新(xin)推的(de)(de)數(shu)字員(yuan)工等，都將語(yu)音(yin)(yin)作為與用(yong)戶(hu)的(de)(de)主要交(jiao)互形(xing)式，再(zai)加上OpenAI此次發布的(de)(de)新(xin)語(yu)音(yin)(yin)轉語(yu)音(yin)(yin)模(mo)型(xing)，也展現出更強的(de)(de)推理(li)能力(li)和更自然的(de)(de)語(yu)音(yin)(yin)表(biao)現力(li)，使其能夠處理(li)復雜的(de)(de)多步驟(zou)請求，在不同賽道構建AI Agent。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、能捕捉笑聲，無縫切換語言調整語氣

二、保留語音細微差別，新增四大RealTime API新功能

結語：設多層防護指南防止模型濫用

相關推薦