智東西(公眾號:zhidxcom)
作者 | 韋世瑋
編輯 | 漠影

思必(bi)馳在(zai)AI智慧(hui)辦公賽道上正不斷玩出新花樣!

兩(liang)個(ge)月前的上海AWE(中國(guo)家(jia)電(dian)及消費電(dian)子(zi)博(bo)覽會)上,思必馳首次亮相了面向(xiang)智(zhi)慧辦公場(chang)景的新產品——會議(yi)魔方M1,具有(you)藍(lan)牙(ya)和(he)USB兩(liang)種連接方式、360°全向(xiang)麥克風拾(shi)音、智(zhi)能降(jiang)噪和(he)錄音轉文字等(deng)功能,大大滿足了各類(lei)辦公場(chang)景的會議(yi)需求(qiu)。

作為我國人工智能(neng)語(yu)音(yin)行業的獨角(jiao)獸,思必馳在這條賽(sai)道上已(yi)布(bu)局(ju)多年,構建了語(yu)音(yin)識(shi)別、聲紋識(shi)別、口語(yu)對話系統(tong)等(deng)一系列(lie)核心技術(shu),其自(zi)然語(yu)言交互(hu)解決(jue)方案(an)已(yi)落地車聯網、IoT及政務、金融等(deng)行業場景。

與(yu)此同時,思(si)(si)必馳長(chang)期(qi)以來(lai)也(ye)為許多合作伙伴提(ti)供了(le)會議場景下,聲音采(cai)集(ji)和處理的(de)軟硬(ying)件解決方(fang)(fang)案(an)。而會議魔方(fang)(fang)M1推(tui)出,也(ye)是思(si)(si)必馳將(jiang)這部分智能語(yu)音技術(shu)向更加專業的(de)方(fang)(fang)向集(ji)成拓展。

思必馳會議魔方背后有何黑科技?三大算法核心技術加持!

作為(wei)思必馳智能語(yu)音技術(shu)的集大成產品(pin)之一,會(hui)議魔(mo)方(fang)M1背后的技術(shu)城池(chi)是如(ru)何(he)構(gou)建的?能解(jie)決哪(na)些行(xing)業及用戶的痛點需求?未來產品(pin)迭代路(lu)徑是如(ru)何(he)規劃的?

為此,智(zhi)東西與思(si)必馳智(zhi)慧辦公(gong)業務負責(ze)人(ren)進行了(le)深入交流,在嘗試尋找上述答案的(de)同時(shi),也(ye)看到(dao)了(le)不少思(si)必馳打磨會議魔方系列背后的(de)思(si)路和閃光點。

一、三大核心技術加持,會議魔方的技術護城河

在深入交流之前,我們也親自體驗了一下會議魔方M1,看看使用它來進(jin)行遠程會議(yi)是(shi)不是(shi)真的那么(me)方便(bian)。

剛拿到會議魔方M1,我們感覺它比一臺iPhone 12要重一些,形狀是一個塔尖被削平的倒金字塔形立方體,重量只有260g,方便攜帶。

在一次業務周會(hui)(hui)中,我們(men)體(ti)驗(yan)了一下(xia)(xia)它在多(duo)人遠程(cheng)會(hui)(hui)議場景下(xia)(xia)的(de)(de)使(shi)用效果,并和手機進行(xing)了對(dui)比。參加遠程(cheng)會(hui)(hui)議的(de)(de)異(yi)地同事反饋,會(hui)(hui)議魔(mo)方的(de)(de)拾音(yin)(yin)效果明顯優于(yu)手機,對(dui)環境噪音(yin)(yin)的(de)(de)抑制能(neng)力很強,以往(wang)在遠程(cheng)會(hui)(hui)議中不可避免(mian)的(de)(de)鍵(jian)盤敲擊(ji)聲(sheng)(sheng)、開(kai)關門聲(sheng)(sheng)、以及空調運(yun)轉聲(sheng)(sheng)等,在使(shi)用會(hui)(hui)議魔(mo)方時,都沒有(you)聽見。與會(hui)(hui)發言者們(men)的(de)(de)聲(sheng)(sheng)音(yin)(yin)也始(shi)終(zhong)非(fei)常清晰,無論遠近,聽到的(de)(de)音(yin)(yin)量(liang)都幾乎一致(zhi),沒有(you)忽高(gao)忽低現象出現。

思必馳會議魔方背后有何黑科技?三大算法核心技術加持!

如果要使用會議魔方的錄音以及語音轉寫功能,在初次使用時,首先要下一個名為曉語聽聽APP,打開后根據軟件提示進行綁定。綁定成功后,直接點擊軟件下方的藍色加號開啟錄音,會議魔方M1就(jiu)會同步開啟錄音,記錄會議(yi)內容。

開始錄音一秒后,手機端的錄音工作界面就會開始出現實時轉文字的內容。遇到想要重點記住的內容時,我們只需要點擊APP錄音界面的“M一下,轉寫界面就會出現高亮部分,能更好地一眼區分哪里是用戶關注的會議重點。會議結束后,我們只需點擊會議魔方M1上方(fang)的結束(shu)錄(lu)音,手機端(duan)的轉寫(xie)工作也能很快結束(shu)。

思必馳會議魔方背后有何黑科技?三大算法核心技術加持!

從結果上來看,在我們長達3個小時的會議中,會議魔方M1除了(le)口(kou)語交(jiao)流(liu)中的少數同(tong)音詞(ci)、多意詞(ci)沒有識別準確(que)外(wai),其他(ta)大部(bu)分(fen)的對話(hua)內容都(dou)能準確(que)且流(liu)暢(chang)地轉寫完成。還可以快速生成會(hui)議記錄,一鍵分(fen)享給參會(hui)的同(tong)事。

之后,智東西在和思必馳智慧辦公業務負責人的溝通中了解到,會議魔方M1流暢的遠程會議體驗背后有三大核心算法技術,一是拾音,包括遠距離拾音;二是智能降噪;三是對語音進行識別和轉寫,整個過(guo)程也(ye)是溝通信息(xi)被數(shu)字(zi)化(hua)和智能化(hua)處理的過(guo)程。

1、拾音:5米內全方位清晰拾音

用戶(hu)所處的空(kong)間環境(jing)不同,給會(hui)議魔方M1帶來(lai)的拾(shi)音(yin)挑戰也不同。目前,會(hui)議魔方能(neng)夠做到在75分貝(bei)條件下,清晰拾(shi)取5米(mi)內的任何語音(yin)。

思必馳會議魔方背后有何黑科技?三大算法核心技術加持!

2、降噪:3項智能降噪核心

拾音后的降噪工作是一個大工程,涉及到(dao)噪聲(sheng)抑制、回聲(sheng)消除、增益(yi)放大等(deng)技術。

一方面,通(tong)常會議(yi)(yi)場景(jing)中也會存(cun)在許(xu)多噪(zao)音,包括會議(yi)(yi)室外有人說話、走動、敲鍵(jian)盤(pan),或是室內空(kong)調、風扇(shan)的(de)聲(sheng)(sheng)音,會議(yi)(yi)魔方M1則(ze)需要(yao)對這部分噪(zao)音進行(xing)噪(zao)聲(sheng)(sheng)抑制(zhi),把會議(yi)(yi)中的(de)人聲(sheng)(sheng)清(qing)晰(xi)地呈現出來。

另一方面,由于設備的揚聲(sheng)(sheng)器和(he)麥克(ke)風連接得很(hen)近,當人們在講(jiang)話(hua)過程中很(hen)容(rong)易(yi)出(chu)現回音,這也(ye)會影響到用戶的通(tong)話(hua)效果,這時就(jiu)需要對拾音內容(rong)進行回聲(sheng)(sheng)消除(chu)。

同時在遠距離(li)拾(shi)音(yin)過程中(zhong),有些說話(hua)人離(li)麥克風較遠,會(hui)議(yi)魔方M1也需要對這部(bu)分聲(sheng)音(yin)進(jin)行增益放大(da)處(chu)理。

思必馳會議魔方背后有何黑科技?三大算法核心技術加持!

3、轉寫:實際會議場景中準確率達95%

正如(ru)前面的(de)體驗,目前會議魔方M1在轉寫方面有兩項核心功(gong)能,一(yi)是區分(fen)說話人,根據(ju)聲紋和(he)音色的(de)不(bu)同,讓轉寫文字(zi)能按不(bu)同說話人段落顯(xian)示;二是文本智能校正,識別口語中常出(chu)現的(de)反復、停頓等表達(da),讓轉寫文本更加流暢。

此外(wai),會議魔方M1通用的轉寫(xie)準確率(lv)約95%,還(huan)支持(chi)中英文混(hun)合識別、離線轉寫(xie)分析(xi)等功能。

思必馳會議魔方背后有何黑科技?三大算法核心技術加持!

二、遠程會議需求爆發背后,溝通的數字化與智能化

實(shi)際上,會議魔方(fang)M1的(de)誕生,離不開思必馳對智慧辦公場景(jing)深刻(ke)觀(guan)察。

思必馳(chi)發(fa)現,現在(zai)的(de)企業會(hui)議場景中經(jing)常會(hui)遇到一個尷尬(ga)情況(kuang),那就是常常聽不(bu)清(qing)會(hui)議內容或是需要喊(han)話交流,一定(ding)程度(du)上影響了(le)會(hui)議的(de)質量和效率(lv)。

另一方面(mian),企業日常中有(you)許多會議或面(mian)對面(mian)的溝通,都沒有(you)被(bei)進一步的數字化或智能化處理,難以(yi)對會議中的一些價值內容(rong)進行深(shen)入挖掘。

思必馳會議魔方背后有何黑科技?三大算法核心技術加持!

“那思(si)必馳作為專業語(yu)音和語(yu)義技術(shu)的(de)(de)(de)企業,能夠解決(jue)其(qi)中(zhong)的(de)(de)(de)一些關鍵點。”負(fu)責人解釋,這也是思(si)必馳做(zuo)會議魔方M1的(de)(de)(de)優(you)勢所在。

首先(xian)是思必(bi)馳(chi)的(de)拾音和智能降噪技(ji)術,能夠幫助企業解決聲音的(de)質量問題,讓(rang)用戶(hu)不管是在小型還是大型會議(yi)場景下都(dou)能清晰交流。其次是思必(bi)馳(chi)的(de)語音識別和轉寫(xie)技(ji)術,能夠實現(xian)溝通的(de)數字化。

同時,將一場會(hui)議面對(dui)面溝通的所有語音轉成(cheng)文字(zi),能讓用戶快(kuai)速去獲得整個會(hui)議的信息,再通過(guo)機器學習技術(shu)對(dui)信息進(jin)行結(jie)構(gou)化處理(li),從而實(shi)現會(hui)議效率和內容價值的進(jin)一步提升(sheng)。

“我們(men)外部環(huan)(huan)境(jing)的變化(hua),疫情的變化(hua)也導致越來越多(duo)人需(xu)要遠(yuan)程(cheng)或在家(jia)辦公。”負責(ze)人補充,在這個(ge)環(huan)(huan)境(jing)下還(huan)有另一個(ge)細分場(chang)(chang)景,那就是家(jia)里或咖啡廳場(chang)(chang)景下的個(ge)人設備(bei)需(xu)求,能夠讓用戶的遠(yuan)程(cheng)溝通更(geng)加清晰(xi),并且還(huan)能實時記錄交(jiao)流內容。

而這些都是(shi)思必馳決定(ding)研發(fa)會議魔方(fang)M1的重要出發(fa)點。

三、千億規模藍海市場下,智能會議業務的創新邏輯

目前思必馳面對整個會議場景的思路是構建一個終端設備+云服務的生態模式,這也是發展的核心,具體(ti)到(dao)產品業務(wu)的拓(tuo)展(zhan)大致(zhi)有三類(lei)方向。

一是思必(bi)(bi)馳在錄(lu)音采(cai)(cai)集方面已經做(zuo)了單(dan)款采(cai)(cai)集設備(bei)(bei),但適合小型(xing)、中型(xing)和大(da)型(xing)等各類會議場景的采(cai)(cai)集設備(bei)(bei)也存在不同區別,而這個方面思必(bi)(bi)馳會繼續做(zuo)縱(zong)深拓展,做(zuo)得更專業。

二是從橫向來看(kan),為了給用戶帶來更(geng)豐富便捷的智能(neng)會議體驗,思必馳也將選擇(ze)通過(guo)深(shen)度合作的方(fang)式,補全多模態(tai)交互的產品組合。

三是所有傳統的(de)會議(yi)設(she)備都能(neng)(neng)和(he)思(si)必馳的(de)語音(yin)轉寫終端做(zuo)配合,將傳統設(she)備變成一個也能(neng)(neng)智能(neng)(neng)語音(yin)轉寫的(de)會議(yi)設(she)備。

思必馳會議魔方背后有何黑科技?三大算法核心技術加持!

除此之外(wai),未來(lai)會(hui)議魔(mo)方M1還需繼續打磨和優化,這主要體現(xian)在(zai)算(suan)法和軟件兩個層面。

算(suan)法方面,會議(yi)魔(mo)(mo)方的智能降噪(zao)算(suan)法技術將實現更大突破和提升(sheng)。軟件的安全(quan)性(xing)(xing)、易用性(xing)(xing)和可擴展性(xing)(xing)也是(shi)思必馳接下來重點優化(hua)的方向。尤(you)其(qi)是(shi)會議(yi)魔(mo)(mo)方主要面向企業(ye)用戶,對(dui)產品的安全(quan)性(xing)(xing)要求更為嚴(yan)格。

在可拓展性方面(mian),思(si)必(bi)馳(chi)在未來也(ye)將推出針對大(da)型會議的產(chan)品,實(shi)現多個設備的互聯互通,從而(er)拓展產(chan)品的使(shi)用空間。而(er)在信息(xi)化(hua)(hua)上,思(si)必(bi)馳(chi)表示也(ye)將面(mian)向(xiang)多人協作場景提供更多軟(ruan)件服務,特別是利用到語義(yi)識別或關鍵信息(xi)提取等(deng)技術,與企業化(hua)(hua)流程相結合,目標是降低企業的運營成本。

結語:遠程辦公浪潮爆發,AI語音賽道的機遇和挑戰

過去一年的(de)(de)疫情影響(xiang)下,云辦(ban)(ban)公(gong)、語音視頻會議(yi)等(deng)辦(ban)(ban)公(gong)方式逐漸成(cheng)為(wei)大(da)多數人(ren)的(de)(de)常態,徹底點燃了(le)智能辦(ban)(ban)公(gong)行業(ye)的(de)(de)發展浪潮。

盡管在后疫情時代(dai)下(xia)(xia),人(ren)們(men)的(de)辦公方式(shi)也有所轉變(bian),但企業對辦公效率智能化、數字(zi)化的(de)需求已成行業的(de)一(yi)(yi)大趨勢,越(yue)來越(yue)多的(de)玩家也抓(zhua)住機會(hui)入(ru)局,想(xiang)著要(yao)分一(yi)(yi)杯羹。在這(zhe)一(yi)(yi)市場浪潮下(xia)(xia),思(si)必馳也為(wei)行業的(de)創新發(fa)展提供了一(yi)(yi)個重要(yao)思(si)路。

歸根(gen)結(jie)底,這也是(shi)一場技(ji)術與企(qi)業實現更深入結(jie)合的關(guan)鍵階段。相信在(zai)未來,隨(sui)著人們(men)利(li)用(yong)語音(yin)技(ji)術提取和挖(wa)掘(jue)信息價值形成一個成熟方(fang)法論(lun),也將能(neng)廣泛地(di)拓展到政務(wu)、醫(yi)療等更多細分場景,讓(rang)各行各業都能(neng)更好(hao)地(di)實現降(jiang)本(ben)增(zeng)效。