智東西(公眾號:zhidxcom)
編輯?| 云鵬

智(zhi)(zhi)(zhi)東(dong)西7月18日(ri)消(xiao)息,近日(ri),由智(zhi)(zhi)(zhi)東(dong)西和(he)(he)智(zhi)(zhi)(zhi)東(dong)西公開課主辦(ban)的GTIC 2022全球AIoT智(zhi)(zhi)(zhi)能(neng)家居(ju)峰(feng)會(hui)(以下簡稱AIoT智(zhi)(zhi)(zhi)能(neng)家居(ju)峰(feng)會(hui))正(zheng)式(shi)舉辦(ban),10位行業重磅大咖(ka)就AIoT智(zhi)(zhi)(zhi)能(neng)家居(ju)的技術突破、創新應用和(he)(he)行業展望展開了精彩的深度探討。

峰(feng)會以(yi)“新變量 新未來”為主(zhu)題(ti),采用線(xian)上(shang)形(xing)式進行,在全(quan)網16個渠(qu)道同步直(zhi)播,線(xian)上(shang)觀(guan)看人數達到了90多萬(wan)人。

當前,家居(ju)場景是AIoT的重(zhong)要落地方向(xiang)之(zhi)一,隨著智能化技術的快速發展(zhan),技術邊(bian)界(jie)不斷被(bei)突破,語音(yin)在新(xin)型人機交互(hu)入口中的作用越來越明顯。

在本(ben)次峰(feng)會上,阿里(li)巴巴達(da)摩(mo)院語(yu)音(yin)AIoT產研(yan)負責人(ren)田彪(biao)博士(shi)以《智能家居(ju)環境復雜聲學挑戰下的語(yu)音(yin)交互技(ji)術》為主(zhu)題進行(xing)了演講,全面介紹了阿里(li)巴巴達(da)摩(mo)院在相關重要技(ji)術方向的思(si)考和(he)進展(zhan)。

田(tian)彪博士以(yi)電視、音(yin)箱和(he)室內機器人等家居場景下典型產品(pin)的(de)(de)(de)研(yan)發(fa)實踐為例(li),介紹了聲學(xue)設(she)計、麥(mai)克風陣列處理、遠場語(yu)音(yin)交互、語(yu)音(yin)模組和(he)芯片(pian)等技術(shu)的(de)(de)(de)設(she)計思想與(yu)方案架構(gou),如何通過技術(shu)的(de)(de)(de)進步給(gei)用(yong)戶帶來(lai)更好更便捷的(de)(de)(de)自然語(yu)音(yin)交互體驗。同時(shi),他結合產業落地(di)情(qing)況與(yu)研(yan)究進展介紹了下一代(dai)的(de)(de)(de)產品(pin)和(he)技術(shu)演進趨勢(shi)。

以下為田彪演講實錄整理:

我今天(tian)演講的主題是《智(zhi)能家(jia)居(ju)環境復(fu)雜聲學(xue)挑戰下(xia)的語(yu)音交互(hu)技術(shu)》,主要會講三(san)個部(bu)分,第(di)一部(bu)分,在(zai)智(zhi)能家(jia)居(ju)情況下(xia),語(yu)音交互(hu)核心技術(shu),包括(kuo)技術(shu)產品化的情況,前(qian)面會講一下(xia)復(fu)雜聲學(xue)場景的定(ding)義(yi)還有模(mo)式化的概(gai)念。

第二部(bu)分主要會講解一下我們(men)在語音AI這個方面,在算法層面核心的技術理(li)念和進展(zhan)。第三(san)個我會把我們(men)整個產品化(hua)的應用案例跟大家做介紹,同(tong)時會對我們(men)后面的技術做展(zhan)望。

不僅(jin)是家,包括公共(gong)空(kong)間,在(zai)整個語音(yin)交(jiao)(jiao)互的(de)過(guo)程(cheng)中(zhong)(zhong)都會受到很多聲學的(de)挑戰性因素(su)的(de)影響(xiang),比如洗衣(yi)機、掃地(di)機器(qi)人。家居過(guo)程(cheng)中(zhong)(zhong)噪聲,對智能音(yin)箱或者電視上的(de)語音(yin)交(jiao)(jiao)互,會造成噪聲影響(xiang)。

阿里達摩院田彪:如何用“模組化”解決AI語音場景“碎片化”痛點?

除了噪(zao)聲之(zhi)外,有混(hun)響(xiang)(xiang)的(de)影(ying)(ying)響(xiang)(xiang),包括干擾,因為家里可能有很多(duo)人,所以整個場景(jing)下,產(chan)品都會(hui)受到(dao)聲學因素的(de)影(ying)(ying)響(xiang)(xiang)。

在(zai)車里(li)面、家里(li)面,更(geng)多的就是(shi)遠角方向性(xing)干擾會占比會更(geng)多一點。車里(li)面整個(ge)空間會小一點,它擴散場(chang)的噪聲(sheng)會強,但是(shi)混(hun)響會比較小。

我(wo)們在(zai)公共空間,混響也很高,整個(ge)擴散場的(de)噪聲(sheng)也很強,在(zai)不(bu)同(tong)(tong)場景下(xia),聲(sheng)學挑戰的(de)每個(ge)因素(su)的(de)重要性是不(bu)一(yi)樣的(de),所以我(wo)們的(de)技術(shu)方(fang)案,在(zai)算法(fa)層面對于不(bu)同(tong)(tong)因素(su)會有(you)不(bu)同(tong)(tong)的(de)算法(fa)處理,整個(ge)算法(fa)會出現碎片化,應(ying)用方(fang)案會出現不(bu)同(tong)(tong)的(de)設計。

具體(ti)來講(jiang),會(hui)(hui)涉及(ji)到具體(ti)應用(yong)過程中因(yin)素的(de)影響,比如(ru)麥克風陣列的(de)選擇(ze),數(shu)字麥還是模(mo)擬麥,算法(fa)(fa)上(shang)復雜(za)度更(geng)高還是復雜(za)度更(geng)低,跟算法(fa)(fa)資源(yuan)、芯(xin)片(pian)資源(yuan)都(dou)密切相關,這就會(hui)(hui)涉及(ji)到芯(xin)片(pian)的(de)選型、對(dui)于功耗的(de)控制、對(dui)于用(yong)戶(hu)數(shu)據安全的(de)保障(zhang),還涉及(ji)到云(yun)上(shang)的(de)AI能力的(de)對(dui)接(jie),怎么去選擇(ze)不(bu)同的(de)云(yun)的(de)能力,方案(an)碎片(pian)化會(hui)(hui)比較嚴重。

算法(fa)、芯片、云,不同的(de)(de)環節結合就沒(mei)那(nei)么(me)(me)緊(jin)密,會比較零散零散,這樣雖然(ran)很容易拼起來,但整個方案的(de)(de)語(yu)音交互體驗就沒(mei)有那(nei)么(me)(me)好。整個產(chan)品開(kai)發(fa)的(de)(de)過程就會有更多的(de)(de)困難,進度也會受(shou)一定的(de)(de)影響。

現在整(zheng)個行業都在做類似的(de)(de)(de)事情(qing),就是(shi)怎么把聲學的(de)(de)(de)技術硬件做模組化的(de)(de)(de)設計,使得整(zheng)個語(yu)音交互端側的(de)(de)(de)核(he)心鏈(lian)路(lu)能夠實現統一的(de)(de)(de)封裝,這樣會使得整(zheng)個方案進入(ru)平臺化的(de)(de)(de)狀態。

阿里達摩院田彪:如何用“模組化”解決AI語音場景“碎片化”痛點?

這(zhe)(zhe)樣與硬件相關的(de)(de)技術和經驗(yan)能(neng)夠以(yi)統一(yi)的(de)(de)形式(shi)來被沉淀下來,客戶去(qu)集成語音交(jiao)互能(neng)力的(de)(de)時(shi)候,能(neng)夠使用標(biao)準的(de)(de)接口跟API去(qu)對接,能(neng)夠大幅(fu)降低語音AI能(neng)力開發的(de)(de)難度,同時(shi)在這(zhe)(zhe)個上面也(ye)可以(yi)進行二次的(de)(de)開發,更好的(de)(de)去(qu)滿足特定產品的(de)(de)需求。

我們核心的產品形態會(hui)是(shi)語音交互(hu)模(mo)組,后(hou)面(mian)我會(hui)再更細(xi)節的去講一(yi)下,我們阿里云AI這塊整(zheng)個的技術棧,整(zheng)個語音交互(hu)鏈路(lu)都會(hui)去設計,包括端上的信號的處理、回聲消除、降噪波束(shu)形成(cheng)、聲源定位(wei),包含端側的喚醒(xing)命令(ling)值、快捷指(zhi)令(ling),包括硬(ying)(ying)件(jian)層面(mian)聲學硬(ying)(ying)件(jian)的設計跟服務。

阿里達摩院田彪:如何用“模組化”解決AI語音場景“碎片化”痛點?

云端上有很多我(wo)們傳(chuan)統的(de)(de)(de)語(yu)義理解、對話管理、語(yu)音合成、聲紋識別,在(zai)這(zhe)個過程中我(wo)們會聚焦在(zai)核心的(de)(de)(de)技術(shu)(shu)方(fang)向(xiang)上,持續的(de)(de)(de)去投入跟建設,盡量(liang)去推動技術(shu)(shu)邊界的(de)(de)(de)擴展、技術(shu)(shu)深度的(de)(de)(de)提升。

今天我(wo)(wo)(wo)會更多(duo)的去講(jiang)我(wo)(wo)(wo)們(men)(men)在端(duan)上信號處理(li)相關的算(suan)法的理(li)念(nian)跟(gen)方(fang)案,設計就會使得(de)我(wo)(wo)(wo)們(men)(men)整體(ti)上對(dui)于復雜聲學因(yin)素(su)的影(ying)響,能(neng)夠盡(jin)量去降低整個(ge)算(suan)法的影(ying)響效(xiao)果,整個(ge)用戶體(ti)驗(yan)也(ye)(ye)會變好。我(wo)(wo)(wo)們(men)(men)在聲學前(qian)端(duan)有(you)三個(ge)核心(xin)理(li)念(nian),也(ye)(ye)有(you)對(dui)應的技術方(fang)案。

首先我們要(yao)去解決前端(duan)處理(li),包(bao)括回聲(sheng)消除(chu)、噪聲(sheng)降(jiang)噪、自(zi)(zi)動增益(yi)控(kong)制,傳統的(de)(de)(de)(de)(de)三A技術都是(shi)基于自(zi)(zi)適應濾波信號處理(li)的(de)(de)(de)(de)(de)方法(fa)去做(zuo)的(de)(de)(de)(de)(de),在現在這(zhe)個(ge)時(shi)代,我們更多的(de)(de)(de)(de)(de)會去結合信號處理(li)的(de)(de)(de)(de)(de)濾波,以(yi)及我們基于深度學習(xi)模(mo)型去做(zuo)統一的(de)(de)(de)(de)(de)方案,這(zhe)個(ge)是(shi)我們大的(de)(de)(de)(de)(de)理(li)念,把回聲(sheng)消除(chu)的(de)(de)(de)(de)(de)線(xian)(xian)性(xing)部分(fen),后(hou)處理(li)部分(fen)跟降(jiang)噪的(de)(de)(de)(de)(de)部分(fen),還(huan)包(bao)括自(zi)(zi)動增益(yi)控(kong)制的(de)(de)(de)(de)(de)部分(fen),使用 hybrid的(de)(de)(de)(de)(de)架構,去把它融(rong)合,發揮模(mo)型的(de)(de)(de)(de)(de)非線(xian)(xian)性(xing)建模(mo)的(de)(de)(de)(de)(de)能(neng)力,以(yi)及自(zi)(zi)適應濾波對環境對資源開銷(xiao)小的(de)(de)(de)(de)(de)優勢。

整體而言,這個(ge)方案在(zai)(zai)我們的(de)很多的(de)模(mo)組對外(wai)輸出方案上(shang)(shang)都(dou)得到(dao)(dao)了實現(xian),也能看(kan)到(dao)(dao)對于(yu)傳統的(de)信(xin)號處(chu)理算法技(ji)術(shu)(shu)有非常顯著的(de)提升。相關的(de)技(ji)術(shu)(shu)方案,我們之前也參加國際比(bi)賽,拿到(dao)(dao)不(bu)錯的(de)成績。看(kan)方案屬于(yu)國際上(shang)(shang)現(xian)在(zai)(zai)比(bi)較(jiao)前沿的(de)技(ji)術(shu)(shu)架構。

第二(er)部(bu)分(fen),我們會基于盲(mang)源(yuan)分(fen)離的方案(an)去把(ba)混響回(hui)聲(sheng)消除、聲(sheng)源(yuan)分(fen)離,都通過盲(mang)源(yuan)分(fen)離理論(lun)去統一起來。

同(tong)時我們(men)在這(zhe)一塊(kuai)不僅(jin)會把前(qian)(qian)端(duan)的不同(tong)任務通過(guo)統一的框架去處理,也會跟語音喚(huan)醒去做進一步(bu)的聯合,使(shi)得喚(huan)醒的信息能夠(gou)反(fan)饋到(dao)前(qian)(qian)端(duan)來,能夠(gou)指導前(qian)(qian)端(duan),讓盲源分離能夠(gou)處理得更好(hao)。

這樣(yang)(yang)的技(ji)術方(fang)案(an)對于(yu)信道(dao)相關沒有(you)做(zuo)太多(duo)的假(jia)設,不需要有(you)更多(duo)的經驗(yan)的要求,這樣(yang)(yang)就使得我們整個方(fang)案(an)非常(chang)適用于(yu)小(xiao)的陣列,也更容易被各種各樣(yang)(yang)的設備去集成,同時(shi)在各種場(chang)景下有(you)非常(chang)好的適配性。

整(zheng)體上從技(ji)術(shu)核心(xin)層面,使得我們整(zheng)個算法方案有(you)很強的(de)適配性,能(neng)夠幫助我們去(qu)解決(jue)前面說(shuo)的(de)常見的(de)技(ji)術(shu)方案碎片化(hua)問題(ti)。

第三(san)就是(shi)說進一(yi)步的(de)(de)(de)統(tong)一(yi)融合,會(hui)把視(shi)覺跟聽(ting)覺的(de)(de)(de)能(neng)力(li)(li)進一(yi)步的(de)(de)(de)融合。我們知道視(shi)覺對噪(zao)聲是(shi)非(fei)(fei)常魯棒的(de)(de)(de),它(ta)不會(hui)受噪(zao)聲的(de)(de)(de)影(ying)響。但是(shi)語音算法無論你怎么去做,它(ta)對于強噪(zao)聲特(te)別復雜的(de)(de)(de)場景,還是(shi)有(you)力(li)(li)所能(neng)不及的(de)(de)(de)地方(fang),這個時候如果能(neng)夠使用到視(shi)覺信(xin)息,非(fei)(fei)常有(you)助于我們把整個語音效果做得更好。

如(ru)果我們(men)有(you)人(ren)臉的(de)(de)信(xin)息,我們(men)可以把(ba)語(yu)(yu)音(yin)段(duan)里的(de)(de)人(ren)聲跟非(fei)人(ren)聲段(duan)做(zuo)很(hen)好的(de)(de)區(qu)分,傳(chuan)統的(de)(de)技術很(hen)難(nan)去(qu)做(zuo),性價(jia)比非(fei)常(chang)低,它很(hen)難(nan)去(qu)把(ba)語(yu)(yu)音(yin)跟非(fei)語(yu)(yu)音(yin)說明(ming)的(de)(de)很(hen)精準,但是(shi)視覺的(de)(de)話(hua),能夠(gou)(gou)監(jian)控你的(de)(de)面部(bu)特(te)征、唇(chun)動的(de)(de)特(te)征,能夠(gou)(gou)區(qu)分語(yu)(yu)音(yin)和非(fei)語(yu)(yu)音(yin)。

做麥克風陣列的同學可能(neng)都(dou)知道,如果你能(neng)夠很好的區分(fen)噪聲跟(gen)(gen)語音的話,整個信(xin)號(hao)的噪聲統計量跟(gen)(gen)信(xin)號(hao)的統計量就(jiu)能(neng)估計的更準確。

所以(yi)這(zhe)一(yi)塊我(wo)們融合了視(shi)覺的(de)信(xin)息,這(zhe)三塊的(de)技術,我(wo)們在最近兩年都已經發表(biao)了最新(xin)的(de)成(cheng)果(guo),感興趣(qu)的(de)同學和(he)同仁可以(yi)去(qu)搜索(suo)一(yi)下(xia)我(wo)們阿(a)里(li)語音的(de)論文(wen),就(jiu)可以(yi)看到更多的(de)細節。

在(zai)識(shi)別還(huan)有合成層面,我們最近也在(zai)逐(zhu)步(bu)推進(jin),以前大(da)模型大(da)部分還(huan)是(shi)在(zai)云端去做(zuo)(zuo)服務(wu)的(de)(de)(de)。端上一般(ban)我們以喚醒快(kuai)捷指(zhi)令(ling)離線的(de)(de)(de)方案去做(zuo)(zuo),但是(shi)對于大(da)詞(ci)匯量的(de)(de)(de)語音識(shi)別系(xi)統(tong)在(zai)端上來跑(pao),尤其在(zai)嵌入系(xi)統(tong)上去跑(pao),還(huan)是(shi)有非常大(da)的(de)(de)(de)挑戰的(de)(de)(de)。

我(wo)們W語(yu)言實(shi)(shi)驗(yan)室基于我(wo)們自己研發的(de)(de)(de)神經網架構得到端的(de)(de)(de)語(yu)音識(shi)別框架,它可(ke)以做到非常(chang)小的(de)(de)(de)尺寸,而且精度能(neng)(neng)夠做得非常(chang)高,能(neng)(neng)夠純(chun)文本地的(de)(de)(de)實(shi)(shi)現(xian)的(de)(de)(de)語(yu)音識(shi)別系統,在(zai)我(wo)們的(de)(de)(de)淘寶直播的(de)(de)(de)應用場景,在(zai)大概10兆以內的(de)(de)(de)內存開(kai)銷下,就(jiu)能(neng)(neng)夠去做到非常(chang)大詞匯量的(de)(de)(de)語(yu)音識(shi)別系統,而且跟我(wo)們云端的(de)(de)(de)效果非常(chang)接近。

我(wo)們在TTS方面,無論是模型(xing)的(de)構造(zao)還(huan)是計算(suan)量層面,也(ye)做了非(fei)常多的(de)技(ji)術突破,使得整個TTS能夠跟(gen)云端相媲美,整個技(ji)術核心的(de)語音交(jiao)互的(de)技(ji)術也(ye)都往端上遷(qian)移。

總(zong)體而(er)言就是說我們會把(ba)前(qian)端跟喚醒聯合建模,還有(you)識別合成,我們面向(xiang)復雜聲學挑(tiao)戰(zhan)下(xia)的(de)語(yu)音(yin)(yin)交互技術,逐步(bu)在端上(shang)去實現全站(zhan)的(de)語(yu)音(yin)(yin)交互能力。

這是我們(men)整體的(de)模組方案的(de)架構圖。我們(men)會從OS層(ceng)到 AI能力層(ceng),最(zui)后再到產品的(de)形態以及服務。

阿里達摩院田彪:如何用“模組化”解決AI語音場景“碎片化”痛點?

我們的(de)核心的(de)邊界還(huan)是(shi)以模(mo)組的(de)形式(shi)去服務更多(duo)的(de)客戶(hu),包括(kuo)我們內部的(de)天貓(mao)的(de)客戶(hu),也包括(kuo)我們外部很多(duo)的(de)客戶(hu)。

我們現(xian)在核心的有幾個型(xing)號的產(chan)品,高性價比的模(mo)(mo)組、算力更強的高性能語(yu)音(yin)模(mo)(mo)組、多模(mo)(mo)態的模(mo)(mo)組,會(hui)把我們之(zhi)前(qian)前(qian)面講的統一(yi)的技(ji)術(shu)方案,整個語(yu)音(yin)交互(hu)技(ji)術(shu),都會(hui)在模(mo)(mo)組形(xing)態上進(jin)行集成,這樣它能以一(yi)種模(mo)(mo)組的形(xing)態被集成到客戶的各個產(chan)品里面去。

然(ran)后是RTOS的系(xi)統,主要是面向音(yin)(yin)箱家電的產品(pin),像廠商就會集成我們模組去構(gou)造它語(yu)音(yin)(yin)交(jiao)互的能力(li),高性能的語(yu)音(yin)(yin)模組就會去處(chu)理非常有挑戰的場景,整個算法(fa)復雜(za)度還會提升(sheng)。

比如說移動機(ji)器人(ren)、掃地機(ji),算法復(fu)雜(za)度比較(jiao)高,使用的(de)麥(mai)克風也比較(jiao)多,這樣(yang)我(wo)們有挑戰的(de)家(jia)居場景下的(de)設備,能夠去集成我(wo)們這樣(yang)高性能的(de)語(yu)音模組(zu)。

多(duo)模態(tai)(tai)模組會面向(xiang)公眾空(kong)間,剛才講(jiang)的(de)(de)像地鐵車(che)站它噪聲(sheng)非常強,有些受人(ren)流的(de)(de)噪聲(sheng)影響也很大。我(wo)們就(jiu)(jiu)會把本地的(de)(de)視(shi)覺的(de)(de)能力(li)跟前(qian)面模態(tai)(tai)融合的(de)(de)前(qian)端算法(fa)融合起來。它核心特(te)點就(jiu)(jiu)是(shi)性能比較(jiao)高。

我們(men)通過統一的(de)建模方(fang)法(fa),把混響完全分離,回(hui)聲消除都(dou)通過分離方(fang)案進(jin)行構造的(de)話(hua),它就能夠用比較低復雜度的(de)設計,使得算(suan)法(fa)能夠在(zai)小的(de)資源(yuan)的(de)芯片上能夠得到(dao)高性能。

另(ling)外(wai)它基(ji)于多核異構的芯片,使(shi)用的是RTOS的系統,所以成本來講也(ye)是比較有競爭(zheng)力的。

另外我們也使(shi)極極功耗(hao)的(de)(de)喚(huan)醒,能(neng)夠(gou)使(shi)得整個系統處于非常低功耗(hao)的(de)(de)狀態,整個電流(liu)功耗(hao)水(shui)平能(neng)夠(gou)做的(de)(de)比(bi)較(jiao)低,使(shi)得整個設(she)備尤其電池類的(de)(de)設(she)備,就能(neng)夠(gou)具有更好的(de)(de)待機時(shi)長。

在整個智能設備的(de)打造過(guo)程中,會(hui)涉(she)及到非常多的(de)硬件聲學方面的(de)工作(zuo)。對(dui)于最終呈現(xian)出來的(de)語音交互效果都有著非常重要的(de)影響。

比(bi)如說麥克風如果質量(liang)不夠好的(de)(de)話,算(suan)法收到(dao)(dao)的(de)(de)信號(hao)質量(liang)就很低,整(zheng)個算(suan)法效(xiao)果處理(li)之后也不會很好,最(zui)后語(yu)音效(xiao)果也不好。比(bi)如說喇叭,最(zui)后對打斷喚醒(xing)都是(shi)有非常很大的(de)(de)影響(xiang)的(de)(de),所以在這個里(li)面我們(men)允許團隊(dui)提供聲(sheng)(sheng)學(xue)硬(ying)件研發設計(ji)跟量(liang)產的(de)(de)服務,包括原理(li)圖的(de)(de)設計(ji)、電聲(sheng)(sheng)性(xing)能(neng)的(de)(de)測(ce)量(liang)測(ce)試,包括端(duan)到(dao)(dao)端(duan)的(de)(de)產線,還有性(xing)能(neng)調優。

我(wo)們(men)也有(you)消聲室、測聽室環境,使得我(wo)們(men)在硬(ying)件層面(mian)也能(neng)夠為算法提供非(fei)常好的基礎。

我(wo)(wo)們的(de)(de)高(gao)(gao)(gao)性價比(bi)語音(yin)模組(zu)芯片,比(bi)如像小雅的(de)(de)音(yin)箱、早教機,包括兩(liang)輪(lun)車(che)車(che)載精靈(ling)設備,都集(ji)成了我(wo)(wo)們兩(liang)麥的(de)(de)模組(zu)跟算法,我(wo)(wo)們高(gao)(gao)(gao)性能(neng)的(de)(de)有更高(gao)(gao)(gao)復雜度的(de)(de)算法會應(ying)用在(zai)掃地(di)機、機械狗,在(zai)移(yi)動高(gao)(gao)(gao)噪(zao)(zao)的(de)(de)場景下,我(wo)(wo)們會使用這樣模組(zu),解決(jue)高(gao)(gao)(gao)噪(zao)(zao)大回聲(sheng)移(yi)動遠場的(de)(de)挑戰。

阿里達摩院田彪:如何用“模組化”解決AI語音場景“碎片化”痛點?

我(wo)們(men)的(de)(de)多(duo)(duo)模(mo)模(mo)組用的(de)(de)比(bi)較多(duo)(duo)的(de)(de)是地鐵線(xian),我(wo)們(men)17年就開始(shi)來做公眾空間的(de)(de)語音交(jiao)互(hu),以(yi)前像(xiang)云端AI,一開始(shi)使(shi)用更多(duo)(duo)的(de)(de)使(shi)用是“close talking”的(de)(de)場(chang)(chang)景,在真正的(de)(de)公共空間能(neng)把語音交(jiao)互(hu)很(hen)好的(de)(de)使(shi)用起(qi)來,我(wo)們(men)做了比(bi)較早的(de)(de)技術(shu)突破跟產品(pin)化,也(ye)在全國(guo)各地的(de)(de)很(hen)多(duo)(duo)的(de)(de)地鐵線(xian)上都進行(xing)了落地。協同辦公的(de)(de)場(chang)(chang)景、電商(shang)的(de)(de)場(chang)(chang)景都能(neng)用到我(wo)們(men)模(mo)組方案。

后面(mian)我主要(yao)會(hui)講一下我們最新的(de)布局,達摩院的(de)使命是要(yao)持續(xu)的(de)去(qu)探索技(ji)術邊界,通過算(suan)法技(ji)術的(de)進步,去(qu)解鎖語音在各(ge)種挑戰性(xing)新場景下的(de)應用。

達(da)摩院的(de)(de)技術(shu)創新全(quan)景(jing)圖(tu),叫做懂你的(de)(de)語(yu)音AI,我們(men)(men)在(zai)公(gong)眾號(hao)上做了非常長的(de)(de)文章介紹,匯報我們(men)(men)整個中央(yang)端語(yu)音交互技術(shu),向所有的(de)(de)同(tong)仁做匯報,大家(jia)感興趣的(de)(de)可以(yi)去搜索(suo)相(xiang)關(guan)關(guan)鍵詞找到全(quan)文。

阿里達摩院田彪:如何用“模組化”解決AI語音場景“碎片化”痛點?

總體而(er)言,我們會在(zai)前端(duan)通(tong)過(guo)聯(lian)合(he)優化的聲學前端(duan)使得整(zheng)個語音(yin)交(jiao)互首先能(neng)夠(gou)聽(ting)清,涉及到非常多(duo)的信號處理(li)聯(lian)合(he)建模,語音(yin)增強喚醒的一體化建模相關技術的布局。

第二個就是說解決語音(yin)到文字的模(mo)態轉(zhuan)換,這樣(yang)我們會(hui)在(zai)(zai)統一(yi)語音(yin)識別(bie)(bie)的基礎(chu)框架以及嘈雜(za)環境下來進行說話人的識別(bie)(bie),在(zai)(zai)這方面(mian)工作(zuo)也有很多進展。在(zai)(zai)GPS層(ceng)面(mian),我們會(hui)把它的高自然度、高表(biao)現(xian)力技(ji)術持續去突破。

在能(neng)聽到(dao)人的(de)(de)語(yu)音之后,我們拿到(dao)文本,會(hui)通過語(yu)音聲學NLP的(de)(de)聯合(he)建模、標準學習的(de)(de)技(ji)術(shu),使得我們整體(ti)對口語(yu)的(de)(de)語(yu)言理解(jie)達到(dao)更(geng)高的(de)(de)層次,真正實現語(yu)音交互能(neng)夠更(geng)懂(dong)你(ni)。

以上是田彪演(yan)講內容(rong)的完整整理。