智東西(公眾號:zhidxcom)
文 | 寓揚

如(ru)果沒(mei)有(you)“它(ta)”,所有(you)的人工(gong)智能設備(bei)都(dou)是“聾(long)子”,所有(you)的智能音箱都(dou)是智障音箱;如(ru)果沒(mei)有(you)它(ta),背后的人工(gong)智能技術牛X到天都(dou)沒(mei)用!它(ta)是智能設備(bei)的“耳朵(duo)”——麥克風陣列(lie)。

“Alexa”,當你對著(zhu)亞馬遜(xun)Echo呼喚(huan)時(shi),它用頂部(bu)的(de)藍色(se)光(guang)環應聲相應,“今天天氣怎(zen)么樣”,它就會“聽懂”你的(de)意圖,用柔和的(de)聲音(yin)告訴你天氣狀況。

深度:360度解剖智能音箱的“耳朵”

(從左到右依次為叮咚音箱A1、亞(ya)馬遜Echo、Google Home、天貓精靈A1)

而“聽懂”或(huo)者“聽清(qing)”的第(di)(di)一步(bu)在于準(zhun)確的獲(huo)取(qu)用戶的聲(sheng)音(yin)(即拾音(yin)),否則無(wu)論云端的虛(xu)擬助手多么智能(neng),也(ye)是(shi)無(wu)頭(tou)蒼蠅。麥(mai)克風陣列是(shi)語(yu)音(yin)交互的第(di)(di)一步(bu),在智能(neng)音(yin)箱(xiang)落地中有(you)關鍵作用,不僅傳統的芯片公(gong)司,語(yu)音(yin)技術(shu)巨頭(tou)和(he)有(you)深(shen)厚(hou)技術(shu)背景的初創公(gong)司紛紛加入這一領域(yu)。

同時,隨著(zhu)智(zhi)能音(yin)(yin)箱(xiang)的(de)(de)火熱以及(ji)語音(yin)(yin)交互的(de)(de)盛行,麥克風(feng)陣(zhen)(zhen)列(lie)技(ji)術開(kai)始走向前臺,“XX產(chan)品(pin)用(yong)的(de)(de)是誰家(jia)的(de)(de)麥克風(feng)陣(zhen)(zhen)列(lie)”也成(cheng)為行業中熱議的(de)(de)話(hua)題;這時我們很有(you)必(bi)要看清“麥克風(feng)陣(zhen)(zhen)列(lie)”產(chan)品(pin)技(ji)術的(de)(de)過去現在(zai)和(he)產(chan)業鏈現狀,也是本(ben)文(wen)作(zuo)為智(zhi)東西智(zhi)能音(yin)(yin)箱(xiang)產(chan)業系(xi)列(lie)報道的(de)(de)主要目的(de)(de)。

那么我們經常提及的麥克(ke)風陣列究竟是(shi)什么?它有(you)(you)哪些(xie)(xie)類別及作(zuo)用(yong)?哪些(xie)(xie)玩家參與其中?市場(chang)上各家智(zhi)能(neng)音箱(xiang)使用(yong)的麥克(ke)風陣列又(you)有(you)(you)什么不同(tong)?

一、麥克風陣列:拾音

簡單來講(jiang),麥(mai)(mai)(mai)克風(feng)陣(zhen)列是由2個及以(yi)上(shang)麥(mai)(mai)(mai)克風(feng)按一定(ding)規則(ze)排列組成,在(zai)特定(ding)空間對(dui)聲音(yin)進行(xing)獲(huo)取和處理的(de)錄音(yin)系統,它(ta)是遠(yuan)講(jiang)語(yu)音(yin)(超過1米(mi)以(yi)上(shang))設備(bei)的(de)一個關鍵部分(fen)。(注:本文所(suo)討論的(de)為遠(yuan)講(jiang)語(yu)音(yin)設備(bei)中的(de)消費級麥(mai)(mai)(mai)克風(feng)陣(zhen)列)

深度:360度解剖智能音箱的“耳朵”

(圖為四款智能(neng)音箱的麥(mai)克風陣列(lie))

麥克(ke)風陣列(lie)的功(gong)能就是拾(shi)音(yin)。在遠(yuan)講語(yu)音(yin)設備中(zhong),麥克(ke)風陣列(lie)通(tong)過聲(sheng)源定位、波束形(xing)成、噪聲(sheng)抑制、回(hui)聲(sheng)消除等遠(yuan)講算法(fa),有效拾(shi)取聲(sheng)音(yin),從而(er)保證(zheng)具體場景中(zhong)語(yu)音(yin)的識別率。

具體來(lai)講,以智能音(yin)箱為例,在(zai)家庭(ting)場景中會存在(zai)各種噪聲等(deng),麥克風(feng)陣列(lie)的(de)作(zuo)用就是“眾里尋他千百(bai)度”,在(zai)眾多干(gan)擾噪聲中尋找(zhao)到你,但只是找(zhao)到還(huan)不(bu)夠,還(huan)需要(yao)抑制噪聲、消除(chu)自(zi)身發出(chu)聲音(yin)的(de)影響,并增(zeng)強你的(de)聲音(yin),從(cong)而確保在(zai)云(yun)端(duan)進行有效識別,并滿足(zu)你的(de)任務(wu)指令。

而拾音(yin)(yin)又分為遠場(chang)拾音(yin)(yin)(1米外)和近場(chang)拾音(yin)(yin)(20cm內)。比如,以Siri為代表的(de)(de)(de)智(zhi)能(neng)(neng)手機就是(shi)近場(chang)拾音(yin)(yin),采用的(de)(de)(de)是(shi)單(dan)(dan)麥克風,可在近距(ju)離(li)、低噪聲(sheng)的(de)(de)(de)情況下拾取符合(he)語(yu)音(yin)(yin)識(shi)別需(xu)求的(de)(de)(de)聲(sheng)音(yin)(yin)。但是(shi)一旦將智(zhi)能(neng)(neng)手機放在有噪聲(sheng)的(de)(de)(de)較遠的(de)(de)(de)距(ju)離(li),Siri的(de)(de)(de)識(shi)別率就會(hui)直線(xian)下降(jiang),單(dan)(dan)麥克風的(de)(de)(de)局(ju)限就凸顯(xian)了出來。

而這(zhe)正(zheng)是遠(yuan)場(chang)拾音(yin)和(he)近場(chang)拾音(yin)的(de)區別(bie),也凸顯了麥克風陣(zhen)列的(de)重(zhong)要(yao)性。不(bu)僅如此(ci),由于噪(zao)聲(sheng)、混響等因素(su)的(de)存在,遠(yuan)場(chang)拾音(yin)還要(yao)與(yu)遠(yuan)講語音(yin)識(shi)別(bie)算法相匹配,才能(neng)真(zhen)正(zheng)做到“聽清”。

二、麥克風陣列中的關鍵技術

在遠場(chang)拾音中, 麥(mai)克風陣(zhen)列可以提供(gong)前端(duan)信(xin)號處理,拾取有效(xiao)的語音信(xin)號輸(shu)送(song)到(dao)云端(duan)進(jin)行識別(bie)。這其中就(jiu)幾(ji)項關鍵的技術:聲(sheng)源定位、波(bo)束形(xing)成(cheng)、噪聲(sheng)抑制、回聲(sheng)消(xiao)除、語音增強(qiang)。

1、聲源定位

聲源定(ding)(ding)(ding)位(wei)的(de)(de)任(ren)務就(jiu)是在具體場(chang)景中(zhong),甚至從(cong)噪音中(zhong)找到發出聲音的(de)(de)“你”,以便后續的(de)(de)波(bo)束形(xing)成。它(ta)是基(ji)于麥克(ke)風陣列對(dui)目標(biao)信號(hao)(聲源)的(de)(de)位(wei)置(zhi)探(tan)測,確定(ding)(ding)(ding)在特定(ding)(ding)(ding)空間中(zhong)說話(hua)者(zhe)的(de)(de)位(wei)置(zhi)關系(xi)。尤其是在移動場(chang)景中(zhong),實時的(de)(de)聲源定(ding)(ding)(ding)位(wei)就(jiu)顯(xian)得(de)重要。

2、波束形成
波束形(xing)成是對麥(mai)克風(feng)陣列(lie)中(zhong)各(ge)個麥(mai)克風(feng)輸出的聲(sheng)(sheng)音(yin)進行信號處理,從而(er)形(xing)成空間指(zhi)向性。這種方法會抑制目標聲(sheng)(sheng)音(yin)以外的聲(sheng)(sheng)音(yin)干(gan)擾(rao),不僅抑制噪聲(sheng)(sheng)也包(bao)括其他方向的人聲(sheng)(sheng)。

深度:360度解剖智能音箱的“耳朵”

以(yi)叮咚音箱的AIUI模式(shi)為例,開啟了一(yi)(yi)定時(shi)間的多倫(lun)對話(hua)后,它會優先默認第一(yi)(yi)個(ge)說話(hua)者(zhe)(zhe)作(zuo)為它拾音的主(zhu)方(fang)向(xiang),從而抑(yi)制(zhi)其他方(fang)向(xiang)的聲(sheng)音,來(lai)保證和(he)一(yi)(yi)個(ge)對話(hua)者(zhe)(zhe)的交(jiao)互。這也(ye)意(yi)味著,當前技(ji)術下,智能音箱不可能同(tong)時(shi)和(he)多人(ren)進行交(jiao)互。

3、噪聲抑制
你在臥室中開著電視,是很難喚(huan)醒在你床上睡覺的(de)iPhone中的(de)Siri的(de),這就是它不(bu)具(ju)備噪(zao)聲抑制的(de)能力(li)。但你可以喚(huan)醒理(li)你較遠(yuan)的(de)智能音(yin)箱(xiang),這正是噪(zao)聲抑制的(de)作用。

簡單來講,噪聲(sheng)(sheng)抑制就是(shi)在目(mu)標(biao)信號(hao)和(he)干擾噪聲(sheng)(sheng)中(zhong),保(bao)留(liu)目(mu)標(biao)聲(sheng)(sheng)音(yin)(yin),削(xue)弱(ruo)周(zhou)圍的噪聲(sheng)(sheng),從而保(bao)證獲取(qu)的目(mu)標(biao)聲(sheng)(sheng)音(yin)(yin)信號(hao)相對(dui)清晰,再結合(he)云端相匹(pi)配的語音(yin)(yin)識(shi)別算(suan)法,實(shi)現(xian)有效識(shi)別理解。

4、抗混響
混響就是聲(sheng)源(yuan)發(fa)出后(hou),在空間中(zhong)經(jing)過多次(ci)物體(墻壁)的(de)反射和吸收,若干聲(sheng)波混合在一(yi)起所形成的(de)現象(xiang),它會(hui)影響語(yu)音(yin)(yin)信號的(de)處理(li),聲(sheng)源(yuan)定位的(de)精度以及語(yu)音(yin)(yin)識別效果(guo)。通過遠(yuan)講算法消除混響是遠(yuan)講語(yu)音(yin)(yin)設備在拾(shi)音(yin)(yin)環(huan)節的(de)關(guan)鍵一(yi)環(huan)。

深度:360度解剖智能音箱的“耳朵”

5、回聲抵消
回聲(sheng)抵(di)消簡單來講,就是不讓語音(yin)(yin)設(she)備自己發出的(de)(de)聲(sheng)音(yin)(yin)干擾到拾音(yin)(yin)過程。比如在(zai)智能(neng)音(yin)(yin)箱播放音(yin)(yin)樂時(shi),你(ni)喚醒(xing)設(she)備并(bing)下(xia)達命(ming)令,這時(shi)麥克風陣列同時(shi)采(cai)集你(ni)發出的(de)(de)聲(sheng)音(yin)(yin)和正在(zai)播放的(de)(de)音(yin)(yin)樂的(de)(de)聲(sheng)音(yin)(yin),而回聲(sheng)抵(di)消就是要去掉(diao)其中音(yin)(yin)樂的(de)(de)聲(sheng)音(yin)(yin)并(bing)保留人的(de)(de)聲(sheng)音(yin)(yin),以供云(yun)端進行語音(yin)(yin)識別(bie)。

6、語音增強
在(zai)家居(ju)環境中,存在(zai)著背景(jing)噪音(yin)、回聲(sheng)、混響等噪音(yin)干擾,這些(xie)噪音(yin)相(xiang)互疊加嚴(yan)重(zhong)影(ying)響語音(yin)識(shi)別效果。除了(le)降低各種(zhong)噪聲(sheng)外,還可以從語音(yin)增強進行改善(shan)。

遠距離拾(shi)音的另一個問題就是獲取的語(yu)音信號(hao)(hao)較弱,需要通過麥克風陣列(lie)進行噪聲分離,提取目標(biao)信號(hao)(hao),并增(zeng)強(qiang)語(yu)音信號(hao)(hao)的能量,從(cong)而提升(sheng)語(yu)音識別效果。

三、消費級麥克風陣列的里程碑事件

早在20世紀七八十年代,麥(mai)克風陣列(lie)已經被應用到(dao)語音信號處理中,進入90年代以來,基于麥(mai)克風陣列(lie)的語音信號處理算法(fa)逐漸成為一個新的研究熱點。近年來隨著語音交互成為趨勢,麥(mai)克風陣列(lie)逐漸進入消費市場領域,日趨火熱。

在麥(mai)克(ke)風(feng)陣列(lie)領(ling)域(yu)擁有(you)豐富經驗的先聲互聯創始人(ren)付強曾談到,麥(mai)克(ke)風(feng)陣列(lie)在消費級領(ling)域(yu)出(chu)現有(you)幾個里程碑(bei)事件:

第(di)一個(ge)里程碑事件是(shi)微軟(ruan)在2010年(nian)(nian)6月份正式推出的Kinect,它(ta)是(shi)Xbox 360游戲(xi)主機的體(ti)感周邊(bian)設(she)備,內置了(le)紅外(wai)線攝像(xiang)頭、傳(chuan)感器、麥(mai)克風陣(zhen)列,可通過對用戶(hu)身(shen)體(ti)動作(zuo)的變(bian)化和(he)發出指令(ling)來操(cao)作(zuo)游戲(xi)。Kinect曾累計銷量2900萬(wan)部,但近(jin)幾年(nian)(nian)逐漸推出了(le)人(ren)們的視野。

深度:360度解剖智能音箱的“耳朵”

(圖為微軟的Kinect)

第(di)二(er)個是三(san)星在2012年推出的(de)(de)全球首款具有遠講語音能力(li)的(de)(de)智(zhi)能電視(shi),該(gai)電視(shi)使用麥克(ke)風陣列,科勝(sheng)訊的(de)(de)語音芯片,支持語音操控,并帶動了國內的(de)(de)智(zhi)能電視(shi)潮。

第三個(ge)里(li)(li)程(cheng)碑事件(jian)就是亞馬(ma)遜Echo智能音(yin)箱在2014年底的推出,其采用6+1麥克(ke)風(feng)陣列(lie),支持5米遠講語音(yin)操控(kong)。Echo不但(dan)是第一款真正意義上的智能音(yin)箱設備,還是消費級麥克(ke)風(feng)陣列(lie)應用的里(li)(li)程(cheng)碑事件(jian),并帶火(huo)了當下(xia)國內這波智能音(yin)箱浪潮。

深度:360度解剖智能音箱的“耳朵”

(圖為亞馬遜(xun)智能音(yin)箱Echo)

其(qi)中,三星的(de)(de)(de)第(di)一款智(zhi)能電視(shi)和亞馬遜的(de)(de)(de)Echo智(zhi)能音箱(xiang)都用了4年時間去打磨,才有了今天(tian)的(de)(de)(de)技術成熟。而反觀(guan)國內的(de)(de)(de)智(zhi)能音箱(xiang)浪(lang)潮,我(wo)們還缺(que)少(shao)這種(zhong)對(dui)技術的(de)(de)(de)長(chang)線投入(ru)和對(dui)產品的(de)(de)(de)耐心打磨。

四、麥克風陣列的代表性玩家

隨(sui)著國內智能音箱以及語音交互的(de)火熱,在(zai)麥克風(feng)陣列以及遠講算(suan)(suan)法(fa)領(ling)域(yu)誕生(sheng)了一波方案(an)提供商(shang),其中(zhong)能夠(gou)提供麥克風(feng)陣列的(de)硬件(jian)方案(an),又能夠(gou)提供前端算(suan)(suan)法(fa)的(de)廠(chang)商(shang)并不太多,智東西選出了具有代(dai)表性的(de)幾家方案(an)廠(chang)商(shang)。

深度:360度解剖智能音箱的“耳朵”

1、科大訊飛——國內語音龍頭

科大訊飛是國內一家老牌(pai)智(zhi)能語音(yin)公司(si),其有一個(ge)專門的團隊在(zai)研究麥(mai)(mai)克風陣(zhen)列(lie)(lie)技(ji)術。目前在(zai)訊飛開放平(ping)臺上,提供二(er)麥(mai)(mai)線(xian)(xian)性(xing)陣(zhen)列(lie)(lie)、四麥(mai)(mai)線(xian)(xian)性(xing)陣(zhen)列(lie)(lie)和(he)六麥(mai)(mai)環形陣(zhen)列(lie)(lie)。中興、海(hai)康威視、美的、高(gao)德、優必選、狗(gou)尾草等都是其客戶。

叮(ding)咚音(yin)(yin)箱(xiang)就是由(you)京東和科(ke)(ke)大(da)訊飛聯合(he)成立的(de)靈隆科(ke)(ke)技推出的(de),其中科(ke)(ke)大(da)訊飛提供語音(yin)(yin)語義(yi)等技術(shu)支持(chi)。叮(ding)咚音(yin)(yin)箱(xiang)A1是國內第一(yi)款真正意(yi)義(yi)上的(de)智(zhi)能音(yin)(yin)箱(xiang),于(yu)2015年8月正式推出,它(ta)采用(yong)7+1麥(mai)克(ke)風陣列,豪恩聲學(xue)提供的(de)ECM麥(mai)克(ke)風,并采用(yong)科(ke)(ke)勝(sheng)訊CX20810-11Z音(yin)(yin)頻芯片。在(zai)結構上不同(tong)于(yu)其他(ta)智(zhi)能音(yin)(yin)箱(xiang)置于(yu)頂(ding)部,而是位于(yu)主(zhu)控電路板下面,并采用(yong)中空結構,麥(mai)克(ke)風向外側傾斜拾音(yin)(yin),頗具(ju)創意(yi)。

深度:360度解剖智能音箱的“耳朵”

(叮(ding)咚音箱A1的7+1環形麥克風(feng)陣列,黑色(se)為麥克風(feng))

2、科勝訊——國際語音方案巨頭

科勝訊(xun)(xun)成立(li)于1999年(nian),曾是全球最大(da)的獨立(li)通(tong)訊(xun)(xun)芯片提(ti)供商,后來(lai)幾經(jing)波折被新思科技(ji)收購。在語音(yin)交互領域,它主要提(ti)供語音(yin)芯片和(he)麥(mai)克風陣列(lie)技(ji)術(shu),其方案最大(da)優勢(shi)在于降噪(zao)和(he)語音(yin)增強算法,技(ji)術(shu)打磨也更加成熟。難(nan)怪科勝訊(xun)(xun)總裁Saleel Awsare會(hui)說(shuo),其雙(shuang)麥(mai)克風就可以實現友商5-8麥(mai)克風的解(jie)決方案的效果。

亞馬遜、百度、阿(a)里巴巴、騰訊、哈曼(man)、科(ke)大(da)訊飛(fei)、出門問問、云知聲(sheng)等都(dou)是其(qi)客(ke)戶或合(he)作(zuo)伙伴。據了解科(ke)勝(sheng)訊為Alexa Voice Service (AVS) 量身定做了AudioSmart 語音處理(li)開(kai)發套件出貨量已(yi)超過(guo)3000萬套,涵蓋智(zhi)能(neng)(neng)(neng)音箱、智(zhi)能(neng)(neng)(neng)家居、智(zhi)能(neng)(neng)(neng)電視、機器人(ren)等多個品類(lei)。出門問問剛剛發布的智(zhi)能(neng)(neng)(neng)音箱也(ye)采用科(ke)勝(sheng)訊的方案,此外,蘋果HomePod也(ye)可能(neng)(neng)(neng)采用了科(ke)勝(sheng)訊AudioSmart開(kai)發套件。

3、先聲互聯——陣列研究先行者

先聲互(hu)(hu)聯是(shi)一(yi)家成立于2016年(nian)(nian)的創業公司,主要提供麥(mai)(mai)(mai)克風(feng)陣列以(yi)及前(qian)端信號處理(li)技(ji)術(shu)。其(qi)創始人(ren)付強曾在(zai)(zai)中科院聲學(xue)所(suo)有(you)10余年(nian)(nian)的聲學(xue)研究,在(zai)(zai)語(yu)音信號處理(li)領域有(you)20余年(nian)(nian)的積淀。先聲互(hu)(hu)聯目(mu)前(qian)主要提供兩麥(mai)(mai)(mai)、四麥(mai)(mai)(mai)、六麥(mai)(mai)(mai)等(deng)解(jie)決方案(an),在(zai)(zai)抗(kang)混響、回聲消除(chu)、語(yu)音增強等(deng)方面(mian)表(biao)現(xian)不(bu)俗。

先(xian)聲(sheng)互聯是百度的合(he)作伙(huo)伴,其多麥克(ke)風硬(ying)件(jian)(jian)開(kai)發套件(jian)(jian)也應用在百度DuerOS平臺中。目前(qian),物靈的luka閱(yue)讀養成機器人、極米科技的Lightank W100、數(shu)字家圓(yuan)的親見H2等產品(pin)都(dou)采用了先(xian)聲(sheng)互聯的遠講算法以及(ji)麥克(ke)風拾音模組。此外,先(xian)聲(sheng)互聯也正在和騰訊、聯想、小米等公司就(jiu)某些(xie)智(zhi)能硬(ying)件(jian)(jian)產品(pin)展開(kai)合(he)作。

4、思必馳——成熟方案輸出商

思必(bi)馳(chi)成立于(yu)2007年(nian),是一家面向B端客戶的(de)語音語義技術提(ti)供商。其副總裁雷國雄告訴智東西,思必(bi)馳(chi)從(cong)2012年(nian)就開始研究麥克風陣列技術,并(bing)配備一個專(zhuan)門的(de)團隊研究語音信號處(chu)理,結(jie)合思必(bi)馳(chi)的(de)語音進(jin)行優化。目前思必(bi)馳(chi)提(ti)供單麥、兩麥、四麥、六麥等解決(jue)方案(an),經過(guo)5、6年(nian)時間(jian)的(de)積累,在性能和穩定性上均表現不錯(cuo)。

近期阿里推出的天貓(mao)(mao)精(jing)靈X1就是(shi)采用思必(bi)馳的環形(xing)6麥克風陣列,模擬麥克風則來(lai)自敏芯(xin)微電子,天貓(mao)(mao)精(jing)靈在(zai)降噪、回聲(sheng)消除等拾音方面均有(you)不錯表現。此外,聯想、小米、美的、360、DOSS等都是(shi)其客戶。

5、聲智科技——新起之秀

聲智(zhi)科技也成立(li)于2016年(nian),提供麥(mai)克風陣(zhen)列以及遠(yuan)講算法,目前其推出(chu)了單(dan)麥(mai)、兩(liang)麥(mai)、四麥(mai)、六麥(mai)、八麥(mai)的(de)陣(zhen)列解(jie)決方案,也有不錯的(de)表現。有趣的(de)是(shi)其創始人陳(chen)孝良也來(lai)自中科院(yuan)聲學所。

近期剛(gang)剛(gang)發布的小米(mi)AI音(yin)箱,就采(cai)用了聲智科技(ji)的環形6麥克風陣列和喚(huan)醒技(ji)術方(fang)案。聲智科技(ji)也是(shi)百度的合(he)作伙伴(ban),推出了基于DuerOS的語音(yin)解決(jue)方(fang)案。此(ci)外,騰訊、阿里巴巴、奇虎(hu)360、華為、海爾等(deng)都是(shi)其客(ke)戶。

五、麥克風陣列:兩路分化

目前(qian)智(zhi)能音(yin)箱(xiang)中(zhong)的(de)麥(mai)克風陣列呈現兩路分(fen)化,主(zhu)要包括(kuo)環(huan)形和線性。亞馬遜Echo、叮咚音(yin)箱(xiang)、天貓精靈、小米AI音(yin)箱(xiang)等技術路線相似,都使用6(+1)、7(+1)個麥(mai)克風的(de)環(huan)形陣列,而Google Home、出門問問的(de)問問音(yin)箱(xiang)則(ze)采用了2麥(mai)克風的(de)線性陣列。

深度:360度解剖智能音箱的“耳朵”

(亞馬(ma)遜Echo的6+1環(huan)形麥(mai)克風(feng)陣列(lie),金色為(wei)麥(mai)克風(feng))

為(wei)何各家使用的(de)麥(mai)克(ke)風數目不一,真的(de)是數目越多(duo)越好(hao)嗎?先聲互聯付(fu)強曾從技術的(de)角度談到,事實并非如此。目前(qian)麥(mai)克(ke)風陣列語音增強大致可分為(wei)兩種技術路(lu)線(xian):

一種是以亞(ya)馬遜Echo為代(dai)表的經典波束(shu)形成路線(xian),它對麥(mai)克風的數目以及陣列拓撲結構(排列位置)依賴(lai)較(jiao)(jiao)大(da),通過使用較(jiao)(jiao)多的麥(mai)克風以及特定(ding)結構,從而使得波束(shu)的空間區分性更強(qiang),保證(zheng)聲源定(ding)位和(he)拾音(yin)效(xiao)果(guo)。

另(ling)外一種就是以科(ke)勝訊為(wei)代表的(de)路線,該路線更加依(yi)賴語音增強(qiang)算法,而(er)對(dui)麥克風(feng)陣列數量(liang)和(he)陣列拓撲結構依(yi)賴較小,通過通過自適應(ying)降噪、降低(di)混響、語音分離等技術,從而(er)靠(kao)少量(liang)麥克風(feng)獲得(de)良(liang)好(hao)的(de)拾音效果。

有趣(qu)的(de)是,剛(gang)剛(gang)在(zai)8月(yue)24日(ri)發布的(de)出門問(wen)問(wen)的(de)智能音箱采用的(de)就是科勝訊的(de)2麥克風陣列,從其(qi)測試結果來(lai)看,遠場(chang)拾音喚醒(xing)能力并不(bu)輸于競品。

深度:360度解剖智能音箱的“耳朵”

(黃色(se)方框(kuang)為Google Home 2麥線性陣(zhen)列)

關于(yu)陣列麥克風數(shu)目的(de)(de)選擇(ze),思(si)必馳副(fu)總裁雷雄國則從(cong)(cong)產品(pin)層(ceng)面談到:首先從(cong)(cong)性(xing)能(neng)上考慮(lv),思(si)必馳從(cong)(cong)單麥、6麥、8麥、12麥都有嘗(chang)試(shi),思(si)必馳最(zui)終選擇(ze)6麥作(zuo)為主要的(de)(de)陣列方案,是成本(ben)和性(xing)能(neng)的(de)(de)一個(ge)綜合考慮(lv)。6麥以上盡管性(xing)能(neng)也(ye)會(hui)提升,但(dan)提升的(de)(de)效果和成本(ben)不成正比,但(dan)6麥一下數(shu)目的(de)(de)減少,成本(ben)會(hui)降低,性(xing)能(neng)也(ye)會(hui)相對降低。

其次,產(chan)品形態會影(ying)響陣(zhen)列(lie)的(de)選擇,比如電視(shi)上的(de)Soundbar等設備是(shi)長條形,就適合線性陣(zhen)列(lie);而Echo、叮咚(dong)是(shi)橢(tuo)圓,它就可以選擇環形陣(zhen)列(lie)。

此外,麥克風數(shu)目的(de)選擇(ze)還和(he)產品(pin)定(ding)位(wei)有關。定(ding)位(wei)高端(duan)產品(pin),對體驗有更高要求(qiu),則(ze)可(ke)以選擇(ze)6麥陣列,而(er)中低端(duan)的(de)產品(pin)可(ke)選擇(ze)2麥或4麥。

六、麥克風陣列在遠場交互中存在的問題

盡管智能(neng)音箱經(jing)過一(yi)段時間的打磨,在(zai)拾音、喚醒、識別(bie)方面(mian)都能(neng)夠歐達(da)到(dao)一(yi)個不錯的效果,但(dan)在(zai)遠(yuan)場交互(hu)中麥克(ke)風陣列仍(reng)存在(zai)一(yi)些亟待解決(jue)的問題。

第一(yi),誤(wu)喚(huan)醒(xing)是(shi)一(yi)個(ge)問(wen)題(ti)。雷雄國也談(tan)到,表面(mian)看這(zhe)個(ge)是(shi)喚(huan)醒(xing)的問(wen)題(ti),但(dan)實(shi)際跟陣列(lie)有較強的關系,喚(huan)醒(xing)拿到的是(shi)陣列(lie)拾音(yin)的信(xin)號(hao),陣列(lie)對信(xin)號(hao)噪聲處理(li)效果(guo)的好壞直接影響到誤(wu)喚(huan)醒(xing)。這(zhe)個(ge)問(wen)題(ti)也可以從產品的思路(lu)進行(xing)解決,如喚(huan)醒(xing)之后只是(shi)亮燈而不“說話”,這(zhe)樣會好很多。

第二,聲(sheng)源定位需要提(ti)升。在聲(sheng)學環境(jing)中,尤其是在反射較(jiao)強、回聲(sheng)較(jiao)強、噪音環境(jing)下,聲(sheng)源定位需要較(jiao)大的提(ti)升空間。

第三(san),動(dong)態(tai)環境中(zhong)對用(yong)戶位(wei)置的跟(gen)蹤也需要提升。在(zai)家庭場景中(zhong), 人會(hui)處于一種移動(dong)的狀態(tai),喚醒和指令可能(neng)不(bu)在(zai)同一個方位(wei),在(zai)下(xia)一次人機交互中(zhong)會(hui)重點處理(li)剛剛那(nei)個方向的信號,如果(guo)房間存在(zai)多(duo)個音(yin)源,就可能(neng)無(wu)法執行指令。

第四,麥克風陣列(lie)無法(fa)同時(shi)(shi)進(jin)行多人聲(sheng)(sheng)的識(shi)別和處(chu)理,當(dang)下(xia)的波束形成和噪聲(sheng)(sheng)抑(yi)制(zhi),會使陣列(lie)在同一(yi)時(shi)(shi)間處(chu)理同一(yi)個(ge)方(fang)向的聲(sheng)(sheng)源,從而(er)抑(yi)制(zhi)其(qi)他聲(sheng)(sheng)源,這(zhe)就意味著當(dang)下(xia)的技(ji)術路線(xian)下(xia),機器無法(fa)同時(shi)(shi)與(yu)多人進(jin)行交互。

結語:麥克風陣列賦予智能硬件“耳朵”

提起未(wei)來,我們會幻(huan)想無處不在的智能,虛(xu)擬助(zhu)手(shou)幫(bang)助(zhu)我們做任(ren)何(he)想做的事情。而(er)機器(qi)具(ju)備智能的第一步應該是聽(ting)懂人類的心(xin)聲,那么它首(shou)先應該具(ju)備的就是一雙“耳朵”。

而(er)在人(ren)工智能(neng)的當下,麥克風陣列的作用就是賦(fu)予智能(neng)硬件以(yi)“耳朵”,讓它更(geng)好的聽到人(ren)類的聲音,然后將聲音傳輸到云端的智能(neng)“大(da)腦”去(qu)理解,去(qu)調(diao)動自身的“技能(neng)”,滿足人(ren)類的需求(qiu)。

但這雙“耳朵”在各種場景(jing)中是否(fou)靈敏好用,能否(fou)“耳聽八方”,還需要底層(ceng)聲學技術的進一步研(yan)究。


每日一頭條

趨勢·深度·犀利·干貨,最專業的行業解讀

深喉爆(bao)料(liao)、投稿(gao):guoren@sanyasheying.cn

深度:360度解剖智能音箱的“耳朵”