智東西(公眾號:zhidxcom)
作者 | 韋世瑋
編輯 | 漠影

夏至(zhi)將至(zhi),和(he)氣溫一(yi)樣持續攀升的還有TWS(真無線藍牙立體(ti)聲)耳機市(shi)場(chang)的熱(re)度。

據業內機構統計,截至5月(yue)12日,今年(nian)已(yi)有25款品牌(pai)TWS耳(er)(er)機推(tui)出。僅在剛剛過去的(de)5月(yue),OPPO、vivo、華為、努比亞、小度等玩(wan)(wan)家也相繼推(tui)出TWS耳(er)(er)機新(xin)品,進一步(bu)加劇(ju)市(shi)場混戰。其中(zhong),前(qian)三位玩(wan)(wan)家的(de)TWS耳(er)(er)機均(jun)支(zhi)持通話降噪(zao)。

與蘋果AirPods帶火的(de)主動降(jiang)(jiang)噪(zao)(zao)不同,通(tong)話降(jiang)(jiang)噪(zao)(zao)主要針對耳機中的(de)麥克風(feng),通(tong)過算法使麥克風(feng)收音更加純粹,而主動降(jiang)(jiang)噪(zao)(zao)主要針對揚聲器,算法圍繞用戶“聽”的(de)過程進行(xing)處理(li)。

隨著通話降噪逐漸成為當下各路玩家PK的(de)主(zhu)要功能之一,也出現了許多公(gong)司競相押注通話降噪賽道(dao),各類解決方案百花齊放。

成立于20172月的大象聲科,則是專注AI智能聽覺技術賽道上一家頗具特色的企業,主要基于機器聽覺AI算法開發智(zhi)能語音增強和(he)語音交互(hu)解決方案。

被羅永浩看中后一戰成名,小米高通投資!這家AI創企牛在哪?

近期,智東西也(ye)有機會與大象聲科的核心(xin)(xin)團(tuan)隊人員交流,在了(le)解他(ta)們(men)創(chuang)業故事、核心(xin)(xin)技術和發展(zhan)路徑的過程中,我(wo)們(men)也(ye)看到了(le)當下通話降(jiang)噪技術領(ling)域的發展(zhan)現(xian)狀。

實際上,大象聲科的AI通話降噪算法最初被錘子科技創始人羅永浩看中,應用在了堅果手機上,隨即一戰成名,業務逐漸向智能手機、PC、車載聲(sheng)場控制、智能家居(ju)、助(zhu)聽器等多(duo)個領域(yu)拓展。同(tong)時,他(ta)們背后(hou)還有(you)小米、高(gao)通等企業的投資。

今年4月,大象聲科還官宣了一筆超億元人民幣的B輪融資,由蘭璞資本領投,佳康科技基金、紫金港資本跟投。這是它成立四年多以來公開的第4筆融資。

下面是我和大象聲科戰略總監的交流干貨:

被羅永浩看中后一戰成名,小米高通投資!這家AI創企牛在哪?

▲大象聲科公司團隊合影(ying)

一、硬核創始團隊加持,用AI拓展人類聽覺感知

“與機(ji)器視覺(jue)相比,現在機(ji)器在聽(ting)這件事情上并(bing)不(bu)夠(gou)智(zhi)能(neng)。”大象(xiang)聲科戰略總(zong)監(jian)談(tan)到,大象(xiang)聲科成(cheng)立的初衷就是希望通過機(ji)器聽(ting)覺(jue)技術,賦予機(ji)器像(xiang)人一樣的聽(ting)力,比如說能(neng)解決經典的雞尾酒會問題(ti)。

何為雞尾酒會(hui)問題?簡單來說,當許多人(ren)同(tong)在(zai)(zai)一個場(chang)合內說話時,人(ren)類能通過注意力集中在(zai)(zai)某(mou)一個人(ren)的談話中,而(er)忽(hu)略背(bei)景的其他談話或噪音,這也(ye)是人(ren)類聽覺系(xi)統的神奇之(zhi)處。

但對機器(qi)(qi)來(lai)說,雞尾酒會問題是一(yi)個極其大的挑(tiao)戰。因為聲(sheng)波的重疊與互相干(gan)擾,讓機器(qi)(qi)很難(nan)在信號采集(ji)完畢后對它們進行有(you)效的分(fen)離處理(li),機器(qi)(qi)難(nan)以像人(ren)一(yi)樣有(you)選擇性(xing)地去聽某一(yi)部(bu)分(fen)聲(sheng)音。

這就是(shi)大象(xiang)聲科想利用AI技(ji)術解決的(de)(de)問題(ti),從另一個角度看,就是(shi)將AI(人工智能)用于(yu)人類(lei)聽覺感(gan)知范圍(wei)的(de)(de)拓(tuo)展(zhan),“這也是(shi)我們(men)創始人們(men)一直希望實現的(de)(de)目標。”戰略(lve)總(zong)監說。

青萍始于微末。實際上,大象聲科如今成績與其創始團隊的硬核實力息息相關。

大象聲科董事長兼CEO苗健彰是位80后的連續創業者,擁有西安交大通信與信息工程學士及加拿大UBC軟件工程碩士學位,曾在溫哥華RBCIBM等全球知(zhi)名企(qi)業就職。盡管一路順風順水(shui)地(di)走來,但(dan)苗健彰心底里仍保留著創業成(cheng)事的夢想。

終于在2014年,苗健彰選(xuan)擇(ze)了辭職下海,開(kai)始(shi)在(zai)溫(wen)哥(ge)華當地(di)創(chuang)辦(ban)科技(ji)公司。此時(shi)適逢(feng)AI技(ji)術在(zai)北美蓬(peng)勃發展(zhan),他敏銳(rui)地(di)發現(xian),在(zai)語(yu)音前端信號處(chu)理的技(ji)術鏈上游環節,存(cun)在(zai)亟待深(shen)入(ru)研發的技(ji)術難(nan)題。換言(yan)之,就是存(cun)在(zai)商(shang)業機會。

經過對市場和行業的廣泛調研與摸底,苗健彰更堅定了從事語音處理AI技術研發與落地的方向和決心。而他這股創業熱忱下對技術創新及應用落地的執著,也打動了時任俄亥俄州立大學終身教授,在語音人工智能領域處于全球領先地位的頂級科學家——汪德亮教授。

于是在2016年,汪教授成功加盟創業團隊任首席科學家,并引薦了其實驗室的訪問學者——時任內蒙古大學教授的張學良。一直以來,張學良教授在CASADNN等技術研究與落地實施等領域有深厚造詣,隨后他也以CTO的身份成功加盟。

隨著兩位行業大咖的加盟,并基于創始團隊對國內AI市場藍海的判斷與未來蓬勃發展的看好,20172月,大(da)象聲科在深圳正式注冊成立。

被羅永浩看中后一戰成名,小米高通投資!這家AI創企牛在哪?

▲從(cong)左至右分(fen)別(bie)為大(da)象聲科董事長(chang)兼CEO苗健彰,首席科學(xue)家(jia)汪德亮(liang),CTO張學(xue)良

目前除了深圳總部外,大象聲科在南京、上海、臺灣等地均有分部,整體團隊規模約70人,核心研發團隊占比超60%

基于學(xue)術界(jie)知名學(xue)者(zhe)的(de)深厚技(ji)術經驗和研究理(li)論(lun)加持,大象聲(sheng)科也開啟了機器學(xue)習語音(yin)賽道的(de)新航線。

二、以AI通話降噪為核心的技術城池

技術是立(li)足之(zhi)(zhi)本。在公司(si)成立(li)之(zhi)(zhi)初(chu),大象聲(sheng)科(ke)就瞄準前(qian)端信號(hao)處(chu)理(li)賽道,率先將(jiang)深度學習(xi)技術應用(yong)到語音增強中。

在此之前,前端信號處理領域較為傳統的主流方案是基于穩態噪聲假設下,利用濾波器將噪音信號過濾掉,留下一部分相對清晰的語音信號。”戰略總監解釋,但(dan)這降(jiang)噪(zao)效(xiao)果非常(chang)有(you)限,因為(wei)真實場景中存在的非穩態噪(zao)音如(ru)馬路上的噪(zao)音、咖啡廳內(nei)噪(zao)音和地鐵中的噪(zao)音等(deng)是不符合穩態假設的。

而以汪德亮教授的CASA研究為導向的AI流派,則利用AI將人聲與非(fei)人聲進行區分(fen),從各類復雜的(de)非(fei)穩態環境噪(zao)音中分(fen)離與提取出清晰的(de)人聲,從而突破了傳(chuan)統語音信(xin)號處理的(de)瓶頸(jing)。

在這一過程中,降噪的技(ji)術(shu)難題(ti)從(cong)最初(chu)的單純(chun)過濾問題(ti)變(bian)成了一個分類問題(ti)。也正是(shi)基于(yu)這一差異化技(ji)術(shu)路徑,大象聲科逐漸構筑(zhu)起了自己的技(ji)術(shu)壁壘。

算法方面,目前大象聲科核心聲學算法覆蓋智能降噪、回聲消除、混響抑制、語音喚醒、聲源定位、波束形成、聲紋識別、DHS深度嘯叫抑制等方面,為客戶提供一系列面向智能手機、藍牙耳機、PC、車載(zai)、助聽器等(deng)領域的智能語音增強和(he)語音交(jiao)互解決方案。

“我們的(de)底層技術是(shi)通過AI去做語音信(xin)號處理(li),而通話降噪是(shi)我們技術落地的(de)基礎之一。”戰略總監告訴智東西,面向不同的(de)細分賽道和聲學結(jie)構,大象(xiang)聲科還相應發布了一些列語音增(zeng)強解決方(fang)案。

例如,大象聲科針(zhen)對藍牙耳機(ji)推出的(de)Vocplus Headphone解決(jue)方(fang)(fang)案,基(ji)于深度學(xue)習和計算聽覺場景分(fen)析理論而研發,能夠實時分(fen)離人聲和背景噪聲并提取(qu)清晰人聲,大大提升用戶在地鐵、商場、馬路(lu)等各類噪聲環境(jing)下的(de)通話(hua)體(ti)驗。目(mu)前,該方(fang)(fang)案還擁(yong)有Al單(dan)麥(mai)、AI雙麥(mai)、AI三麥(mai)和AI單(dan)麥(mai)骨傳融(rong)合(he)版本。

“整體來(lai)看,得(de)益于汪教授二三十年來(lai)的(de)研究經驗,我們的(de)技術(shu)儲(chu)備(bei)非常(chang)多。”戰(zhan)略總監提到,包(bao)括幾年后的(de)技術(shu)路徑,大象聲科都(dou)有(you)非常(chang)清(qing)晰(xi)的(de)規劃,并較(jiao)為(wei)清(qing)楚地看到技術(shu)的(de)發展方向(xiang),以此(ci)不斷拓展公司的(de)技術(shu)節點與(yu)業務布局。

被羅永浩看中后一戰成名,小米高通投資!這家AI創企牛在哪?

▲大象聲(sheng)科公(gong)司辦(ban)公(gong)區

三、創業之初的關鍵一役,業務拓展要啃最硬的骨頭

盡管擁有一支硬核的(de)創始團隊以及不少(shao)(shao)前沿技術(shu)經驗,大象(xiang)聲科在成立之初還是(shi)遇到了不少(shao)(shao)難(nan)(nan)題,融資(zi)就是(shi)公司起(qi)步(bu)的(de)其中一道難(nan)(nan)關(guan)。

20181月(yue),當大象(xiang)聲科拿到(dao)由紫(zi)金(jin)(jin)港資(zi)本、摯金(jin)(jin)資(zi)本及狗尾草智能投資(zi)的(de)天使輪(lun)融資(zi)后,如何推動(dong)技術方案落(luo)地(di)是擺在(zai)他們面前的(de)一大難題。

當時公司只是幾個人組成的小團隊,在沒有大客戶背書的情況下,我們是很難直接被小米、華為等手機大廠商認可的。”戰略總監回憶道,因此最初大象聲科在尋(xun)求(qiu)技(ji)術落地方(fang)面屢(lv)屢(lv)碰壁(bi)。

對永遠有準備的新玩家來說,機會也許會遲到,但從不會缺席。恰逢當時的錘子科技正緊鑼密鼓地進行新產品研發,相對而言,老羅是一個喜歡嘗試新事物的人。”戰略總監說,因此錘子科技也率先嘗試將大象聲科的Vocplus Telecom智能通(tong)話降噪(zao)方案用在堅果手(shou)機(ji)上。

20184月,隨著大象聲科智能通話降噪方案在堅果手機3上量產,也讓小米、高通等廠商陸續看到了大象聲科的潛力與價值,客戶和融資機會隨之而來,而小米和高通也于20185月完成了對大象聲科的A輪投資,2018年也成(cheng)為公司揚帆(fan)起(qi)航的重要一年。

同(tong)時在這(zhe)一年,大象聲科的Vocplus Gaming上行方案還(huan)成功在努比(bi)亞紅魔Mars量產,并與高通聯合展示了基于高通驍龍855芯片的AI通話降噪(zao)方案。

被羅永浩看中后一戰成名,小米高通投資!這家AI創企牛在哪?

但手機并不是大象聲科AI通話降噪技術唯一的落地方向,從2019年起,大象聲科開始朝著更廣闊的業務邊界拓展。同年12月,其Vocplus Headphone方案首次在OPPO Enco Q1無線降噪耳機成功量產(chan),正(zheng)式(shi)打開耳機業(ye)務。

緊接著在(zai)2020年3月,大(da)象(xiang)聲(sheng)科(ke)正(zheng)式(shi)發布Vocplus PC方(fang)案,并成為(wei)首個在(zai)Intel GNA上運行的(de)(de)第三方(fang)語音(yin)方(fang)案商。這(zhe)意味著,大(da)象(xiang)聲(sheng)科(ke)的(de)(de)AI語音(yin)降噪(zao)算法技術再一次得到廣泛落地的(de)(de)機(ji)會,包括聯想、惠普(pu)、戴爾等計算機(ji)公(gong)司(si),都(dou)是(shi)其重要(yao)的(de)(de)已有或潛在(zai)客戶。

實(shi)際上,2020年對(dui)大象聲科(ke)而言也(ye)是一個重要(yao)的(de)發展(zhan)節點。

6月其單麥克風骨傳導AI降噪算法落地漫步者TWS耳機,到9月首次打入華為供應鏈,到年底聯想首款搭載其算法的PC在海外正式量產發布,再到2021年初同多家造車新勢力深度合作,大象聲科一路狂飆突進,AI降噪(zao)算法技術(shu)實(shi)現(xian)多點落地開花。

如今,大象聲科的朋友圈”已(yi)覆蓋高通、英特爾、Arm、恒玄等國內外知名芯片廠商,以及華為、小米、OPPOvivo、聯想、摩托羅拉等品牌企(qi)業。

被羅永浩看中后一戰成名,小米高通投資!這家AI創企牛在哪?

不過,從手機到耳機再拓展至PC,大象聲科一步步切入市場的思考邏輯是怎樣的呢?

“我(wo)們(men)的(de)思路(lu)是要先啃最硬的(de)骨頭,但(dan)這并(bing)不(bu)代表(biao)我(wo)們(men)要死磕。”戰略(lve)總監談(tan)到(dao),一(yi)方面(mian),最難(nan)(nan)的(de)方向也存在較大的(de)市場空(kong)(kong)間,對公司發展來說(shuo)是好事(shi)情;另一(yi)方面(mian),從較高的(de)難(nan)(nan)點開始起步,也能為公司帶來更廣闊(kuo)的(de)技術空(kong)(kong)間。

例(li)如在TWS耳(er)機(ji)興起(qi)之初,大(da)象聲科認(ren)為AI降噪算(suan)法(fa)落地耳(er)機(ji)的(de)其中一(yi)個難點在于(yu),AI算(suan)法(fa)本身的(de)尺寸(cun)較大(da),不僅需要經(jing)過大(da)量數據訓練以(yi)形(xing)成(cheng)神經(jing)網絡,還對算(suan)力有較高需求。但耳(er)機(ji)的(de)存儲(chu)空間比手(shou)機(ji)小得多,意味著它能承載(zai)的(de)算(suan)法(fa)尺寸(cun)也更小。

因(yin)此,如何將大尺寸算法“裁剪(jian)”成能放進耳(er)機(ji)中的(de)小尺寸算法,也是一(yi)個(ge)AI降噪(zao)算法落地耳(er)機(ji)領域的(de)一(yi)塊硬骨頭(tou)。

正是基于這一思路,大象聲科的業務不斷成熟拓展。自成立至今,大象聲科Vocplus AI智(zhi)能(neng)語音增強與語音交(jiao)互算法已賦能(neng)近億臺智(zhi)能(neng)終端產(chan)品(pin)。

四、海外市場是重要業務方向,加速實現人聲之間分離

現階段,智能手機、藍牙耳機、PC領域和智能車載仍是大象聲科的主要落地方向,但每一個賽道對我們來說都十分重要。”戰略總(zong)監談到,從業務層面看,未來大象聲科也會逐漸朝AR/VRIoT、穿戴設備以(yi)及助聽(ting)器等對人(ren)機(ji)交(jiao)互需求高(gao)的場景(jing)進一步延伸(shen),持續拓展新平(ping)臺。

不僅如此,大象聲科還將進一步朝海外市場拓展。因為我們公司團隊本就擁有較為國際化的傳統基因。他解釋,同(tong)時(shi)包括摩托羅拉、聯想(xiang)等在內(nei)的(de)國(guo)際化品牌客戶,也為大象聲科的(de)海外業務拓展提供了經驗,這也將是公司接下來(lai)的(de)業務發展方向(xiang)之一。

而在技術層面,大象聲科仍將專注于AI智能(neng)(neng)聽覺技術(shu)的研(yan)發與應用,加速(su)在(zai)移動通信、遠程會(hui)議、藍牙耳機、助聽器、智能(neng)(neng)家居及車載聲場控制等領域(yu)的算法及專用芯片的研(yan)發。

被羅永浩看中后一戰成名,小米高通投資!這家AI創企牛在哪?

▲深度學習聲音(yin)分離技術的流程(圖(tu)源:IEEE Spectrum)

“我們(men)要把(ba)基于(yu)AI做(zuo)語音信號處理這件事情(qing)做(zuo)到極致。”戰略總監說。

在(zai)(zai)他看來,現(xian)階段機器(qi)在(zai)(zai)聽(ting)覺方面仍然很“愚蠢”,這(zhe)意味著也有非常(chang)大的空(kong)間和應用(yong)場(chang)景,可以用(yong)AI去(qu)做相關的語音信(xin)號(hao)處理(li)工作。

“現(xian)在機器(qi)視覺(jue)領域的技術已經很聰明(ming)了,不過都主要應用在門(men)禁、刷臉(lian)支付等(deng)場景,相對都是B端(duan)領域,但只(zhi)要C端(duan)市場不爆(bao)發,機器(qi)視覺(jue)技術就很難實現(xian)井噴(pen)爆(bao)發。”戰略總監解(jie)釋,相比之下,當下的耳機等(deng)消費電子產品的火熱(re),也給人與機器(qi)聽覺(jue)的交互提(ti)供了更(geng)多的機會(hui)。

“如(ru)果AI技(ji)(ji)術能(neng)夠改變人與機器(qi)在(zai)語(yu)音交(jiao)互方面(mian)的(de)(de)功能(neng),這不(bu)僅能(neng)推(tui)動機器(qi)聽覺技(ji)(ji)術的(de)(de)成熟落地(di),也(ye)能(neng)更快地(di)市場發展(zhan)帶來(lai)更大的(de)(de)經(jing)濟(ji)效益(yi)。”他說。

結語:機器聽覺領域發展仍道阻路長

在智東西與(yu)大象聲(sheng)科戰(zhan)略總監的(de)深入(ru)交流中,我們也看到一(yi)幅(fu)描繪(hui)著(zhu)AI語音技術創新(xin)落(luo)地的(de)商業藍圖,正在我們面前徐(xu)徐(xu)鋪開。

盡管(guan)與機(ji)器(qi)(qi)視覺(jue)技(ji)術(shu)相比,機(ji)器(qi)(qi)聽覺(jue)技(ji)術(shu)仍顯(xian)得較為年輕,但(dan)在(zai)其大量的細(xi)分(fen)賽道(dao)之下,許(xu)多玩家爭相入局,各類AI語音解決(jue)方案(an)百(bai)花(hua)齊放,也為機(ji)器(qi)(qi)聽覺(jue)技(ji)術(shu)的發展注(zhu)入了(le)源源不(bu)斷的生命力(li)。

相信在未來,這條技術長河中的每位玩家(jia)都能找到(dao)屬于自己的位置,共同推動機器聽覺領域的應用(yong)爆發、技術繁榮與發展。