
2019年,對于所有人工智能公司而言,AI的規模化商業落地都是一道“魔考”。?
近日,搜狗公司做了一件事,向錄音筆硬件廠商開放搜狗聽寫服務,接入這一能力的錄音筆,就可以像搜狗AI錄音筆一樣智能,實現語音轉寫、實時互譯、智能編輯等功能。 ?
這件事乍一看平淡無奇,AI賦能產業也是老生常談的話題。但如果用時間線把搜狗布局AI的打法串起來,你會發現這一背后別有洞天。?
從最早的技術開放平臺搜狗“知音引擎”到硬件產品AI翻譯機、錄音筆,再到如今開放產品背后的AI服務能力,搜狗AI落地又進入一個新的階段,服務成了輸出的重點。?
搜狗AI交互技術中心總經理王硯峰的一句話更是直指AI商業落地的“痛點”,“只做技術是不夠的,沒有面向場景的深度優化,技術就是一種雞肋”。?
一、轉變背后:硬件打磨技術體驗,軟件搶占市場
早(zao)在(zai)2016年,搜狗開始做語(yu)音開放平臺“知音引擎(qing)”,并嘗試(shi)將技術推(tui)向(xiang)行(xing)業,但(dan)探索(suo)一段時間后(hou),搜狗決定暫時不將這條路作(zuo)為主攻方向(xiang)。
原因是時機不到。在AI平臺發展早期,軟件免費的思路還停留在很多人心中,“你給我技術,我幫你做品牌背書”成為一種早期玩法,再加上通用技術平臺的體驗并不理想,技術提供商沒有獲得行業太多認可。 ?
另(ling)一方面(mian),面(mian)對百度、科大訊(xun)飛(fei)等(deng)玩(wan)家的(de)語音平臺,盡管搜狗也有不錯(cuo)的(de)技術積(ji)累,但(dan)在生(sheng)態資源的(de)比拼上也并(bing)不占優勢。
因(yin)此(ci),從2017年(nian)下半(ban)(ban)年(nian)開始,搜狗不(bu)再大力去推技術開放平(ping)臺(tai),而是沉下心(xin)來(lai)將技術下沉,打磨場(chang)景與硬(ying)件,并在2018年(nian)上半(ban)(ban)年(nian)推出AI翻譯機(ji)和AI錄音筆產品。
?
以錄(lu)音(yin)筆(bi)(bi)(bi)為(wei)例,傳統的(de)(de)(de)錄(lu)音(yin)筆(bi)(bi)(bi)功能(neng)單(dan)一(yi)(yi),主要就是錄(lu)音(yin)。而搜(sou)狗(gou)AI錄(lu)音(yin)筆(bi)(bi)(bi)則不(bu)同,錄(lu)音(yin)后(hou),它可以提供準確(que)率高達95%以上的(de)(de)(de)語音(yin)轉寫,還具備實時互譯、云(yun)端分享(xiang)、中英同傳等多種AI 功能(neng)。憑借著語音(yin)轉寫和(he)離線翻譯等方面優秀的(de)(de)(de)表現,搜(sou)狗(gou)錄(lu)音(yin)筆(bi)(bi)(bi)上市(shi)后(hou),短時間(jian)內就在多個(ge)電商平臺取得了(le)單(dan)品(pin)銷量第一(yi)(yi)的(de)(de)(de)成績,在這一(yi)(yi)領域構建(jian)了(le)核心的(de)(de)(de)競爭優勢(shi)。
與(yu)此同時,行業(ye)的(de)觀念也開(kai)(kai)始轉變。行業(ye)一些玩(wan)家(jia)意(yi)識到,通用技(ji)術平(ping)臺雖然免費(fei),但并(bing)不會(hui)針對具體(ti)場景做(zuo)優(you)化(hua),往(wang)往(wang)導致產(chan)品體(ti)驗不足(zu)。在尋找更(geng)優(you)的(de)技(ji)術方案同時,行業(ye)為技(ji)術付費(fei)的(de)意(yi)識開(kai)(kai)始增強。
這時不(bu)少公司主動找到搜狗(gou),甚至包括(kuo)一(yi)些(xie)硬件上的(de)競爭對(dui)手,詢問能否購買搜狗(gou)的(de)AI翻譯能力(li)(li)(li)。王硯峰回憶道,“盡管提供(gong)技術平臺(tai)和提供(gong)服(fu)務能力(li)(li)(li)都是ToB,但兩者的(de)感(gan)受完(wan)全(quan)不(bu)同,最初行業都涌入技術開放平臺(tai),但在(zai)方案上沒有誰真正不(bu)可(ke)替代,客戶(hu)可(ke)以在(zai)多家(jia)之間來回切(qie)換;但當你在(zai)一(yi)個場景形成獨特優勢、構建核心壁(bi)壘后(hou),行業會(hui)更尊重你,愿意購買你的(de)服(fu)務能力(li)(li)(li)。”
這成為搜狗再一次轉身,改變AI的落地方向的導火索。?
隨著硬件之路的深入,搜狗意識到一個問題,在C端硬件市場,即使是最大的玩家,往往也很難占據50%以上的市場份額。這跟軟件完全不同,軟件可以發揮網絡效應,一家獨大,占據一個市場80%以上的份額。典型的代表就是手機市場的多品牌和安卓操作系統的一家獨大。?
此外,錄音筆是一個相對狹小的市場,我國每年的銷量均在400萬臺徘徊,并且這一市場有搜狗、科大訊飛等科技公司,還有索尼、愛國者等硬件企業,競爭同樣激烈。?
再加上搜狗(gou)是一家“技(ji)術范”十足的(de)(de)公司,線下(xia)渠道能(neng)力以及銷售能(neng)力相比傳統的(de)(de)硬(ying)件廠商并不(bu)占優勢。
這意味著搜狗很難在硬件上一家獨大。如何搶占更大的市場份額?如果硬件不能,軟件上是否有機會?經過搜狗內部一番思考,王硯峰認為,軟件這條路是有希望的,經過場景的深度優化后,即使面對BAT等互聯網巨頭,搜狗在AI翻譯、語音轉寫上也具有明顯優勢。?
因此,搜狗決定再往前邁一步,開放AI錄音筆背后的聽寫服務,為錄音筆行業提供OS系統,成為軟件服務的核心提供者。?
這是否又意味著硬件對搜狗的重要性會下降?王硯峰表示,硬件依然是主戰場,和AI一樣,都是搜狗的幾大戰略之一,因此硬件和開放服務對于搜狗同樣重要。?
在他看來,智能(neng)硬(ying)(ying)件和AI技(ji)術(shu)研究是密(mi)不可(ke)(ke)分(fen)的(de),硬(ying)(ying)件是AI技(ji)術(shu)的(de)載體(ti),AI是硬(ying)(ying)件產品的(de)靈魂。只有面(mian)向用戶體(ti)驗,深入場景(jing)打磨技(ji)術(shu),將技(ji)術(shu)、硬(ying)(ying)件、場景(jing)融合才能(neng)構建(jian)AI的(de)競爭力(li)(li)。另一(yi)方(fang)面(mian),開放聽(ting)寫服務,可(ke)(ke)以將搜狗(gou)打磨好的(de)技(ji)術(shu)方(fang)案,以服務能(neng)力(li)(li)對外輸出,推動搜狗(gou)AI的(de)規(gui)模(mo)化落地。
用硬件打磨技術體驗,用軟件服務搶占市場、規模化落地,這一策略正在成為搜狗AI新的打法,也體現了其對AI落地更深層的思考。?
二、“只做技術是不夠的,關鍵是服務能力”
回到錄(lu)音(yin)筆(bi)行業,我們今(jin)天見到的(de)錄(lu)音(yin)筆(bi),無論是外觀還是功能(neng),跟(gen)2000年前后的(de)產(chan)品并無太多(duo)變化。
也正是傳統錄音筆單一的功能、低頻次的使用場景,智能手機正在成為它的替代品,目前手機錄音APP已可以完成大部分場景的錄音,有力地沖擊這一市場的發展。?
這也(ye)導致錄音筆一(yi)直是個小眾市場,近幾年(nian)每年(nian)的(de)(de)銷量都在430萬臺(tai)左(zuo)右(you),銷量一(yi)直停(ting)滯(zhi)不前甚至一(yi)度下滑。而各家(jia)比拼的(de)(de)無非音質、電量、存儲空(kong)間的(de)(de)提升(sheng),至于用戶使用錄音筆到底做什么,背(bei)后的(de)(de)服務(wu)體驗如何,行業鮮有(you)思考。
搜狗本次開放的聽寫服務,則依托自身扎實的AI技術和錄音筆場景的深度實踐。去年3月搜狗發布了一款AI錄音筆,經過用戶較長一段時間的使用,搜狗對海量的用戶行為數據進行深入分析后,第一次為行業呈現了用戶的真實畫像。?
?
搜狗發現,使用錄音筆的第一大場景并非大家預想的媒體采訪,而是企業內部的商務場景,比如會議記錄,占比高達44%;第二大場景是企業內部培訓,占比為24%;第三大場景才是采訪,占比21%,這三大場景加在一起占了錄音筆使用場景的90%。?
而且在使用錄音筆的用戶中,每周使用頻次超過三次以上的用戶占比達60%,每周超過10次的占比達15%;在錄音時長上,41%的用戶錄音超過10分鐘。 可見,大比重的用戶保持較高的使用頻次和使用時長。?
這三大核心(xin)場景(jing)也(ye)促使(shi)搜狗進一(yi)步(bu)思考,AI可(ke)以為用戶(hu)帶來(lai)什么(me)價值。比如一(yi)場會議錄音可(ke)能長達(da)(da)數(shu)小時,語音轉(zhuan)成文字(zi)(zi)長達(da)(da)數(shu)萬字(zi)(zi),用戶(hu)如何(he)準確、輕松的(de)整理內容(rong),快(kuai)速(su)(su)出(chu)稿,以及編輯完后,如何(he)快(kuai)速(su)(su)的(de)分享給同事等等。
基于這(zhe)些思考,搜(sou)狗更有針對性的將(jiang)AI技(ji)術融入聽寫服務中,為行業輸出優(you)質的產(chan)品體驗(yan)。
?
具體而言,首先搜狗開放了高準確度的語音轉寫能力,并支持10余種語音識別及方言識別。它采用業界領先的深層Transformer-based 端到端聲學模型、神經網絡語言模型、智能標點預測技術等,語音轉寫準確率可達95% 以上。?
第二,麥(mai)克風陣(zhen)列和(he)語音增強技術。搜狗(gou)基于(yu)“云端+本地”結合,打(da)造了(le)雙麥(mai)語音方(fang)案(an),并針對(dui)遠(yuan)場噪音環境(jing),做了(le)專門的降噪算(suan)法。
第三,個性化語音識別技術。語音轉寫時,關鍵詞識別錯誤給用戶體驗帶來的體驗是糟糕的。搜狗通過打通輸入法賬號體系,基于產品中用戶數據的使用習慣,自動挖掘用戶的個性化詞組,使用戶常用語的轉寫錯誤率下降40%以上。?
第四,智能編輯與多端同步編輯。語音轉寫不是目的,用戶的最終目的是編輯成文。通過云端智能糾錯編輯技術,搜狗聽寫可以針對置信度低的轉寫結果提供多個候選詞,針對口頭語、重復詞進行自動文本順滑。此外它還支持三到四人的人聲識別,語音轉寫時在內容上自動區分說話人。?
第五,云存儲服務。用戶的錄音和文字都可以長期安全地保存在云端。?
搜狗王硯峰解釋道,市面上做AI技術輸出的公司,更多是把技術以API接口的形式輸出,但“只做技術是不夠的,沒有面向場景的深度優化,技術就是一種雞肋”。?
區別與此,搜狗重點做了兩件事,一是把中臺服務做得更完善,包含賬戶管理、轉寫技術、云同步功能、智能編輯等;二是提供了服務接入層,合作伙伴可以通過藍牙開放協議零成本接入,讓用戶通過PC 和移動端享用搜狗聽寫的增值服務。?
回到錄音筆行業,單純比拼硬件的商業模式已經持續了近20年。而在搜狗聽寫服務背后,市場的天花板似乎正在打開,以AI+軟件服務+硬件的方式,正在重新定義錄音筆和新的商業模式。 ?
三、聽寫服務的基石:搜狗輸入法
搜狗聽寫服務的背后,有一個容易被忽視的存在——搜狗輸入法,它對于聽寫服務,乃至搜狗AI都意義重大。?
目前搜狗輸入法APP 已擁有超4.5 億的日活用戶,PC 端更是占據99% 的市場份額,語音請求峰值已超7 億次,穩居全球最大的中文語音應用。?
搜狗輸入法背后的龐大用戶和海量數據,首先為聽寫服務提供了絕佳的“練兵場”,聽寫服務中核心的語音轉寫技術早就在輸入法中上線,不同的是,輸入法中語音轉寫的場景以單句話為主,而錄音筆中語音轉寫是更長的篇幅。經過海量數據和真實場景的優化,搜狗的語音轉寫才能達到95%以上的效果。?
其(qi)次,搜狗(gou)輸(shu)(shu)(shu)入(ru)法(fa)提(ti)供(gong)“入(ru)口”優勢,移動端和PC端的(de)輸(shu)(shu)(shu)入(ru)法(fa)都支(zhi)持搜狗(gou)聽(ting)寫(xie)服(fu)(fu)務(wu)(wu)。在PC輸(shu)(shu)(shu)入(ru)法(fa)上(shang),聽(ting)寫(xie)服(fu)(fu)務(wu)(wu)作為一項應(ying)用(yong)直接內(nei)置(zhi)到(dao)PC輸(shu)(shu)(shu)入(ru)法(fa)的(de)工具箱中(zhong),當錄音筆插到(dao)電(dian)腦上(shang)后,輸(shu)(shu)(shu)入(ru)法(fa)就(jiu)能自(zi)動探測(ce)到(dao)它,幫助用(yong)戶進(jin)行音頻管(guan)理(li),并(bing)提(ti)供(gong)聽(ting)寫(xie)服(fu)(fu)務(wu)(wu)。針對(dui)存(cun)量錄音筆,這一方(fang)式可(ke)謂直接增加了其(qi)附加值。
憑借著99%的(de)市(shi)場覆(fu)蓋率(lv),PC輸入法有一(yi)個獨特的(de)優勢,凡(fan)是工具性(xing)、效率(lv)性(xing)的(de)工具都可以內置其(qi)中,不需要(yao)二次安(an)裝,用(yong)戶隨時(shi)調(diao)用(yong),這大(da)大(da)提升了(le)用(yong)戶使用(yong)的(de)便捷性(xing)。
在移動端,搜狗在輸入法APP中也開放了聽寫服務的接口,一方面4.5億日活用戶帶來一個龐大的市場,能夠讓用戶更便捷的使用聽寫服務,龐大使用量也可以更快速的迭代聽寫服務背后的AI技術和產品體驗。?
另一方(fang)面(mian),將聽(ting)寫(xie)(xie)服務直(zhi)接內置(zhi)到輸入法上,避免了賬號打通的問題,可以更便捷(jie)的使用賬號的歷史數據提(ti)供(gong)個性(xing)化的聽(ting)寫(xie)(xie)服務。
不只是聽寫服務,在搜狗AI的版圖中,輸入法就是AI技術的練兵場,它為技術研究設置問題,為技術的演進提供源源不斷的數據洪流,又提供最佳的落地載體,扮演著“源頭活水”的角色。?
王硯峰也(ye)表示,開放聽寫服(fu)務(wu)只是搜狗(gou)的(de)第(di)一(yi)步,未來(lai)搜狗(gou)將會進一(yi)步發揮輸入(ru)法的(de)入(ru)口優勢(shi),將自(zi)身的(de)語音翻譯能(neng)力都以服(fu)務(wu)的(de)形式開放出來(lai),為(wei)用(yong)戶帶來(lai)更(geng)大(da)價值(zhi)的(de)同時,搶占更(geng)廣闊的(de)軟(ruan)件服(fu)務(wu)市(shi)場。
從輸出技術(shu)到打造硬件,再到提供服務(wu),是(shi)搜(sou)狗(gou)AI發展的(de)一個轉折(zhe)點,也是(shi)搜(sou)狗(gou)AI落地的(de)深(shen)化。