智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影

智(zhi)東(dong)西6月(yue)25日報道,6月(yue)24日上午,一場(chang)科技(ji)盛會在北京召(zhao)開。

全國科(ke)技大(da)(da)會(hui)、國家科(ke)學技術(shu)獎勵大(da)(da)會(hui)、兩院(yuan)院(yuan)士大(da)(da)會(hui)首次共同(tong)舉行,總(zong)書記為(wei)最高科(ke)學技術(shu)獎獲(huo)得者等頒(ban)獎。

同時,國(guo)家(jia)自然(ran)科(ke)(ke)學獎、國(guo)家(jia)技術(shu)發明獎、國(guo)家(jia)科(ke)(ke)學技術(shu)進步(bu)獎等獎項重(zhong)磅揭榜。

在獲獎名單中,我們看到華為、科大訊飛、阿里云、小米等科技公司出現,而科大訊飛作為第一完成單位的“多語種智能語音關鍵技術及產業化”項目,更是斬獲國家科學技術進步獎一等獎

重磅!“國獎”放榜:十年來AI 領域首個國獎一等獎花落科大訊飛

這是深度學習引發全球人工智能浪潮以來,過去十年人工智能領域首個國家科學技術進步獎一等獎

據悉,這一集合(he)了多語(yu)(yu)種(zhong)語(yu)(yu)音識別(bie)、多語(yu)(yu)種(zhong)語(yu)(yu)音合(he)成、多語(yu)(yu)種(zhong)翻譯(yi)技(ji)術等為一體的(de)綜合(he)技(ji)術,解決覆(fu)蓋69個語(yu)(yu)種(zhong)的(de)跨文化(hua)交流(liu)難(nan)題。

當下正值大模(mo)型掀(xian)起(qi)新一(yi)波革命,OpenAI推出的GPT-4o爆火全(quan)球,一(yi)大原因是(shi)“語音(yin)+大模(mo)型”的全(quan)新震撼(han)交(jiao)互體驗。

這一次(ci)的(de)“國(guo)(guo)獎”,則讓(rang)我們看到了(le)中國(guo)(guo)AI的(de)隱(yin)藏實(shi)力和“語音(yin)+大模型”的(de)廣(guang)闊前景。

一、史上最卷科技“國獎”,神仙打架

6月24日,2023年(nian)度國家科(ke)學技術(shu)獎揭榜,被央視網(wang)、人民網(wang)等(deng)主(zhu)流媒體輪(lun)番報道,占據各大科(ke)技媒體的頭版頭條。

五大科技獎項揭榜結果大致如(ru)下:

國家最高(gao)科學(xue)技(ji)術獎(jiang)2人:分(fen)別授予(yu)武漢(han)大學(xue)李德仁(ren)院(yuan)士、清華大學(xue)薛其(qi)坤院(yuan)士;

國家自然科學獎49項(xiang)(xiang):一等(deng)(deng)獎1項(xiang)(xiang),二等(deng)(deng)獎48項(xiang)(xiang);

國家技術發明獎(jiang)62項(xiang):一(yi)等獎(jiang)8項(xiang),二(er)等獎(jiang)54項(xiang);

國(guo)家科學(xue)技術(shu)進(jin)步獎(jiang)(jiang)139項:特等獎(jiang)(jiang)3項,一等獎(jiang)(jiang)16項,二(er)等獎(jiang)(jiang)120項;

中(zhong)華人(ren)民共(gong)和國(guo)國(guo)際科學技術(shu)合作獎:10人(ren)。

本屆國獎被稱為史上最(zui)(zui)難、最(zui)(zui)嚴格的一屆評獎。

一是(shi)因為從(cong)2017年(nian)開始至(zhi)今,國家科(ke)學技術獎(jiang)勵數度(du)改革,強(qiang)調科(ke)技獎(jiang)勵工作要堅持國家戰略(lve)導向,并與國家重大戰略(lve)需求(qiu)和(he)(he)中長期科(ke)技發展規劃(hua)緊密結(jie)合(he)。改革之后,提(ti)名(ming)制和(he)(he)寧缺毋濫(lan)是(shi)兩個重要原則:提(ti)名(ming)制,壓實了提(ti)名(ming)者對材料把關(guan)的責任,加強(qiang)了對候選者的審(shen)核(he)和(he)(he)誠(cheng)信審(shen)核(he);寧缺毋濫(lan),讓獎(jiang)項評審(shen)更加嚴格,比如說2020年(nian)度(du)國家科(ke)學技術進步獎(jiang)計(ji)算機與自動控制組(zu)的一等獎(jiang)就是(shi)空缺的。

二是,因(yin)2021年、2022年國家科技獎暫(zan)停(ting),大量優秀成果累積,競爭極其(qi)激烈。2023年受理的通(tong)用項(xiang)目總數(shu)為1261項(xiang),僅(jin)(jin)243項(xiang)通(tong)過初評,最終(zhong)僅(jin)(jin)28項(xiang)最終(zhong)獲得特等獎、一(yi)等獎,約占2%。

國(guo)家科(ke)學(xue)技術(shu)進步(bu)獎(jiang)更是競爭者眾。由垂直專業新媒體(ti)“科(ke)獎(jiang)圈”于今年2月的統計可知,2023年科(ke)技進步(bu)獎(jiang)共28個(ge)分組(zu)(zu)、709個(ge)項(xiang)目。聚焦信(xin)息領域,主要(yao)有計算(suan)機與自動控制(zhi)組(zu)(zu)(45項(xiang))、電子與科(ke)學(xue)儀(yi)器組(zu)(zu)(28項(xiang))、網絡與通信(xin)組(zu)(zu)(13項(xiang))三個(ge)組(zu)(zu)。

重磅!“國獎”放榜:十年來AI 領域首個國獎一等獎花落科大訊飛

由(you)公開(kai)信(xin)息(xi)可(ke)知(zhi),在信(xin)息(xi)領域(yu),華(hua)為陳海波牽頭的“鴻蒙智能終(zhong)端操作系統(tong)基(ji)座(zuo)與產業應(ying)用”、百度王(wang)海峰牽頭的“產業級(ji)深(shen)度學(xue)習開(kai)源開(kai)放(fang)平(ping)臺”、曙(shu)光歷軍牽頭的“國產先進計算系統(tong)關鍵技術及應(ying)用”也都在初期(qi)提名之列。

可謂“神仙打架”。

不過,從最終(zhong)結果(guo)來(lai)看,只(zhi)有科(ke)大訊飛牽頭(tou)的“多語種智能語音(yin)關鍵技術及產(chan)業化(hua)”項目戰到最后,并(bing)獲得了國(guo)家科(ke)學技術進步獎一(yi)等獎。

這是(shi)深度學習(xi)引(yin)發新一(yi)代人工智能(neng)浪潮以來,過去(qu)十年人工智能(neng)領域首(shou)個(ge)國家(jia)科學技術進步獎(jiang)(jiang)一(yi)等獎(jiang)(jiang)。科大訊飛(fei)也是(shi)19項國家(jia)科學技術進步獎(jiang)(jiang)特等獎(jiang)(jiang)、一(yi)等獎(jiang)(jiang)中唯一(yi)作為牽頭單位(wei)獲獎(jiang)(jiang)的民營(ying)企業。

二、多語種智能語音及產業化,為何拔得頭籌

這(zhe)是一個什么(me)樣的(de)項目?

簡單來說,“多(duo)語(yu)(yu)種(zhong)(zhong)智(zhi)能語(yu)(yu)音關鍵(jian)技(ji)術(shu)(shu)及產(chan)業化(hua)”,是集(ji)合(he)了多(duo)語(yu)(yu)種(zhong)(zhong)語(yu)(yu)音識別、多(duo)語(yu)(yu)種(zhong)(zhong)語(yu)(yu)音合(he)成(cheng)、多(duo)語(yu)(yu)種(zhong)(zhong)翻(fan)譯技(ji)術(shu)(shu)等智(zhi)能語(yu)(yu)音技(ji)術(shu)(shu)和產(chan)業化(hua)為一體的綜合(he)項目。

目(mu)前,該技(ji)術支持69個(ge)語(yu)種(zhong),除了6個(ge)聯(lian)合國(guo)通用語(yu)種(zhong),包(bao)括漢語(yu)、英語(yu)、法語(yu)、西(xi)班牙語(yu)、俄語(yu)、阿(a)拉伯語(yu)等(deng),以及(ji)挪威語(yu)、丹(dan)麥語(yu)等(deng)63個(ge)小語(yu)種(zhong)。同時,該項目(mu)還覆(fu)蓋了24種(zhong)主(zhu)要中國(guo)方言。

在(zai)堅持國家戰略導向的(de)大背景下,國家科學技術進步獎的(de)評選標準更系統(tong):不僅要完成重大科學技術創新,還要實(shi)現科學技術成果轉化,創造顯(xian)著(zhu)經濟效(xiao)益。

語音是(shi)人(ren)(ren)類最(zui)自然便捷的(de)溝通方式,是(shi)智(zhi)能(neng)設備人(ren)(ren)機(ji)(ji)交互(hu)的(de)關鍵入口(kou),也是(shi)諸多敏感信(xin)息的(de)重要載體(ti),還是(shi)國際合作的(de)基(ji)礎。多語種智(zhi)能(neng)語音技術對于支(zhi)撐人(ren)(ren)機(ji)(ji)交互(hu)、人(ren)(ren)類語言(yan)互(hu)通等需求具(ju)有重大戰略意義,具(ju)有十分廣闊的(de)產(chan)業(ye)前景。尤其是(shi)在(zai)當(dang)前全球人(ren)(ren)工智(zhi)能(neng)發展迅猛的(de)大背景下(xia),多語種智(zhi)能(neng)語音技術更是(shi)當(dang)前國際科(ke)技競爭核心(xin)焦點(dian)之一。

但是,這項(xiang)技術面臨著諸(zhu)多(duo)技術難題(ti),科大(da)訊飛從四個(ge)創新點完成了技術的突破。

1、復雜語音信號解耦建模,破解“雞尾酒會”難題

要說語音識別(bie)的最突出難(nan)題是(shi)什么?很多人知道“雞尾酒會(hui)”效應——遠場、噪聲、多人講(jiang)話往(wang)往(wang)難(nan)以聽清。

對此,科大訊飛提出多(duo)通道語(yu)音信號時空分離建模方法,使人聲和噪聲精確分離;團隊還將(jiang)多(duo)維度語(yu)音屬性分層解耦(ou),簡(jian)單(dan)說就是把內容、韻律、音色以(yi)及語(yu)種等都抽(chou)出來(lai),以(yi)便更準(zhun)確地識(shi)別和傳達,從而(er)破解“雞尾酒會”難題。

2、多語種共享建模,多語言識別測評超OpenAI

再(zai)來看看另(ling)一個“卡脖子”技(ji)術——小語(yu)種(zhong)智能語(yu)音系統。在當前國際科技(ji)限制的(de)情況下,小語(yu)種(zhong)知(zhi)識匱乏、訓練(lian)數(shu)據稀(xi)缺,是困擾小語(yu)種(zhong)訓練(lian)的(de)主要難題之一。

科大(da)訊飛設(she)計(ji)了全新(xin)的(de)多語種(zhong)通用音(yin)素(su)體系(xi)和(he)(he)基本語言單元,實現(xian)多語種(zhong)統一音(yin)素(su)韻律體系(xi)的(de)構建,又通過(guo)基于元學習的(de)多語種(zhong)預訓練和(he)(he)基于語族分(fen)組(zu)的(de)多語種(zhong)共(gong)享建模——通俗地說,就是將不同的(de)小語種(zhong)進(jin)行(xing)分(fen)類(lei),找到同類(lei)語種(zhong)的(de)共(gong)同規律,進(jin)行(xing)分(fen)析建模和(he)(he)訓練——最終,顯著提升了小語種(zhong)語音(yin)系(xi)統性能。

3、語音語義聯合建模,讀懂深層含義和專業知識

人們交(jiao)流中常面臨溝通障礙(ai),深層語(yu)義(yi)理解對人來說都是困(kun)難的,更別(bie)說對機器了。

科大訊飛提(ti)(ti)出(chu)(chu)語音語義互(hu)增強的(de)魯棒口(kou)語理解技(ji)術,并提(ti)(ti)出(chu)(chu)多源知識增強的(de)可信文本生成技(ji)術,有效提(ti)(ti)升語音交互(hu)、語音翻譯等復雜場景的(de)語義理解準確(que)率,同(tong)時(shi)拉高(gao)專有詞匯(hui)及領域知識引用的(de)準確(que)率。

4、國產異構硬件平臺,建立國產化集群

面對(dui)算力“卡脖子”難題,科大訊(xun)飛(fei)也加速(su)了(le)國(guo)(guo)產(chan)(chan)異構硬件平(ping)臺關鍵(jian)技術的突破(po)。目(mu)前(qian),科大訊(xun)飛(fei)已建成5個國(guo)(guo)產(chan)(chan)化集群,2023年與華(hua)為聯合建設首個萬卡全國(guo)(guo)產(chan)(chan)算力平(ping)臺“飛(fei)星一號”,填補了(le)國(guo)(guo)產(chan)(chan)超大模(mo)型訓練平(ping)臺空白。

除了技術上的突破之外,在重要評審維度“產業化”上,科大訊飛圍繞多語種智能語音技術構建了自主可控的產業生態,開創引(yin)領(ling)了我國語音產業的產業鏈,助(zhu)力(li)中(zhong)國制(zhi)造(zao)出海;促進(jin)全(quan)球語言(yan)互通(tong)和“一(yi)(yi)帶一(yi)(yi)路(lu)”建設;并且在進(jin)一(yi)(yi)步(bu)打造(zao)覆蓋全(quan)球的國際產業生態(tai)。

具體到大家都看得到的場景上:

中國(guo)現(xian)在是(shi)汽(qi)(qi)車(che)出口第一大國(guo),出口國(guo)外的智(zhi)能(neng)汽(qi)(qi)車(che)需要有外語(yu)的交互,由科(ke)大訊(xun)飛多語(yu)種(zhong)智(zhi)能(neng)技(ji)術而開發出來的車(che)載智(zhi)能(neng)化產(chan)品,就支(zhi)持奇(qi)瑞、一汽(qi)(qi)、長安等(deng)車(che)企超(chao)200萬套訂單出海;

出國旅游,科大(da)訊(xun)飛基于(yu)多語種技(ji)術開創了智能(neng)翻(fan)譯機的新(xin)品類,帶(dai)上一個翻(fan)譯機就(jiu)像帶(dai)上一個會85種語言的AI翻(fan)譯官;

在會議(yi)、辦公等場景,訊飛(fei)(fei)聽見系列產(chan)品能夠實(shi)時記錄(lu)和翻譯會議(yi)錄(lu)音,目前服務遍及全球50多個國家和地區,支持(chi)了(le)超過40萬場會議(yi),科(ke)大(da)訊飛(fei)(fei)還基(ji)于(yu)此研發出了(le)普(pu)通用(yong)戶(hu)也能用(yong)的訊飛(fei)(fei)辦公本、訊飛(fei)(fei)錄(lu)音筆等產(chan)品。

2017年開始,科大訊飛承建智能語音國家新一代人工智能開放創新平臺,目前已聚集平臺開發者數700.7萬,意思就是由700多萬人在調用多語種智能語音技術去開發自己的產品。
這就是技術帶(dai)來的生(sheng)(sheng)生(sheng)(sheng)不息的產(chan)業生(sheng)(sheng)態。

據了解,近三年(nian)來,“多語種智(zhi)能語音關鍵技術及(ji)產(chan)業化(hua)”項目累計實現直接(jie)經濟效益 521.28 億元,并帶動由工(gong)信部和安(an)徽省(sheng)政府共(gong)建、以科大訊飛為核心的“中國聲谷”產(chan)業集聚發展。

不(bu)得(de)不(bu)說(shuo),這么多技術突破和產業(ye)發展(zhan),不(bu)是(shi)一朝一夕就能完成(cheng)的,難(nan)怪有媒體說(shuo)科(ke)大訊飛是(shi)“十年(nian)磨一劍”!

三、大模型時代,多語種智能語音技術能做什么?

眾所周知,人工智(zhi)(zhi)能(neng)又來(lai)到了(le)新的大模(mo)型時代,那么積累十年的多語(yu)種智(zhi)(zhi)能(neng)語(yu)音技(ji)術能(neng)做什么?

尤(you)其是今年5月,OpenAI推出(chu)的GPT-4o模型引爆科(ke)技圈(quan)。眾多(duo)業內(nei)專業人士認為(wei),GPT-4o對萬(wan)物互(hu)聯時代(dai)語(yu)(yu)音浪潮(chao)的推動,類似于當年Siri對語(yu)(yu)音應用的推動。一夜之間,“語(yu)(yu)音+大模型”賽(sai)道受到各(ge)界高度關注。

科大訊(xun)飛多語(yu)種智能語(yu)音(yin)關(guan)鍵(jian)技術中的創新和大模型技術是相互補充(chong)、相互促進的。

語(yu)音屬性解耦(ou)、語(yu)音信(xin)號時空分離等技術突破,可以(yi)將(jiang)語(yu)音信(xin)號經過編(bian)碼后輸入到大語(yu)言(yan)模型,顯著提升語(yu)音大模型的效果。

大(da)模(mo)(mo)型技術可以在(zai)復雜語(yu)義(yi)理(li)(li)解(jie)、長文(wen)本建模(mo)(mo)能(neng)力上進(jin)一步提(ti)(ti)升語(yu)音識別、合成和(he)(he)翻(fan)譯的(de)效果,同時基(ji)于其強大(da)的(de)語(yu)義(yi)理(li)(li)解(jie)、知識問(wen)答、多輪(lun)對(dui)話、多模(mo)(mo)態建模(mo)(mo)能(neng)力,也(ye)能(neng)進(jin)一步大(da)幅提(ti)(ti)升智能(neng)語(yu)音技術的(de)使(shi)用場景和(he)(he)應用價值。

今年1月30日,科大(da)(da)訊(xun)飛(fei)就基于上述技術融合路(lu)線發布(bu)了星火語(yu)音(yin)(yin)(yin)大(da)(da)模(mo)型,顯著(zhu)超過了OpenAI的(de)Whisper v3的(de)語(yu)音(yin)(yin)(yin)大(da)(da)模(mo)型能力,Whisper v3的(de)24個主要(yao)語(yu)種的(de)平均(jun)識(shi)別率為82%,而星火語(yu)音(yin)(yin)(yin)大(da)(da)模(mo)型達到了90%。4月26日,科大(da)(da)訊(xun)飛(fei)又首發多情感超擬人合成(cheng)和一句話聲音(yin)(yin)(yin)復(fu)刻能力,使機器具備更加豐富的(de)超擬人情緒感知(zhi)和表達。

重磅!“國獎”放榜:十年來AI 領域首個國獎一等獎花落科大訊飛

可以預測,語音同傳、自(zi)動(dong)客(ke)服(fu)、輔學答疑、家(jia)庭醫生、虛擬員(yuan)工、陪伴機器人、服(fu)務機器人……這些原有的應用都將(jiang)被(bei)變(bian)革,科幻片《她(Her)》中(zhong)的智能陪伴助理也將(jiang)成為現實。

今年6月27日,訊飛(fei)星(xing)火V4.0發(fa)布(bu)也將(jiang)公布(bu)最新的端(duan)(duan)到端(duan)(duan)落地成果,拭(shi)目以(yi)待。

結語:大國科技競賽正酣,AI新機遇到來

時隔兩年多,國家(jia)科技(ji)獎(jiang)再次重(zhong)磅頒(ban)發,引(yin)起了(le)整個智能產業圈的強烈關注。

這是十(shi)年以來(lai),AI領域項目(mu)首次獲(huo)得國家(jia)科(ke)技進步(bu)一等(deng)獎,表明了國家(jia)層面對AI產(chan)業在技術(shu)創新度、轉化程度、示范(fan)帶動作用等(deng)方(fang)面的蓋章認(ren)可(ke)。

當下大國(guo)科技競(jing)賽正酣,是新的挑戰,也是新的戰略機遇。

就(jiu)像曾經的互聯網技術一樣,國(guo)產的AI技術不(bu)知不(bu)覺中已突破奇點,已百花齊放(fang),而大(da)模(mo)型技術及應用(yong)可能已在爆(bao)發(fa)前(qian)夜(ye)。