智東西(公眾號:zhidxcom)
文 | 寓揚

去(qu)年(nian)十月份,馬云成立阿里(li)巴(ba)巴(ba)達摩院,三(san)年(nian)拿出1000億布局前沿(yan)技術的研究,并對它提出三(san)個要求,“活得要比阿里(li)巴(ba)巴(ba)長”、“服務全世界至少20億人口”、“面向(xiang)未來用科(ke)技解決未來的問題”。

走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商

在(zai)過(guo)去的(de)9個月中(zhong),阿里達摩院也陸續傳(chuan)出來自(zi)各方(fang)的(de)技術大牛加盟;公布了正在(zai)研發中(zhong)的(de)AI芯片(pian)Ali-NPU;研發出量子電(dian)路模擬(ni)器“太章”,率先(xian)實(shi)現81量子比特(te)(40層)的(de)模擬(ni);應用在(zai)上海(hai)地鐵站的(de)語(yu)音購票等消息,但整個達摩院(正如其名)還隱匿在(zai)云霧中(zhong)。

阿里達(da)摩(mo)院(yuan)第一次公開對(dui)外,則(ze)是近期在杭(hang)州舉辦的一場技術(shu)分享活動,現場達(da)摩(mo)院(yuan)來自不同部門的四位專家學者分享了他們的研究成果以及(ji)落(luo)地(di)應用,智東西也作(zuo)為首批媒體受(shou)邀參與(yu)其中。

可以看到,在達摩院的(de)(de)(de)技(ji)術(shu)布(bu)局中(zhong),既有應(ying)用(yong)(yong)(yong)于當(dang)下的(de)(de)(de)語音識別、機器視(shi)覺(jue)、機器翻譯等(deng)技(ji)術(shu),也有量(liang)子(zi)計算等(deng)中(zhong)長期布(bu)局未(wei)來(lai)的(de)(de)(de)技(ji)術(shu)。而在應(ying)用(yong)(yong)(yong)場景中(zhong),達摩院的(de)(de)(de)技(ji)術(shu)也廣(guang)泛的(de)(de)(de)落地(di)在阿里的(de)(de)(de)業務之上,去解決(jue)實際問題,比如(ru)機器翻譯用(yong)(yong)(yong)于阿里的(de)(de)(de)國(guo)際貿易,視(shi)覺(jue)生成(cheng)用(yong)(yong)(yong)于淘(tao)寶(bao)廣(guang)告的(de)(de)(de)自動生成(cheng)等(deng)。

一、圍繞人、物、空間 推動機器視覺落地

阿里達摩院機器(qi)智能技(ji)術實驗室資(zi)深算法專家謝宣松(song)分享了計(ji)(ji)算機視覺在產業(ye)中(zhong)的(de)應用(yong),主要圍繞人(ren)(ren)(醫療(liao)視覺)、物(wu)(行(xing)業(ye)視覺)、空(kong)間(城市大腦)、設計(ji)(ji)(視覺生成(cheng))幾個維度來(lai)展開。謝宣松(song)談到(dao),圍繞人(ren)(ren)、物(wu)、空(kong)間來(lai)做一些機器(qi)視覺,目的(de)是協助(zhu)人(ren)(ren)提高效(xiao)率。

走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商

相比城市大(da)腦和醫療視(shi)(shi)覺,如(ru)何將AI技術落(luo)地場景眾多(duo)、問(wen)題更(geng)加(jia)復雜的產業,以及視(shi)(shi)覺生成(cheng)技術如(ru)何提(ti)高人類效率,更(geng)加(jia)吸(xi)引智東西的關注。

行(xing)業(ye)視覺(jue)是產業(ye)落地(di)(di)的(de)一個大領域(yu),場(chang)景眾多,哪些場(chang)景能夠讓技術落地(di)(di)呢?謝宣松指出(chu)3種機器視覺(jue)可(ke)以落地(di)(di)的(de)條件:

第一(yi)種(zhong)是(shi)診斷內容(rong)肉(rou)眼(yan)可分辨,正常&故(gu)障(zhang)(zhang)樣本(ben)充足,對(dui)漏報有一(yi)定的容(rong)忍度。這種(zhong)場景就很適合機器來做,比如對(dui)鐵路螺母是(shi)否松動的監測(ce)。第二(er)種(zhong)是(shi)人肉(rou)眼(yan)難以(yi)發(fa)現,可根(gen)據情(qing)況用機器視(shi)覺作為(wei)代(dai)替。第三(san)種(zhong)是(shi)故(gu)障(zhang)(zhang)樣本(ben)極少,但造成(cheng)事故(gu)的結果又很嚴重,這時可以(yi)用機器視(shi)覺輔助人工檢測(ce)。

限定了邊界(jie)后,就可以尋找(zhao)技術落(luo)地的場(chang)景了,比如阿里基于視頻分析(xi),可以自動進行鋼(gang)圈安全監測(ce),實測(ce)精(jing)度(du)在95%以上;再比如通過目標檢測(ce)和行為分析(xi),對豬的疫情等進行預警(jing),前一段阿里云用AI養豬種瓜,也(ye)是(shi)風靡互聯網(wang)圈。

通過(guo)行(xing)業場景的(de)落地,謝(xie)宣松總結到,我們需要(yao)深入行(xing)業,花(hua)大力(li)氣明確(que)需求、定義(yi)問題;要(yao)重視數據,分析各個場景下數據的(de)特點;要(yao)簡化(hua)問題,優先采(cai)用簡單有(you)效的(de)方(fang)案(an);并且要(yao)長期(qi)投入,不斷迭(die)代優化(hua)方(fang)案(an)。

視(shi)(shi)覺生(sheng)成(cheng)即通過AI技(ji)術,結合用戶、場景(jing)需(xu)求,生(sheng)成(cheng)圖(tu)(tu)像、視(shi)(shi)頻(pin)等內容,比如廣告圖(tu)(tu)像的(de)(de)生(sheng)成(cheng)與設計,廣告視(shi)(shi)頻(pin)的(de)(de)生(sheng)成(cheng),游戲圖(tu)(tu)像生(sheng)成(cheng)等,從而提高人類(lei)工作的(de)(de)效率(lv)。

阿里是以(yi)電商起家(jia)的,廣(guang)告需求廣(guang)泛存在于淘寶商戶中,尤其是雙(shuang)十一(yi)這樣(yang)的購物節設計(ji)需求大量存在。阿里特意構建了設計(ji)知識圖(tu)譜,通過(guo)視覺生成來生成廣(guang)告效果圖(tu)。

走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商

其中(zhong)(zhong)最典型的(de)應用就是(shi)魯(lu)班系(xi)統在淘寶(bao)中(zhong)(zhong)的(de)應用。謝宣松談到,雙(shuang)十一天貓、淘寶(bao)上大量的(de)banner圖片,其中(zhong)(zhong)很大一部分都(dou)是(shi)系(xi)統自(zi)動自(zi)動生成的(de)。比如去年雙(shuang)十一用AI產(chan)(chan)圖2.5億(yi)張,累計產(chan)(chan)圖10億(yi)張。身為設計師的(de)你看到這一結果是(shi)否會亞歷山(shan)大呢?

除了圖片的生(sheng)成,謝宣松(song)表(biao)示,視(shi)頻(pin)和(he)圖形的內(nei)容自動/半(ban)自動生(sheng)成是一個(ge)(ge)趨勢(shi),也是另一個(ge)(ge)藍海。比如(ru)在一個(ge)(ge)電視(shi)劇場(chang)景(jing)(jing)中,AI可以識別視(shi)頻(pin)場(chang)景(jing)(jing)中的人物、對話(hua)、動作等,在識別場(chang)景(jing)(jing)后,就可以在適當的位置插入相關對象。

現(xian)場他展示(shi)了一(yi)張“天貓(mao)國際(ji)”的植入(ru)廣(guang)告,以及(ji)淘寶商(shang)(shang)品(pin)的視頻生成(cheng),當然廣(guang)告只是應用之一(yi),只不過電商(shang)(shang)平臺需求量太大。

謝宣松還告訴(su)智東西,視覺(jue)生成(cheng)的實現是各種(zhong)技術的綜合(he)應(ying)用,會借用最基礎的識別分類能力(li),也會用到序(xu)列,同樣它會用到強(qiang)化技術的能力(li),在象素生成(cheng)和元素豐(feng)富上用一些概念能力(li),最后對整(zheng)個系統(tong)有檢測過程(cheng),使它滿足用戶需(xu)求。

二、量子計算 中長期的布局

時(shi)下火熱的(de)一個概念就是量子(zi)計(ji)(ji)算(suan)(suan)(suan),因為量子(zi)計(ji)(ji)算(suan)(suan)(suan)機一旦取得突破,在算(suan)(suan)(suan)力上就會(hui)遠遠高于經(jing)典計(ji)(ji)算(suan)(suan)(suan)機,從(cong)而(er)帶(dai)來(lai)算(suan)(suan)(suan)力革命,但這(zhe)一現象短期內很(hen)難發生。

正如阿里達摩院(yuan)量(liang)(liang)子(zi)(zi)(zi)實(shi)驗室的(de)量(liang)(liang)子(zi)(zi)(zi)科學家(jia)徐華所言,通用量(liang)(liang)子(zi)(zi)(zi)計算機發展前(qian)路漫(man)漫(man),近期(qi)我們期(qi)待(dai)可(ke)以解決特(te)定問題的(de)量(liang)(liang)子(zi)(zi)(zi)芯片,以及針對量(liang)(liang)子(zi)(zi)(zi)系統進(jin)行模擬的(de)量(liang)(liang)子(zi)(zi)(zi)芯片。

走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商

量子(zi)計算數據阿里中長期局部的一(yi)項重要(yao)技術,由于(yu)量子(zi)計算過于(yu)晦澀難懂,這(zhe)次分(fen)享(xiang)更多的在于(yu)科(ke)普,我們可以對幾個常見的概念做(zuo)一(yi)個解釋:

量子(zi)(zi)計(ji)算(suan),它是基于(yu)量子(zi)(zi)力學的基本(ben)原理(核心是量子(zi)(zi)疊(die)加(jia)+量子(zi)(zi)糾纏),利(li)用量子(zi)(zi)邏輯(ji)實現信息處理的計(ji)算(suan)技術,對應的機器就是量子(zi)(zi)計(ji)算(suan)機。

量子(zi)糾纏(chan)(chan),對于一(yi)(yi)(yi)對或(huo)一(yi)(yi)(yi)群粒子(zi)而言,部分粒子(zi)的量子(zi)狀(zhuang)態以來(lai)其他粒子(zi)的狀(zhuang)態,而不能獨立的表述(shu),則認為這一(yi)(yi)(yi)對或(huo)一(yi)(yi)(yi)群粒子(zi)處于量子(zi)糾纏(chan)(chan)。量子(zi)通信主(zhu)要應(ying)用的就是量子(zi)糾纏(chan)(chan),近期中(zhong)國科(ke)大也宣稱率先實現(xian)了18量子(zi)比特糾纏(chan)(chan)。

量(liang)(liang)子(zi)霸(ba)權(quan),這是(shi)一(yi)個經(jing)常被提及的(de)概念,它是(shi)指對于某個特(te)定的(de)問題(ti),量(liang)(liang)子(zi)計(ji)算機可以解決,但是(shi)經(jing)典計(ji)算機無(wu)法解決。2016年Google團隊在理(li)論(lun)上(shang)提出,49個物(wu)理(li)量(liang)(liang)子(zi)比特(te)可以在隨機量(liang)(liang)子(zi)電路的(de)輸出采樣(yang)這個特(te)殊問題(ti)上(shang)實現量(liang)(liang)子(zi)霸(ba)權(quan)。

今年3月份,谷歌提出72個比特(te)的(de)芯(xin)片方(fang)案。而后5月份,阿里量子實驗室團隊(dui)基于(yu)阿里的(de)計(ji)(ji)算能力,實現了81量子比特(te)的(de)模擬(ni)。但(dan)徐華總結(jie)到,目前的(de)量子霸權象征意義(yi)大于(yu)實際意義(yi),因為(wei)本身解決不是通(tong)用計(ji)(ji)算問題(ti),只(zhi)能算是技術發展過程當中的(de)一(yi)個個里程碑。

阿里量子計(ji)算的研究方向涉及物理層、系統(tong)層、應用層,希望提(ti)供全棧能力的解決(jue)方案(an),為客戶(hu)提(ti)供量子計(ji)算能力。

其(qi)中今年(nian)上半年(nian)推出的(de)(de)“太(tai)章(zhang)”模擬器便(bian)是量(liang)(liang)子實驗(yan)室的(de)(de)一個代(dai)表項目。它是一個量(liang)(liang)子電路的(de)(de)經典模擬器,通過對(dui)模擬任務(wu)進行有(you)效的(de)(de)分解,利用阿(a)里強大的(de)(de)計(ji)算平臺,完成了之前(qian)超(chao)級計(ji)算機上做(zuo)不到的(de)(de)模擬量(liang)(liang)子計(ji)算的(de)(de)任務(wu),實現(xian)了對(dui)Google計(ji)劃(hua)取得 “量(liang)(liang)子霸權(quan)”硬件的(de)(de)模擬。

但(dan)現(xian)場(chang)徐華也講到,量(liang)(liang)(liang)子模(mo)擬(ni)器(qi)終歸受計算(suan)力所限。量(liang)(liang)(liang)子模(mo)擬(ni)需(xu)要(yao)繼續投入,幫(bang)助量(liang)(liang)(liang)子電(dian)路設計以及量(liang)(liang)(liang)子算(suan)法研究,但(dan)是從(cong)更長遠的研究來看,幾百(bai)個量(liang)(liang)(liang)子比特超級計算(suan)機是不能夠模(mo)擬(ni)的。

近期中(zhong)國(guo)科大宣稱率先取得(de)了18量子比特糾(jiu)纏,智東西也就該成果的(de)(de)實(shi)質性意義(yi)與(yu)徐華溝通,他表示多個量子比特的(de)(de)糾(jiu)纏是非常(chang)有(you)意義(yi)的(de)(de),量子糾(jiu)纏有(you)一個置(zhi)(zhi)信(xin)度(du)(du),置(zhi)(zhi)信(xin)度(du)(du)是99%與(yu)99.99%差別非常(chang)大,如果置(zhi)(zhi)信(xin)度(du)(du)都很(hen)高,達(da)到了99.99%以上,這就與(yu)實(shi)現邏輯(ji)比特比較(jiao)接近了。比如50個邏輯(ji)比特組合(he)起來,其算(suan)力(li)基本可以達(da)到現在超級(ji)計(ji)算(suan)機的(de)(de)計(ji)算(suan)水平。

三、機器翻譯 阿里國際化的生命線

機器翻譯是(shi)利用計算機將(jiang)一種自然語言專(zhuan)為為另(ling)一轉自然語言的過程。這項技術已經有60年的歷史,但在最近30年才可以(yi)使用。

阿里達(da)摩院機(ji)器智能技術實(shi)驗室研究員(yuan)葛(ge)妮瑜分享了他們(men)在(zai)機(ji)器翻(fan)(fan)譯技術中的(de)(de)探索(suo)與(yu)應用(yong),她(ta)將機(ji)器翻(fan)(fan)譯稱為阿里國際化的(de)(de)生命線,因為阿里國際電商(shang)、即(ji)時(shi)通訊(釘釘)、旅(lv)游(飛豬)等場景存在(zai)大量(liang)的(de)(de)翻(fan)(fan)譯需(xu)求。

與谷歌(ge)的(de)(de)通用神經機器(qi)翻譯(yi)(yi)(yi)不同(tong)的(de)(de)是(shi),阿里的(de)(de)機器(qi)翻譯(yi)(yi)(yi)更加(jia)聚焦在國(guo)際(ji)電商、即時通訊、旅游上,采用神經網(wang)絡機器(qi)翻譯(yi)(yi)(yi)(NMT)、統計機器(qi)翻譯(yi)(yi)(yi)(SMT)等多模型結合的(de)(de)方式進行翻譯(yi)(yi)(yi),目前已覆蓋21種語言(yan),48個翻譯(yi)(yi)(yi)方向。

葛(ge)妮瑜介紹,目(mu)前阿里機器翻譯(yi)服務100+業(ye)務場景(jing),日均調(diao)用7.5億次,全(quan)年(nian)翻譯(yi)字符數超過120萬億,應用于電商(shang)平臺、物流、支付、云計算、社(she)交等。

在具體(ti)將機(ji)器翻(fan)譯(yi)(yi)落地方面,她講述了小語種機(ji)器翻(fan)譯(yi)(yi)和非標(biao)準漢語翻(fan)譯(yi)(yi)的(de)具體(ti)案例(li)。

以阿里巴(ba)(ba)巴(ba)(ba)國際站為例,30%用戶(hu)使用西班牙(ya)語、俄語、土耳其語等(deng)小語種(zhong)(zhong);2017年(nian)前三季度,俄羅斯人(ren)在中(zhong)國購物額占海外網(wang)站消費(fei)總額的(de)52%,同時全部訂(ding)單90%都下給了中(zhong)國;但大約96%的(de)賣家對小語種(zhong)(zhong)無能為力。

阿里為了匹配各(ge)個業務場景(jing)特點,融合(he)多種(zhong)不同技術,取(qu)長(chang)補短,進(jin)行(xing)場景(jing)翻譯的定制(zhi)化(hua)。具體而言針(zhen)對小(xiao)語種(zhong)進(jin)行(xing)語料(liao)抓(zhua)取(qu),建立電(dian)商知識庫,并搭建小(xiao)語種(zhong)與漢語之間的雙語平(ping)行(xing)語料(liao)庫,通過人工(gong)排序規則等,進(jin)行(xing)小(xiao)語種(zhong)機器翻譯。

走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商

另外一個就是(shi)非(fei)標準(zhun)漢語(yu)機(ji)器(qi)翻譯的(de)斗爭,淘寶上(shang)商家為(wei)了最大(da)化搜索效(xiao)果,會輸入很多詞,但是(shi)不成(cheng)句子,平(ping)均標題多達30個字,不自然無語(yu)法,對機(ji)器(qi)翻譯很有挑戰。

葛妮瑜團隊結合用戶搜索和成交產(chan)品(pin),通過(guo)這些自(zi)(zi)動產(chan)生(sheng)的大量準確語料,對(dui)商(shang)家冗長(chang)的標題進(jin)行優化(hua)簡寫(xie),并通過(guo)模型不斷(duan)自(zi)(zi)動優化(hua),從而實現商(shang)品(pin)信(xin)息的翻譯。

此外,她也(ye)介紹了圖(tu)片(pian)翻(fan)(fan)譯方面的(de)(de)(de)一些探索。傳統的(de)(de)(de)方法直接采用機器(qi)翻(fan)(fan)譯進行(xing)字(zi)符識(shi)別(bie)(bie)。而阿里第一步先對圖(tu)像進行(xing)識(shi)別(bie)(bie),獲取內容描述后(hou),再(zai)進行(xing)字(zi)符識(shi)別(bie)(bie)(OCR),通過OCR+圖(tu)像內容描述,共同進行(xing)機器(qi)翻(fan)(fan)譯,從而提升圖(tu)片(pian)內容的(de)(de)(de)翻(fan)(fan)譯效果(guo)。

四、推行業語音識別

語(yu)(yu)(yu)音識別(bie)是(shi)一(yi)種(zhong)常見的將語(yu)(yu)(yu)音轉換為文字的技(ji)術,目前各(ge)家做語(yu)(yu)(yu)音識別(bie)的公司(si)都號稱(cheng)通用(yong)語(yu)(yu)(yu)音識別(bie)準(zhun)確率達到95%以(yi)上,但是(shi)在細分場景、特(te)殊(shu)領域中,這(zhe)一(yi)識別(bie)率會大大下降。

阿里達(da)摩(mo)院機器智能(neng)技術(shu)實(shi)驗室高級算(suan)法專家雷鳴(ming)分享到(dao),得益(yi)于更(geng)強大的計算(suan)能(neng)力,以及更(geng)多更(geng)真實(shi)的數據,語音識別正(zheng)在(zai)快(kuai)速發(fa)展,并且工業界正(zheng)在(zai)成(cheng)為創新的主流。

目前谷歌、微(wei)軟、百度等都(dou)采用通用識別的技術,與其(qi)不同的是,阿里(li)則重點布局了行業語音(yin)識別、IoT語音(yin)識別和(he)新零(ling)售語音(yin)識別。

目前應用場(chang)景越(yue)(yue)來越(yue)(yue)復(fu)雜,對語音識別(bie)的要求(qiu)越(yue)(yue)來越(yue)(yue)高(gao),隨(sui)著模型(xing)越(yue)(yue)來越(yue)(yue)復(fu)雜,語音識別(bie)的效(xiao)率越(yue)(yue)來越(yue)(yue)低(di);隨(sui)著數據體量越(yue)(yue)來越(yue)(yue)大,訓練時(shi)間越(yue)(yue)來越(yue)(yue)長,迭(die)代速度越(yue)(yue)來越(yue)(yue)慢;并且模型(xing)越(yue)(yue)來越(yue)(yue)大,很難直接在IoT端(duan)進行(xing)部署。

阿里針對這一情況(kuang),在去年(nian)11月上(shang)線DFSMN模(mo)型(xing),使(shi)語音識別的錯誤(wu)率(lv)相(xiang)比(bi)之(zhi)前模(mo)型(xing)下降(jiang)20%,同時(shi)效率(lv)提升2倍,可在IoT設備端(duan)應用(yong),并在今年(nian)6月將這項技術開源。

在具體應(ying)用方面,阿里的語(yu)音技(ji)術(shu)已經廣(guang)泛應(ying)用在家庭(ting)(ting)、車載(zai)、公共空間。比如家庭(ting)(ting)的智能音箱,上汽榮威RX5中的車載(zai)語(yu)音交互技(ji)術(shu)。

走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商

而在公共場景(jing)中,今年(nian)上(shang)半年(nian)阿里在上(shang)海地鐵(tie)站推出(chu)語(yu)(yu)音(yin)售(shou)票機,通(tong)過語(yu)(yu)音(yin)與視覺(jue)多模態(tai)組合,幫助乘客快速(su)獲取車票。另外一(yi)個(ge)案例則是在今年(nian)的武漢云棲(qi)大會上(shang)推出(chu)的語(yu)(yu)音(yin)點餐機,通(tong)過語(yu)(yu)音(yin)交(jiao)互的方(fang)式(shi)高效獲取服務。

此(ci)外,阿(a)里的語音(yin)技術也應用(yong)到法院(yuan)庭(ting)審(shen)中,進行(xing)庭(ting)審(shen)信息的速記。據雷(lei)鳴介紹,阿(a)里的智能庭(ting)審(shen)已(yi)經覆蓋了近300家法院(yuan),6000多個法庭(ting),并應用(yong)到杭州互聯網法院(yuan)中。

結語:以解決實際問題為導向的達摩院

通(tong)過(guo)阿(a)里(li)(li)達(da)摩院(yuan)四(si)位(wei)專家分享(xiang)和(he)與他們的(de)(de)溝通(tong),我(wo)們感受最深的(de)(de)一點(dian)就(jiu)是,達(da)摩院(yuan)的(de)(de)科研(yan)(yan)并(bing)非“空中(zhong)樓閣”,而是切(qie)切(qie)實(shi)實(shi)的(de)(de)以解決實(shi)際問題為導向,目前(qian)其(qi)研(yan)(yan)究成(cheng)果以逐漸落地阿(a)里(li)(li)各個業務線。

此外,在技術落地解(jie)決實(shi)際(ji)問題的(de)過程中,無論是(shi)語音識別、機器翻譯(yi),還(huan)是(shi)機器視覺(jue),阿里都在嘗試綜合應用多(duo)種技術來解(jie)決實(shi)際(ji)問題。

比如在于機器智能技術實驗室研究員葛妮瑜的溝通中,她也提到,針對自然語言處理(NLP)這個業界難題,他們也在結合漢語的實際情況,通過偏旁部首的研究來提高語義理解的效果。此外她也談到,用多模態的方式來研究NLP技術也是學界的一個方向。走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商