智東西(公眾號:zhidxcom)
編 | 王

智東(dong)西5月(yue)7日消息,ICLR在(zai)其官(guan)網公(gong)布了(le)ICLR大(da)會(hui)(hui)2019的(de)兩篇最(zui)佳論(lun)文,這兩篇論(lun)文在(zai)ICLR大(da)會(hui)(hui)共收到的(de)大(da)約1600份論(lun)文中(zhong)脫穎而出,它們(men)分別是(shi),加拿大(da)蒙特(te)利爾(er)算(suan)法(fa)學習研(yan)究院(yuan)MILA發表(biao)的(de)NLP深度(du)學習模型論(lun)文和麻省理工學院(yuan)計(ji)算(suan)機科學與(yu)AI實驗室CSAIL發表(biao)的(de)神經網絡壓縮技術論(lun)文。

CSAIL的研究論文“彩票假設:尋找稀疏、可訓練的神經(jing)網絡”清楚的向我們(men)展示了深度(du)神經(jing)網絡如何以更小的規模、更快的速度(du)創建模型。

AI頂會ICLR優秀論文出爐!MIT“彩票假設”論文讓神經網絡參數瘦身90%

這篇論文的研究成果計(ji)劃(hua)在5月6日~9日新奧爾良舉行的國際(ji)學習代表(biao)大會ICLR上(shang)展示。

研(yan)究(jiu)論文表明,深度神經(jing)網絡(luo)能(neng)(neng)夠將(jiang)訓練(lian)網絡(luo)的(de)參數(shu)個數(shu)減少(shao)90%以上(shang),降(jiang)低存儲(chu)要求,提高推(tui)理的(de)計算性能(neng)(neng)。雖然網絡(luo)規模大幅(fu)減小,但(dan)它(ta)們能(neng)(neng)夠被訓練(lian)做出同樣(yang)精(jing)確的(de)預測,在(zai)某些(xie)情況(kuang)下(xia)甚至比原始網絡(luo)更快。

那么到底什么是深度神經(jing)網絡(luo)(luo)?這種(zhong)網絡(luo)(luo)構(gou)建(jian)的(de)模(mo)型又能(neng)起到什么作用呢(ni)?接下來,請(qing)通過下文(wen)了解深度神經(jing)網絡(luo)(luo)。

一、什么是深度神經網絡?

深度神經(jing)網絡,以生物(wu)神經(jing)元(yuan)為模型的數(shu)學函(han)數(shu)層,是一種(zhong)多功能的AI體(ti)系結構,能夠執行從自然(ran)語(yu)言(yan)處(chu)理到計算機(ji)視覺的各種(zhong)任務。

深度神經網絡通(tong)常非(fei)常大,需要相應的大型語料庫,即使(shi)是最昂貴的專(zhuan)用硬件,對它(ta)們進行訓練也可能需要數天時(shi)間。

如果(guo)初(chu)始(shi)網(wang)(wang)絡(luo)(luo)不(bu)需(xu)要那么(me)大(da),為什么(me)不(bu)能在(zai)一開始(shi)就創建一個(ge)(ge)大(da)小合(he)適的網(wang)(wang)絡(luo)(luo)呢?針對這個(ge)(ge)疑問,論文合(he)著者Jonathan Frankle博士(shi)表(biao)示,通過(guo)神經(jing)網(wang)(wang)絡(luo)(luo),可以(yi)隨機初(chu)始(shi)化這個(ge)(ge)大(da)型網(wang)(wang)絡(luo)(luo)結構,并(bing)在(zai)進行大(da)量數(shu)據進行訓(xun)練(lian)之后開始(shi)工作。

Jonathan Frankle說:“這種大型結構(gou)就像買了一堆(dui)彩票(piao),即(ji)使只有(you)很少(shao)的幾張彩票(piao)能讓你變得富有(you),但我們仍然需(xu)要一種技術,在沒有(you)看到(dao)中獎號碼的情(qing)況(kuang)下找到(dao)獲獎者。”

二、深度神經網絡如縮小規模?

AI頂會ICLR優秀論文出爐!MIT“彩票假設”論文讓神經網絡參數瘦身90%

研究人員(yuan)縮(suo)小神(shen)經網絡(luo)規模的方法包括消除這(zhe)些(xie)功能(neng)(或(huo)神(shen)經元)之間不必要的連(lian)接(jie),以使(shi)其適應功能(neng)較低(di)的設備,這(zhe)一過程通常(chang)稱為剪枝。(他們特別選擇了具有最(zui)(zui)低(di)“權(quan)重(zhong)”的連(lian)接(jie),這(zhe)表明它們是最(zui)(zui)不重(zhong)要的。)

接(jie)下(xia)(xia)來,他們在不對連接(jie)進行(xing)剪枝的情況下(xia)(xia)訓練網絡并(bing)重置權重,在修剪其他連接(jie)后,他們確定了有多少連接(jie)可以被(bei)刪除(chu)而不影響(xiang)模型的預測能力。

雖然(ran)剪枝后(hou)的(de)系數架構(gou)會使(shi)訓(xun)練過程變得更難,但這也帶(dai)來一個(ge)好處,通過訓(xun)練難度的(de)增(zeng)加提高(gao)性能(neng)。

Michael?Carbin和Jonathan Frankle在論文(wen)中(zhong)表示,標準的剪枝技術(shu)可(ke)以自然地揭示子網絡的初始化使它們(men)能夠有效地訓練(lian)。

在一系列(lie)條件限制下,通過不(bu)同的(de)(de)網(wang)絡重復這一修剪過程(cheng)數萬次之后(hou),他們報告稱,他們發(fa)現的(de)(de)AI模型(xing)的(de)(de)規模不(bu)到完全連接(jie)的(de)(de)父網(wang)絡的(de)(de)10%至20%。

三、沒有最好只有更好的深度神經網絡

論文(wen)合著(zhu)者兼(jian)助理教授(shou)Michael Carbin表示,重新設置一(yi)個(ge)表現良好的(de)網絡通常(chang)會(hui)帶(dai)來更好的(de)結(jie)果,這表明無論我們第一(yi)次(ci)做什么,都不是最佳選擇,這些模型還有改(gai)(gai)進的(de)空間,可以學習如何改(gai)(gai)進自己。

Michael?Carbin和Jonathan Frankle指出,他(ta)們在較小的數據(ju)集上進行以視(shi)覺為(wei)中心的分類任(ren)務(wu),把探(tan)索為(wei)什么(me)某些(xie)子(zi)網(wang)絡特(te)別擅長學習(xi)和快速識別這些(xie)子(zi)網(wang)絡的方法留給了未來的工作。

他們認為,深層神(shen)經網絡的研究結果可(ke)能對遷(qian)移學習產生影(ying)響(xiang),遷(qian)移學習是一(yi)種為一(yi)項(xiang)任務訓練(lian)的網絡適應另一(yi)項(xiang)任務的技術。

結語:深度神經網絡已與現代應用深度融合

深(shen)度(du)神經(jing)網絡能(neng)夠(gou)提取(qu)更多的(de)數據特征,獲(huo)取(qu)更好的(de)學習效果。目前(qian),深(shen)度(du)神經(jing)網絡已經(jing)成為許多AI應用的(de)基礎,這項(xiang)技術已經(jing)應用于語音識別、圖像(xiang)識別、自然(ran)語言處(chu)理等(deng)領域。

借(jie)助AI模(mo)(mo)型解決復雜問題是現在研究領域的重(zhong)點工作(zuo)內容(rong),深度神經網絡能夠大幅縮小這些(xie)模(mo)(mo)型的規模(mo)(mo),將為AI技術(shu)帶來更(geng)方便、更(geng)快速的精準運(yun)算。

論文鏈接://arxiv.org/abs/1803.03635

原文(wen)來自:VentureBeat