【導語】ICLR 是深度學習領(lǐng)域的頂級會議,素有深度學習頂會 “無冕之王” 之稱。今年的 ICLR 大會將于5月6日到5月9日在美國新奧爾良市舉行,大會采用 OpenReview 的公開雙盲評審機制,共接收了 1578 篇論文:其中 oral 論文 24 篇 (約占 1.5%),poster 論文共 476 篇 (占30.2%)。在這些錄用的論文中,深度學習、強化學習和生成對抗網(wǎng)絡(luò) GANs 是最熱門的三大研究方向。
今天, ICLR2019 公布了最佳論文,有兩篇論文獲得了最佳論文,在此對獲獎?wù)撐淖髡呒皥F隊表示祝賀!一篇是《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks》,在 RNN 網(wǎng)絡(luò)中集成樹結(jié)構(gòu),提出一種神經(jīng)元排序策略,由蒙特利爾大學、微軟研究院共同研究發(fā)表;另一篇是 MIT CSAIL 的研究成果《The Lottery Ticket Hypothesis: Finding Spare, Trainable Neural Networks》。下面就為大家?guī)磉@兩篇最佳論文的解讀。
論文一

論文地址:
https://openreview.net/forum?id=B1l6qiR5F7
摘要
自然語言可視為是一種小單元 (如短語) 嵌套在大單元 (如字句) 中的分層結(jié)構(gòu)。當結(jié)束一個大單元時,內(nèi)部所嵌套的小單元也將隨之關(guān)閉。盡管標準的 LSTM 結(jié)構(gòu)允許不同的神經(jīng)元跟蹤不同時間維度信息,但它對于層級結(jié)構(gòu)建模中的各組成沒有明確的偏向。針對這個問題,本文提出神經(jīng)元排序策略來添加一個歸納偏置量 (inducive bias),當主輸入向量和遺忘門結(jié)構(gòu)確保給定的神經(jīng)網(wǎng)絡(luò)更新時,后續(xù)跟隨的所有神經(jīng)元也將隨之更新。這種集成樹結(jié)構(gòu)的新穎循環(huán)神經(jīng)網(wǎng)絡(luò) ON-LSTM (ordered neurons LSTM) 在四種不同的 NLP 任務(wù):語言建模、無監(jiān)督解析、目標句法評估和邏輯推理上都取得了良好的表現(xiàn)。
研究動機
將樹結(jié)構(gòu)集成到神經(jīng)網(wǎng)絡(luò)模型用于 NLP 任務(wù)主要有如下原因:
學習抽象的逐層特征表征是深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的一大關(guān)鍵特征
對語言的組成影響進行建模并通過 shortcuts 連接方法為反向傳播過程提供有效的梯度信息,這有助于解決深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的長期依賴性問題
通過更好的歸納偏置來改善模型的泛化能力,同時能夠減少模型訓練過程對大量數(shù)據(jù)的需求
基于以上動機,該研究提出一種有序化神經(jīng)元方法 (結(jié)構(gòu)示意圖如下圖1),通過歸納偏置來強化每個神經(jīng)元中的信息儲存:大的、高級的神經(jīng)元儲存長期信息,這些信息通過大量的步驟保存;小的、低級的神經(jīng)元儲存短期信息,這些信息能夠快速遺忘。此外,一種新型的激活函數(shù) cumulative softmax (cumax) 用于主動為神經(jīng)元分配長/短期所儲存的信息,有效地避免高/低級神經(jīng)元的固定劃分問題。
總的來說,本文的研究集成樹結(jié)構(gòu)到 LSTM 網(wǎng)絡(luò)中,并通過歸納偏置和 cumax 函數(shù),構(gòu)建一種新穎的 ON-LSTM 模型,在多項 NLP 任務(wù)中都取得了不錯的性能表現(xiàn)。

圖1 組成解析樹結(jié)構(gòu)與 ON-LSTM 模型隱藏狀態(tài)的對應(yīng)關(guān)系
實驗結(jié)果
在四種 NLP 任務(wù)中評估 ON-LSTM 模型的性能,具體如下。
語言建模

圖2 Penn Treebank 語言建模任務(wù)驗證機和測試集的單模型困惑度
無監(jiān)督句法組成分析

圖3 full WSJ10 和 WSJ test 數(shù)據(jù)集上的句法組成分析評估結(jié)果
目標句法評估

圖4 ON-LSTM 和 LSTM 模型在每個測試樣本的總體精度表現(xiàn)
邏輯推理

圖5 在邏輯短序列數(shù)據(jù)上訓練的模型的測試精度
論文二
論文地址:
https://openreview.net/forum?id=rJl-b3RcF7
摘要
神經(jīng)網(wǎng)絡(luò)的剪枝技術(shù)能夠在不影響模型準確性能的情況下,減少網(wǎng)絡(luò)的訓練參數(shù)量,多達90%以上,在降低計算存儲空間的同時提高模型的推理性能。然而,先前的研究經(jīng)驗表明,通過剪枝技術(shù)得到的稀疏網(wǎng)絡(luò)結(jié)構(gòu)在初期是很難訓練的,這似乎也有利于訓練性能的提升。一個標準的剪枝技術(shù)能夠自然地發(fā)現(xiàn)子網(wǎng)絡(luò)結(jié)構(gòu),這些子網(wǎng)絡(luò)的初始化能夠幫助網(wǎng)絡(luò)更有效地訓練。
因此,本研究提出一種 lottery ticket hypothesis:對于那些包含子網(wǎng)絡(luò) (winning ticket) 結(jié)構(gòu)的密集、隨機初始化前饋網(wǎng)絡(luò),當單獨訓練這些子網(wǎng)絡(luò)時,通過相似的訓練迭代次數(shù)能夠取得與原始網(wǎng)絡(luò)相當?shù)臏y試性能。而這些子網(wǎng)絡(luò)也驗證了初始的假設(shè):即具有初始權(quán)重的連接網(wǎng)絡(luò)能夠更有效地訓練。
基于這些結(jié)果,本文提出一種算法來確定子網(wǎng)絡(luò)結(jié)構(gòu),并通過一系列的實驗來支持 lottery ticket hypothesis 以及這些偶然初始化的重要性。實驗結(jié)果表明,在 MNIST 和 CIFAR-10 數(shù)據(jù)集上,子網(wǎng)絡(luò)的規(guī)模始終比幾種全連接結(jié)構(gòu)和卷積神經(jīng)網(wǎng)絡(luò)小10%-20%。當規(guī)模超過這個范圍時,子網(wǎng)絡(luò)能夠比原始網(wǎng)絡(luò)有更快的學習速度和更好的測試精度表現(xiàn)。
研究動機與方法
本文分析驗證了存在較小的子網(wǎng)絡(luò)結(jié)構(gòu),在相當?shù)臏y試精度表現(xiàn)前提下,一開始就訓練網(wǎng)絡(luò)能夠達到與較大子網(wǎng)絡(luò)一樣,甚至更快的訓練速度。而基于此,本文提出 Lottery Ticket Hypothesis:將一個復雜網(wǎng)絡(luò)的所有參數(shù)作為一個獎勵池,存在一個參數(shù)組合所構(gòu)成的子網(wǎng)絡(luò) (用 winning ticket 表示),單獨訓練該網(wǎng)絡(luò)能夠達到與原始復雜網(wǎng)絡(luò)相當?shù)臏y試精度。
對于該子網(wǎng)絡(luò)結(jié)構(gòu)的確定,主要是通過訓練一個網(wǎng)絡(luò)并剪枝其中最小權(quán)重來確定子網(wǎng)絡(luò),而其余未剪枝部分連接構(gòu)成自網(wǎng)絡(luò)的結(jié)構(gòu)。具體步驟如下:
首先通過隨機初始化得到一個復雜的神經(jīng)網(wǎng)絡(luò) f
接著重復訓練該網(wǎng)絡(luò) j 次,得到網(wǎng)絡(luò)參數(shù)
然后對該模型按 p% 進行剪枝得到一個掩碼 m;將步驟二中的網(wǎng)絡(luò)參數(shù)作為參數(shù)向量,每個向量元素對應(yīng)于一個 m,用于表征是否丟棄。
最后,對于存留下來的模型,在原始復雜網(wǎng)絡(luò)參數(shù)組合進行初始化,創(chuàng)建一個子網(wǎng)絡(luò)結(jié)構(gòu)。
總的來說,本研究的主要貢獻如下:
驗證了剪枝技術(shù)能夠發(fā)現(xiàn)可訓練的子網(wǎng)絡(luò)結(jié)構(gòu),而這些網(wǎng)絡(luò)能夠達到與原始網(wǎng)絡(luò)相當?shù)臏y試精度。
提出了一種 lottery ticket hypothesis,從一種新的角度來解釋這些神經(jīng)網(wǎng)絡(luò)的組成。
證明了通過剪枝技術(shù)得到的子網(wǎng)絡(luò)相比于原是網(wǎng)絡(luò),有著更快的學習速度、更高的測試精度和更好的泛化性能。
應(yīng)用
本文的研究驗證了確實存在比原始網(wǎng)絡(luò)更快速、性能更佳的子網(wǎng)絡(luò),這種結(jié)構(gòu)能夠給未來的研究提供諸多方向:
提高模型訓練性能:由于子網(wǎng)絡(luò)能夠從一開始就進行單獨訓練,因此盡早進行剪枝的訓練方案值得進一步探索。
設(shè)計更好的網(wǎng)絡(luò)結(jié)構(gòu):子網(wǎng)絡(luò)結(jié)構(gòu)的存在說明稀疏架構(gòu)和初始化組合有利于模型的學習。因此設(shè)計出有助于學習的新結(jié)構(gòu)和初始化方案,甚至將子網(wǎng)絡(luò)結(jié)構(gòu)遷移到其他任務(wù)仍需要進一步研究。
提高神經(jīng)網(wǎng)絡(luò)的理論理解高度:更加深入地理解隨機初始化網(wǎng)絡(luò)與子網(wǎng)絡(luò)的關(guān)系、網(wǎng)絡(luò)優(yōu)化與泛化性能的知識等。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4839瀏覽量
107998 -
神經(jīng)元
+關(guān)注
關(guān)注
1文章
369瀏覽量
19187 -
深度學習
+關(guān)注
關(guān)注
73文章
5600瀏覽量
124515
原文標題:ICLR 2019最佳論文揭曉!NLP深度學習、神經(jīng)網(wǎng)絡(luò)壓縮奪魁 | 技術(shù)頭條
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
地平線11篇論文強勢入選CVPR 2026
西井科技攜手同濟大學 三篇AI研究成果入選頂會ICLR 2026
后摩智能4篇論文入選人工智能頂會ICLR 2026
梁文鋒署名DeepSeek新論文:突破GPU內(nèi)存限制的技術(shù)革命
小鵬汽車與北京大學研究論文成功入選AAAI 2026
MediaTek多篇論文入選全球前沿國際學術(shù)會議
地平線五篇論文入選NeurIPS 2025與AAAI 2026
Nullmax端到端軌跡規(guī)劃論文入選AAAI 2026
思必馳與上海交大聯(lián)合實驗室五篇論文入選NeurIPS 2025
格靈深瞳六篇論文入選ICCV 2025
后摩智能與高校合作研究成果榮獲ISCA 2025最佳論文獎
理想汽車八篇論文入選ICCV 2025
后摩智能四篇論文入選三大國際頂會
云知聲四篇論文入選自然語言處理頂會ACL 2025
老板必修課:如何用NotebookLM 在上下班路上吃透一篇科技論文?
ICLR2019公布了最佳論文,有兩篇論文獲得了最佳論文
評論