4ヶ月前

Fraternal Dropout

Konrad Zolna; Devansh Arpit; Dendi Suhubdy; Yoshua Bengio
Fraternal Dropout
要約

再帰型ニューラルネットワーク(RNN)は、言語モデルや逐次予測に有用なニューラルネットワークの重要なアーキテクチャの一つです。しかし、RNNの最適化はフィードフォワード型ニューラルネットワークと比較して難易度が高いことが知られています。この問題を解決するために、多くの手法が提案されています。本論文では、ドロップアウトを利用した単純な手法である兄弟ドロップアウト(fraternal dropout)を提案します。具体的には、パラメータを共有する2つの同一のRNNを異なるドロップアウトマスクで訓練し、それらの(ソフトマックス前の)予測値の差を最小化することを提案します。この方法により、正則化がRNNの表現がドロップアウトマスクに対して不変になるよう促進され、結果として堅牢性が向上します。我々は、正則化項が訓練時と推論時のドロップアウトによる違いによるギャップを解消することが示されている期待線形ドロップアウト目的関数によって上界付けられることを示します。我々は提案モデルを評価し、Penn TreebankおよびWikitext-2という2つのベンチマークデータセットでの逐次モデリングタスクにおいて最先端の結果を得ました。また、画像キャプショニング(Microsoft COCO)および半教師付き学習(CIFAR-10)タスクにおいても、我々のアプローチが有意な性能向上につながることを示しています。