
要約
再帰型ニューラルネットワーク(RNN)の一種である長期短期記憶ネットワーク(LSTM)は、機械翻訳、言語モデル、質問応答など多くのシーケンス学習タスクの基本的な構成要素として機能しています。本論文では、単語レベルの言語モデリングに焦点を当て、LSTMベースのモデルを正則化および最適化するための戦略について調査します。我々は、隠れ層間の重みに対してDropConnectを使用する再帰型正則化の一形態として、ウェイトドロップLSTMを提案します。さらに、ユーザーが調整する必要がない非単調条件に基づいて平均化トリガーを決定する平均確率勾配法(Averaged Stochastic Gradient Descent, ASGD)の変種であるNT-ASGDを導入します。これらの正則化戦略と他の方法を使用することで、Penn Treebankデータセットで57.3、WikiText-2データセットで65.8という最先端の単語レベルパープレキシティを達成しました。また、提案したモデルと組み合わせてニューラルキャッシュの効果を探ることで、Penn Treebankデータセットでは52.8、WikiText-2データセットでは52.0というさらに低い最先端パープレキシティを達成しました。