1ヶ月前

再帰性ハイウェイネットワーク

Julian Georg Zilly; Rupesh Kumar Srivastava; Jan Koutník; Jürgen Schmidhuber
再帰性ハイウェイネットワーク
要約

多くの逐次処理タスクは、一つのステップから次のステップへの複雑な非線形遷移関数を必要とします。しかし、『深層』遷移関数を持つ再帰型ニューラルネットワーク(RNN)は、Long Short-Term Memory (LSTM) ネットワークを使用しても訓練が困難なままであります。本研究では、Gersgorin の円定理に基づく新しい理論解析を導入し、これにより再帰型ネットワークのモデリングや最適化に関するいくつかの問題が明確になり、LSTM セルの理解が深まります。この解析に基づいて、Recurrent Highway Networks (RHN) を提案します。RHN は LSTM アーキテクチャを拡張し、ステップ間の遷移深度が1より大きいことを可能にします。いくつかの言語モデル実験で示されるように、提案されたアーキテクチャは強力かつ効率的なモデルを生成します。Penn Treebank コーパスにおいて、遷移深度を1から10に単純に増加させることで、同じパラメータ数を使用して単語レベルの困惑度が90.6から65.4に改善しました。さらに大きなWikipediaデータセット(text8およびenwik8)での文字予測においても、RHN はこれまでのすべての結果を上回り、文字あたり1.27ビットのエントロピーを達成しています。