2ヶ月前

独立再帰ニューラルネットワーク (IndRNN): 長く深く構築するRNN

Shuai Li; Wanqing Li; Chris Cook; Ce Zhu; Yanbo Gao
独立再帰ニューラルネットワーク (IndRNN): 長く深く構築するRNN
要約

再帰型ニューラルネットワーク(RNN)は、時系列データの処理に広く利用されています。しかし、RNNは勾配消失と勾配爆発問題により訓練が困難であり、長期的なパターンを学習するのが難しいという問題があります。これらの問題に対処するために、長短期記憶(LSTM)とゲート付き再帰型ユニット(GRU)が開発されました。しかし、双曲線正接関数(hyperbolic tangent)とシグモイド活性化関数(sigmoid activation function)の使用により、層間で勾配が衰える傾向があります。その結果、効率的に訓練可能な深層ネットワークの構築は困難となっています。さらに、RNN層内のすべてのニューロンは相互に関連しており、その挙動を解釈することが難しくなっています。本論文では、これらの問題を解決するために新しい種類のRNNである独立再帰型ニューラルネットワーク(IndRNN: Independently Recurrent Neural Network)を提案します。IndRNNでは、同じ層内のニューロンは互いに独立しており、異なる層間に接続されます。我々は実験を通じて、IndRNNが勾配爆発と勾配消失問題を防ぐために容易に調整できることを示し、ネットワークが長期依存関係を学習できるようにしています。また、ReLU(rectified linear unit)などの非飽和活性化関数を使用してもIndRNNは堅牢に訓練できることを確認しました。複数のIndRNNを積み重ねることで、既存のRNNよりも深いネットワークを構築することができます。実験結果によると、提案されたIndRNNは非常に長いシーケンス(5000以上の時間ステップ)を処理することができ、非常に深いネットワーク(実験では21層を使用)を構築しつつも堅牢に訓練できます。従来のRNNやLSTMと比較して様々なタスクにおいて優れた性能が達成されました。本研究に関するコードは以下のURLから入手可能です:https://github.com/Sunnydreamrain/IndRNN_Theano_Lasagne