
要約
再帰型ニューラルネットワーク(RNN)は、勾配消失と勾配爆発の問題により訓練が困難であり、長期的なパターンを学習したり深層ネットワークを構築したりすることが難しいことが知られています。これらの問題に対処するため、本論文では新たなタイプのRNNを提案します。このRNNでは再帰接続がアダマール積として定式化され、同一層内のニューロンは互いに独立しており、層間で接続されます。これを独立再帰型ニューラルネットワーク(IndRNN: Independently Recurrent Neural Network)と呼びます。より良好な勾配逆伝播により、規制された再帰重みを持つIndRNNは効果的に勾配消失と勾配爆発の問題に対処し、長期依存関係を学習することができます。さらに、ReLU(Rectified Linear Unit)などの非飽和活性化関数を使用してもIndRNNは堅牢に訓練できます。基本的なスタック型IndRNN、残差型IndRNN、および密結合型IndRNNなど異なる深層IndRNNアーキテクチャについて調査が行われました。これら全てのアーキテクチャは既存のRNNよりも深くなる可能性があります。また、各時間ステップでの計算量が削減され、一般的に使用されている長短期記憶(LSTM: Long Short-Term Memory)よりも10倍以上高速になるという特徴もあります。実験結果から、提案されたIndRNNは非常に長いシーケンスを処理し、非常に深いネットワークを構築できることが示されました。様々なタスクにおいて、従来のRNNやLSTM、そして人気のあるTransformerと比較してIndRNNの方が優れた性能を達成しています。