2ヶ月前

再活性化されたリカレントニューラルネットワークの長序列への適用

Antonio Orvieto; Samuel L Smith; Albert Gu; Anushan Fernando; Caglar Gulcehre; Razvan Pascanu; Soham De
再活性化されたリカレントニューラルネットワークの長序列への適用
要約

再帰ニューラルネットワーク(RNN)は長序列の高速推論を提供しますが、最適化が難しく、学習速度も遅いという問題があります。深層状態空間モデル(SSM)は最近、長序列モデリングタスクにおいて著しい性能を示しており、さらに並列化可能な高速学習とRNNに類似した高速推論の利点を持っています。しかし、SSMが表面上ではRNNに類似しているものの、その性能向上の理由がRNNとは異なる重要な違いがあるため、明確ではありません。本論文では、標準的な信号伝播理論を使用して深層RNNを慎重に設計することで、深層SSMの印象的な性能を長距離推論タスクで回復し、さらにその学習速度にも匹敵することを示しています。これを行うために、標準的なRNNに対する一連の変更点を分析およびアブレーション研究を行いました。これらの変更点には、再帰の線形化と対角化、より良いパラメータ化と初期化、そして順方向パスの適切な正規化が含まれます。我々の結果は、深層SSMの印象的な性能の起源に関する新しい洞察を提供するとともに、「Linear Recurrent Unit」というRNNブロックを導入しました。このブロックはLong Range Arenaベンチマークにおける深層SSMの性能と計算効率性の両方に匹敵するものです。