2ヶ月前

AntisymmetricRNN: 復元ニューラルネットワークの動的システム観点

Bo Chang; Minmin Chen; Eldad Haber; Ed H. Chi
AntisymmetricRNN: 復元ニューラルネットワークの動的システム観点
要約

再帰型ニューラルネットワークは、順次データのモデリングに広く使用されるようになりました。しかし、これらのモデルを用いて長期依存関係を学習することは、勾配爆発や勾配消失の問題により依然として困難です。本論文では、再帰型ネットワークと常微分方程式との間の関連性について考察します。この理論的枠組みに基づき、安定性を持つ基礎となる常微分方程式のおかげで長期依存関係を捉えることができる特殊な形の再帰型ネットワークであるAntisymmetricRNN(反対称RNN)が提案されています。既存のRNNの学習可能性向上手法はしばしば大きな計算負荷を伴いますが、比較してAntisymmetricRNNは設計によって同じ目標を達成します。私たちは広範なシミュレーションと実験を通じて、この新しいアーキテクチャの優位性を示します。AntisymmetricRNNは予測可能な動態を示し、長期記憶が必要なタスクでは通常のLSTMモデルよりも優れた性能を発揮し、短期依存関係が主導するタスクでも非常に単純な構造にもかかわらず同等の性能を達成しています。

AntisymmetricRNN: 復元ニューラルネットワークの動的システム観点 | 最新論文 | HyperAI超神経