15日前

シーケンスモデリングのための簡略化された状態空間層

Jimmy T.H. Smith, Andrew Warrington, Scott W. Linderman
シーケンスモデリングのための簡略化された状態空間層
要約

構造化状態空間系列(S4)層を用いたモデルは、長距離系列モデリングタスクにおいて最先端の性能を達成している。S4層は、線形状態空間モデル(SSM)、HiPPOフレームワークおよび深層学習を統合することで、高い性能を実現している。本研究ではS4層の設計を基盤とし、新たな状態空間層であるS5層を提案する。S4層が多数の独立した単入力・単出力SSMを用いるのに対し、S5層は1つの多入力・多出力SSMを用いる。S5とS4の間の関係を明確にし、これをもとにS5モデルで使用される初期化およびパラメータ化手法を構築した。その結果、効率的かつ広く実装されている並列スキャン(parallel scan)を活用できる状態空間層が実現され、S5はS4と同等の計算効率を維持しつつ、複数の長距離系列モデリングタスクで最先端の性能を達成した。S5は長距離アリーナベンチマークで平均87.4%、最も困難なPath-Xタスクでは98.5%の精度を達成した。

シーケンスモデリングのための簡略化された状態空間層 | 最新論文 | HyperAI超神経