
シーケンスモデリングの中心的な目標は、一連のモダリティとタスクにわたるシーケンスデータを処理できる単一の原理に基づいたモデルを設計することであり、特に長距離依存関係(ロングレンジ・デペンデンシー)に対応することが重要です。従来のモデルであるRNN、CNN、およびトランスフォーマーには、長距離依存関係を捉えるための専門的な変種がありますが、それでも1万ステップ以上の非常に長いシーケンスに対してスケーリングするのに苦労しています。最近有望なアプローチとして、基本的な状態空間モデル(SSM) ( x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) ) をシミュレーションしてシーケンスをモデリングする方法が提案されました。このシステムは、状態行列 ( A ) の適切な選択により、数学的にも実証的にも長距離依存関係を扱うことができることが示されています。しかし、この方法には計算量とメモリ要件が高すぎることから、一般的なシーケンスモデリングソリューションとしては実現不可能でした。私たちは新しいパラメータ化に基づく構造化された状態空間シーケンスモデル(Structured State Space sequence model, S4)を提案し、その理論的な強みを保ちつつ、以前の手法よりも大幅に効率的に計算できることを示します。私たちの技術は、低ランク補正によって ( A ) を条件付けし、安定した対角化を可能にすることで、SSM をコーシー核の既知の計算に還元します。S4 は多様な既存ベンチマークで優れた実証結果を達成しており、(i) データ拡張や補助損失なしで順次CIFAR-10において91%の精度を達成し、大型2次元ResNetと同等の性能を発揮しています。(ii) 画像生成と言語モデリングタスクにおいてトランスフォーマーとの差異を大幅に縮めつつ、生成速度は60倍速くなっています。(iii) Long Range Arena ベンチマークにおけるすべてのタスクで最先端(SoTA)の性能を達成しており、これまでどの研究も解決できなかった16k長さのPath-X タスクも解くことができています。競合他社と同程度の効率性を持つ一方でこれらの成果を上げています。