15日前
ハイポを訓練する方法:一般化直交基底射影を用いた状態空間モデル
Albert Gu, Isys Johnson, Aman Timalsina, Atri Rudra, Christopher Ré

要約
線形時不変状態空間モデル(SSM)は、工学および統計学における古典的なモデルであり、最近、構造化状態空間系列モデル(S4)を通じて機械学習において極めて有望な成果を示している。S4の核心的な要素の一つは、状態行列を特定の行列、すなわちHiPPO行列と初期化することである。この初期化は、S4が長距離依存性を扱う能力において実証的に重要であることが示されている。しかし、S4が実際に使用しているこの行列は、過去の研究において特定の時変動ダイナミカルシステムに対して導出されたものであり、その行列を時不変SSMに用いるというアプローチには、これまで数学的な解釈が知られていなかった。その結果、S4が長距離依存性をどのようにモデル化しているかという理論的メカニズムは、未だ明確に説明されていなかった。本研究では、HiPPOフレームワークをより一般化かつ直感的な形で再定式化し、S4が指数的歪みを施したルジャンドル多項式への展開として解釈できることを明らかにした。この新たな視点により、S4が長距離依存性を効果的に捉える理由が数学的に説明可能となった。さらに、この一般化により、フーリエ基底など他の基底に対するより直感的なS4の変種を導出可能となり、学習における重要なタイムスケールパラメータの初期化方法など、S4の他の側面についても新たな理解が得られた。これらの知見を活用することで、S4の性能は長距離アリーナ(Long Range Arena)ベンチマークで86%まで向上し、特に困難なPath-Xタスクでは96%の精度を達成した。