3ヶ月前

Mamba-360:長文系列モデリングにおけるTransformerの代替としての状態空間モデルのサーベイ:手法、応用および課題

Badri Narayana Patro, Vijay Srinivas Agneeswaran
Mamba-360:長文系列モデリングにおけるTransformerの代替としての状態空間モデルのサーベイ:手法、応用および課題
要約

シーケンスモデリングは、自然言語処理(NLP)、音声認識、時系列予測、音楽生成、バイオインフォマティクスなど、さまざまな分野において重要な研究領域である。従来、再帰的ニューラルネットワーク(RNN)および長短期記憶ネットワーク(LSTM)が機械翻訳、固有表現抽出(NER)などのシーケンスモデリングタスクを主導してきた。しかし、トランスフォーマーの進展により、そのパフォーマンスの優位性から、モデリングのパラダイムが大きく変化している。一方で、トランスフォーマーは$O(N^2)$のアテンション計算量という課題を抱えており、誘導的バイアス(inductive bias)の扱いにも困難を伴う。この問題に対処するため、スペクトルネットワークや畳み込みを用いた変種が提案されており、多様なタスクにおいて良好な性能を示している。しかし、依然として長文シーケンスの処理には限界がある。このような文脈において、状態空間モデル(State Space Models, SSMs)が、新たな有望なシーケンスモデリングの枠組みとして注目されている。特に、S4およびその変種であるS4nd、Hippo、Hyena、対角状態空間(DSS)、ゲート付き状態空間(GSS)、線形再帰ユニット(LRU)、Liquid-S4、Mambaなどにより、その可能性が広がっている。本調査では、SSMsの基礎となるモデルを、ゲートアーキテクチャ、構造アーキテクチャ、再帰アーキテクチャの3つのパラダイムに基づいて分類する。また、視覚、動画、音声、言語(特に長文シーケンスモデリング)、医療(遺伝子情報解析を含む)、化学(ドラッグデザインなど)、推薦システム、時系列分析(表形式データを含む)など、幅広い分野におけるSSMsの多様な応用を紹介する。さらに、Long Range Arena(LRA)、WikiText、GLUE、Pile、ImageNet、Kinetics-400、sstv2などの標準ベンチマークデータセット、およびBreakfast、COIN、LVUなどの動画データセット、さらには多様な時系列データセットにおけるSSMsの性能を統合的に整理する。Mamba-360プロジェクトのページは以下のURLで公開されている:\url{https://github.com/badripatro/mamba360}。