Command Palette

Search for a command to run...

23日前

MemMamba:状態空間モデルにおけるメモリパターンの再考

Youjin Wang Yangjingyi Chen Jiahao Yan Jiaxuan Lu Xiao Sun

MemMamba:状態空間モデルにおけるメモリパターンの再考

要約

データの爆発的増加に伴い、自然言語処理やバイオインフォマティクスなどのタスクにおいて、長期間シーケンスのモデリングはますます重要性を増している。しかし、従来の手法は効率性とメモリ使用量の間に本質的なトレードオフを抱えている。再帰型ニューラルネットワーク(RNN)は勾配消失・勾配爆発の問題に悩まされ、スケーラビリティに難がある。一方、Transformerはグローバルな依存関係をモデル化できるが、計算量が二次関数的(O(n²))であるため制限がある。近年、Mambaを代表とする選択的状態空間モデルが、O(n)の時間計算量とO(1)の再帰的推論により高い効率性を示したが、その長距離記憶は指数関数的に劣化するという課題を抱えている。本研究では、数学的導出と情報理論的分析を通じて、Mambaの記憶劣化メカニズムを体系的に解明し、根本的な問いに答える:Mambaの長距離記憶の本質とは何か?情報はどのように保持されるのか?重要な情報損失を定量化するため、層内および層間の劣化を捉える「水平方向・垂直方向の記憶忠実度(horizontal-vertical memory fidelity)」という新たな指標を導入した。長文を読む際の人間の記憶戦略――特に重要な情報を抽出・保持するプロセス――に着想を得て、状態要約機構と層間・トークン間のアテンションを統合する新たなアーキテクチャ「MemMamba」を提案する。この構造により、長距離の忘却問題を緩和しつつ、線形計算量を維持することが可能となる。MemMambaは、PG19やPasskey Retrievalといった長シーケンスベンチマークにおいて、既存のMamba変種およびTransformerと比較して顕著な性能向上を達成し、推論効率において48%の高速化を実現した。理論的解析と実証結果の両面から、MemMambaが複雑さと記憶のトレードオフにおいて画期的な進展を達成し、超長シーケンスモデリングのための新たなパラダイムを提供することが示された。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MemMamba:状態空間モデルにおけるメモリパターンの再考 | 論文 | HyperAI超神経