2ヶ月前

VFIMamba: ステート空間モデルを用いたビデオフレーム補間

Guozhen Zhang; Chunxu Liu; Yutao Cui; Xiaotong Zhao; Kai Ma; Limin Wang
VFIMamba: ステート空間モデルを用いたビデオフレーム補間
要約

フレーム間モデリングは、ビデオフレーム補間(VFI)において中間フレームを生成するために重要な役割を果たします。現在のアプローチは主に畳み込みや注意機構に基づいたモデルに依存しており、しばしば十分な受容野が欠けているか、または著しい計算負荷を伴います。最近、長系列モデリングに特化した選択的状態空間モデル(Selective State Space Models, S6)が登場し、線形複雑さとデータ依存的なモデリング能力を提供しています。本論文では、S6モデルを活用して効率的かつ動的なフレーム間モデリングを行う新しいフレーム補間手法VFIMambaを提案します。当手法では、Mixed-SSMブロック(MSB)を導入し、隣接するフレームからトークンを交互に並べ替え、その後多方向S6モデリングを適用します。この設計により、フレーム間での情報伝達が効率化されつつも線形複雑さが維持されます。さらに、異なる運動量に対応するフレーム間ダイナミクスのモデリング能力を段階的に向上させる新しいカリキュラム学習戦略を提案します。これによりS6モデルの潜在能力が完全に引き出されます。実験結果は、当手法が様々なベンチマークで最先端の性能を達成することを示しており、特に高解像度シナリオにおいて優れた成績を収めています。特にX-TESTデータセットにおいて、VFIMambaは4Kフレームで0.80 dB、2Kフレームで0.96 dBという顕著な改善を示しました。