
要約
私たちはXMemを提案します。これは、アトキンソン-シフリン記憶モデルに着想を得た統一された特徴記憶ストアを持つ長時間ビデオの物体セグメンテーションアーキテクチャです。これまでのビデオ物体セグメンテーションに関する研究では、通常1種類の特徴記憶のみが使用されていました。1分を超える長時間ビデオの場合、単一の特徴記憶モデルはメモリ消費量と精度を密接に結びつけており、これが問題となっています。これに対して、アトキンソン-シフリンモデルに基づいて、私たちは複数の独立したが深く関連する特徴記憶ストアを組み込んだアーキテクチャを開発しました。これらは急速に更新される感覚記憶、高解像度の作業記憶、そしてコンパクトで持続可能な長期記憶です。特に重要なのは、メモリ強化アルゴリズムを開発したことでした。このアルゴリズムは、頻繁に使用される作業記憶要素を定期的に長期記憶に統合することで、メモリ爆発を防ぎ、長期予測における性能低下を最小限に抑えます。新しいメモリ読み出し機構と組み合わせることで、XMemは長時間ビデオデータセットにおいて最先端の性能を大幅に上回りながらも、短時間ビデオデータセットでは(長時間ビデオには対応していない)最先端手法と同等の性能を達成しています。コードは以下のURLから入手可能です: https://hkchengrex.github.io/XMem