
要約
ビデオレベルでの文脈情報が視覚的な物体追跡においてますます重要になっています。しかし、既存の手法は通常、この情報を伝えるためにわずかなトークンしか使用せず、情報の損失を引き起こし、文脈を完全に捉える能力を制限する可能性があります。この問題に対処するために、私たちは新しいビデオレベルの視覚的物体追跡フレームワークであるMCITrackを提案します。MCITrackはMambaの隠れ状態を利用して、ビデオストリーム全体で広範な文脈情報を継続的に記録し、伝送します。これにより、より堅牢な物体追跡が可能になります。MCITrackの核心部は文脈情報統合モジュールであり、mamba層とクロスアテンション層から構成されています。mamba層は歴史的な文脈情報を保存し、クロスアテンション層はこの情報を各バックボーンブロックの現在の視覚特徴に統合します。このモジュールは、バックボーンとの深いつながりを通じて複数のレベルで文脈情報を捉え、利用するモデルの能力を向上させます。実験結果では、MCITrackが多数のベンチマークで競争力のある性能を達成していることが示されています。例えば、LaSOTでは76.6%のAUC(Area Under Curve)を記録し、GOT-10kでは80.0%のAO(Average Overlap)を得ています。これらの結果は新たな最先端性能を確立しています。コードとモデルはhttps://github.com/kangben258/MCITrack で公開されています。