
要約
メモリベースのトラッカーは、最近追跡されたフレームをメモリバッファに連結してターゲットモデルを形成し、バッファされたフレームに対する現在の画像の注意によってターゲットを局在化するビデオオブジェクトセグメンテーション手法である。多くのベンチマークでトップパフォーマンスを達成しているが、SAM2の最近のリリースにより、メモリベースのトラッカーが視覚的オブジェクト追跡コミュニティの注目を集めることとなった。しかし、現代のトラッカーはまだ誘導物(distractors)の存在下では苦戦している。より洗練されたメモリモデルが必要であると主張し、SAM2用に新しい誘導物対応メモリモデルと、セグメンテーション精度および追跡ロバスト性を同時に解決する内省に基づく更新戦略を提案する。この結果得られたトラッカーはSAM2.1++と表記される。また、誘導物問題をよりよく研究するために新しい誘導物抽出データセットDiDiも提案する。SAM2.1++は7つのベンチマークでSAM2.1および関連するSAMメモリ拡張機能を上回り、そのうち6つで堅実な新規最先端(state-of-the-art)を確立した。