2ヶ月前
SAMURAI: 動き認識メモリを用いたゼロショット視覚追跡のセグメントAnythingモデルの適応
Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang

要約
セグメント・アニー・モデル2(SAM 2)は物体セグメンテーションタスクにおいて優れた性能を示していますが、特に高速移動や自己遮蔽のある物体を含む混雑したシーンの視覚的オブジェクト追跡に課題を抱えています。さらに、元のモデルにおける固定ウィンドウメモリアプローチでは、次のフレームの画像特徴量を条件づけるために選択されたメモリの品質が考慮されていないため、ビデオでの誤差伝播が発生します。本論文では、視覚的オブジェクト追跡のために特別に設計されたSAM 2の強化版であるSAMURAIを紹介します。時間的な運動情報を組み込んだ提案される運動認識メモリ選択機構により、SAMURAIは物体の運動を効果的に予測し、マスク選択を精緻化することで、再学習や微調整なしで堅牢かつ正確な追跡を実現します。SAMURAIはリアルタイムで動作し、多様なベンチマークデータセットにおいて強いゼロショット性能を示しており、微調整なしで汎化能力を持つことを証明しています。評価では、既存のトラッカーと比較して成功率と精度に大幅な改善が見られ、LaSOT_{ext}ではAUC(Area Under Curve)が7.1%向上し、GOT-10kではAO(Average Overlap)が3.5%向上しました。また、LaSOTにおいて完全教師あり手法と競合する結果を得ており、複雑な追跡シナリオでの堅牢性と動的環境における実世界応用の可能性を強調しています。コードと結果は https://github.com/yangchris11/samurai で公開されています。