HyperAIHyperAI
vor 2 Monaten

SAMURAI: Anpassung des Segment Anything-Modells für zero-shot visuelle Verfolgung mit bewegungsbewusstem Gedächtnis

Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang
SAMURAI: Anpassung des Segment Anything-Modells für zero-shot visuelle Verfolgung mit bewegungsbewusstem Gedächtnis
Abstract

Das Segment Anything Modell 2 (SAM 2) hat starke Leistungen bei Objektsegmentierungsaufgaben gezeigt, stellt jedoch Herausforderungen in der visuellen Objektnachverfolgung dar, insbesondere bei der Verwaltung von dicht besetzten Szenen mit schnell bewegten oder selbst verdeckten Objekten. Darüber hinaus berücksichtigt der Ansatz des fixierten Fenstergedächtnisses im ursprünglichen Modell die Qualität der ausgewählten Erinnerungen nicht, die verwendet werden, um die Bildmerkmale für den nächsten Frame zu konditionieren. Dies führt zu Fehlerversionen in Videos. In dieser Arbeit wird SAMURAI vorgestellt, eine verbesserte Anpassung von SAM 2, die speziell für die visuelle Objektnachverfolgung entwickelt wurde. Durch die Einbeziehung zeitlicher Bewegungshinweise und dem vorgeschlagenen bewegungsorientierten Gedächtnisauswahlmechanismus kann SAMURAI die Bewegung von Objekten effektiv vorhersagen und die Maskenauswahl verfeinern. Es erreicht dabei robuste und genaue Nachverfolgung ohne Notwendigkeit einer erneuten Schulung oder Feinabstimmung. SAMURAI arbeitet in Echtzeit und zeigt starke zero-shot-Leistung auf verschiedenen Benchmark-Datensätzen, was seine Fähigkeit zur Generalisierung ohne Feinabstimmung unterstreicht. Bei Evaluierungen erreicht SAMURAI erhebliche Verbesserungen in Erfolgsrate und Präzision gegenüber bestehenden Nachverfolgeralgorithmen, mit einem AUC-Gewinn von 7,1 % auf LaSOT_{ext} und einem AO-Gewinn von 3,5 % auf GOT-10k. Zudem erzielt es vergleichbare Ergebnisse im Vergleich zu vollständig überwachten Methoden auf LaSOT, was seine Robustheit in komplexen Nachverfolgsszenarien und sein Potenzial für Anwendungen in dynamischen Umgebungen hervorhebt. Der Quellcode und die Ergebnisse sind unter https://github.com/yangchris11/samurai verfügbar.