Command Palette
Search for a command to run...
Ein Ablenkungs-awareer Speicher für visuelles Objektverfolgen mit SAM2
Ein Ablenkungs-awareer Speicher für visuelles Objektverfolgen mit SAM2
Jovana Videnovic Alan Lukezic Matej Kristan
Zusammenfassung
Memory-basierte Tracker sind Methoden zur Video-Objektsegmentierung, die das Zielmodell durch Verkettung kürzlich verfolgter Frames in einen Speicherpuffer bilden und die Zielposition durch Aufmerksamkeit des aktuellen Bildes gegenüber den im Puffer gespeicherten Frames lokalisieren. Obwohl diese Ansätze bereits auf vielen Benchmarks hervorragende Leistung erzielt haben, wurde die Aufmerksamkeit der Gemeinschaft des visuellen Objektverfolgens erst durch die kürzliche Einführung von SAM2 auf memory-basierte Tracker gelenkt. Dennoch leiden moderne Tracker weiterhin unter Störungen durch Ablenkungen (distractors). Wir argumentieren, dass ein anspruchsvolleres Speichermodell erforderlich ist, und stellen ein neues, auf Ablenkungen sensitives Speichermodell für SAM2 sowie eine auf Selbstreflexion basierende Aktualisierungsstrategie vor, die gleichzeitig die Segmentierungsgenauigkeit und die Robustheit der Verfolgung verbessert. Der resultierende Tracker wird als SAM2.1++ bezeichnet. Zudem präsentieren wir eine neue, auf Ablenkungen fokussierte Datensammlung namens DiDi, um das Problem von Ablenkungen besser zu untersuchen. SAM2.1++ erreicht auf sieben Benchmarks eine bessere Leistung als SAM2.1 und verwandte Erweiterungen von SAM mit Speichermodell und setzt auf sechs davon eine neue, solide State-of-the-Art-Leistung.