Eine distraktorbewusste Erinnerung für die visuelle Objektverfolgung mit SAM2

Speicherbasierte Tracker sind Video-Objekt-Segmentierungsverfahren, die das Zielmodell durch Anhängen kürzlich verfolgter Frames an einen Speicherpuffer bilden und das Ziel durch Aufmerksamkeit des aktuellen Bildes auf die gepufferten Frames lokalisieren. Obwohl sie bereits auf vielen Benchmarks Spitzenleistungen erzielen, hat der jüngste Release von SAM2 die speicherbasierten Tracker in den Fokus der visuellen Objektverfolgungsgemeinschaft gerückt. Dennoch kämpfen moderne Tracker weiterhin mit Ablenkern (distractors). Wir argumentieren, dass ein komplexeres Speichermodell erforderlich ist, und schlagen ein neues ablenkungsbewusstes Speichermodell für SAM2 sowie eine introspektionsbasierte Aktualisierungsstrategie vor, die sowohl die Segmentierungsgenauigkeit als auch die Verfolgungsrobustheit adressiert. Der resultierende Tracker wird als SAM2.1++ bezeichnet. Zudem schlagen wir einen neuen ablenkerdistillierten DiDi-Datensatz vor, um das Ablenkungsproblem besser zu untersuchen. SAM2.1++ übertrifft SAM2.1 und verwandte SAM-Speicherverlängerungen auf sieben Benchmarks und setzt einen soliden neuen Stand der Technik auf sechs davon.