Robuste visuelle Verfolgung durch Segmentierung

Die Schätzung der Zielgröße stellt eine grundlegende Herausforderung in der visuellen Objektverfolgung dar. Üblicherweise sind Verfolger boxzentriert und definieren das Ziel im Bildausschnitt vollständig über ein Begrenzungsrechteck. In der Praxis haben Objekte jedoch oft komplexe Formen und sind nicht mit der Bildachse ausgerichtet. In solchen Fällen liefern Begrenzungsrechtecke keine genaue Beschreibung des Ziels und enthalten häufig eine hohe Anzahl von Hintergrundpixeln. Wir schlagen einen segmentationszentrierten Tracking-Prozess vor, der nicht nur eine hochgenaue Segmentierungsmaske erzeugt, sondern auch intern mit Segmentierungsmasken anstelle von Begrenzungsrechtecken arbeitet. Dadurch ist unser Tracker in der Lage, eine bessere Zielrepräsentation zu lernen, die das Ziel im Bildausschnitt klar vom Hintergrundinhalt abgrenzt. Um die für die anspruchsvolle Tracking-Situation notwendige Robustheit zu erreichen, schlagen wir eine separate Instanzlokalisationskomponente vor, die beim Erstellen der Ausgabemaske den Segmentierungsdecoder bedingt. Wir leiten ein Begrenzungsrechteck aus der Segmentierungsmaske ab, validieren unseren Tracker auf anspruchsvollen Tracking-Datensätzen und erreichen den neuen Stand der Technik auf LaSOT mit einem Erfolgs-AUC-Wert von 69,7 %. Da die meisten Tracking-Datensätze keine Maskenannotationen enthalten, können wir sie nicht zur Bewertung der vorhergesagten Segmentierungsmasken verwenden. Stattdessen validieren wir unsere Segmentierungsqualität anhand zweier populärer Video-Objekt-Segmentierung-Datensätze.