Unüberwachte Video-Objektsegmentierung mit gemeinsamer Hotspot-Verfolgung

Objektverfolgung ist ein gut untersuchtes Problem im Bereich der Computer Vision, während die Identifizierung auffälliger Bereiche von Objekten in Videos in der Literatur weniger erforscht ist. Video-Augenbewegungs-Schätzungsmethoden zielen auf eine verwandte Aufgabe ab, doch die auffälligen Stellen in diesen Ansätzen sind nicht an Objekte gebunden und neigen aufgrund von verrauschten Ground-Truth-Daten zu sehr zerstreuten und instabilen Vorhersagen. Wir formulieren das Problem der Detektion und Verfolgung auffälliger Objektstellen neu als eine neue Aufgabe, die als „Object Hotspot Tracking“ bezeichnet wird. In diesem Artikel schlagen wir vor, diese Aufgabe gemeinsam mit der unsupervisierten Video-Objektsegmentierung in Echtzeit mit einem einheitlichen Framework zu lösen, um die Synergie zwischen beiden Aufgaben auszunutzen. Konkret stellen wir ein gewichtetes Korrelations-Siameses-Netzwerk (WCS-Net) vor, das einen gewichteten Korrelations-Block (WCB) verwendet, um die pixelweisen Korrespondenzen zwischen einem Vorlageframe und einem Suchframe zu kodieren. Zudem nutzt der WCB die anfängliche Maske bzw. den Hotspot als Leitfaden, um den Einfluss auffälliger Regionen für eine robuste Verfolgung zu verstärken. Unser System kann während der Inferenz online arbeiten und gleichzeitig Objektmasken und Hotspot-Tracklets mit 33 FPS erzeugen. Experimentelle Ergebnisse bestätigen die Wirksamkeit unseres Netzwerkdesigns und zeigen die Vorteile einer gemeinsamen Lösung der Aufgaben Hotspot-Verfolgung und Objektsegmentierung. Insbesondere schneidet unsere Methode gegenüber aktuellen State-of-the-Art-Modellen für Video-Augenbewegungs-Schätzung im Bereich des Object Hotspot Tracking positiv ab und übertrifft bestehende Methoden auf drei Benchmark-Datensätzen für unsupervisierte Video-Objektsegmentierung.