Halbüberwachte Video-Salient-Objekt-Erkennung mit Pseudo-Labels

Die auf tiefem Lernen basierende Erkennung von auffälligen Objekten in Videos hat kürzlich große Erfolge erzielt, wobei ihre Leistungsignifikant besser ist als die anderer unüberwachter Methoden. Bestehende datengetriebene Ansätze hängen jedoch stark von einer großen Anzahl pixelgenauer annotierter Video Frames ab, um solche vielversprechenden Ergebnisse zu liefern. In dieser Arbeit adressieren wir die semi-überwachte Erkennung von auffälligen Objekten in Videos unter Verwendung von Pseudo-Labels. Insbesondere präsentieren wir einen effektiven Video-Salienzerkennungs-detektor, der aus einem räumlichen Verfeinerungsnetzwerk und einem räumlich-zeitlichen Modul besteht. Basierend auf demselben Verfeinerungsnetzwerk und Bewegungsinformationen im Sinne des optischen Flusses schlagen wir außerdem eine neuartige Methode vor, um pixelgenaue Pseudo-Labels aus dünn besetzten annotierten Frames zu generieren. Durch die Nutzung der generierten Pseudo-Labels zusammen mit Teilen manueller Annotationen lernt unser Video-Salienzerkennungs-detektor räumliche und zeitliche Hinweise sowohl für Kontrastinferenz als auch für Kohärenzverbesserung, wodurch genaue Salienzkarten erstellt werden können. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagener semi-überwachter Ansatz sogar bei drei öffentlichen Benchmarks (VOS, DAVIS und FBMS) alle state-of-the-art voll überwachten Methoden deutlich übertreffen kann.