Mask Selection und Propagation für unsupervised Video Object Segmentation

In dieser Arbeit präsentieren wir einen neuartigen Ansatz für die unüberwachte Video-Objekt-Segmentierung, der automatisch Segmentierungsmasken auf Instanzebene für auffällige Objekte generiert und diese in einem Video verfolgt. Wir behandeln effizient Probleme, die in bestehenden Methoden auftreten, wie z. B. Drift während der zeitlichen Propagation, der Verfolgung und der Hinzufügung neuer Objekte. Dazu schlagen wir eine neuartige Idee vor, Masken online mithilfe eines Ensembles von Kriterien zu verbessern, deren Aufgabe darin besteht, die Qualität der Masken zu überprüfen. Wir führen eine innovative Methode zur Beurteilung der Maskenqualität mittels eines neuronalen Netzes namens Selector Net ein. Das vorgeschlagene Netzwerk wird derart trainiert, dass es über verschiedene Datensätze hinweg generalisiert. Unser Ansatz gelingt es, den sich im Laufe des Videos ansammelnden Rausch zu begrenzen und erreicht auf dem Davis 2019 Unsupervised-Challenge-Datensatz Ergebnisse auf State-of-the-Art-Niveau mit einem durchschnittlichen J&F-Score von 61,6 %. Zudem haben wir Tests auf Datensätzen wie FBMS und SegTrack V2 durchgeführt und konnten dabei Ergebnisse erzielen, die entweder besser oder auf dem Niveau der anderen Methoden liegen.