Bewegung als Option mit Auswahlausgabe für die unüberwachte Videoobjektsegmentierung behandeln

Die unüberwachte Video-Objekt-Segmentierung (Unsupervised Video Object Segmentation) strebt danach, das auffälligste Objekt in einem Video ohne externe Anleitung bezüglich des Objekts zu erkennen. Auffällige Objekte zeigen oft charakteristische Bewegungen im Vergleich zum Hintergrund, und aktuelle Methoden nutzen dies, indem sie Bewegungshinweise aus optischen Flusskarten mit Erscheinungshinweisen aus RGB-Bildern kombinieren. Allerdings können optische Flusskarten häufig eng mit Segmentierungs-Masken korreliert sein, wodurch Netzwerke während des Trainings übermäßig auf Bewegungshinweise angewiesen werden. Dies führt zu Verletzbarkeit bei verwirrenden Bewegungshinweisen und resultiert in instabilen Vorhersagen. Um dieser Herausforderung zu begegnen, schlagen wir ein neues Netzwerk vor, das Bewegungshinweise als optionales Element und nicht als Notwendigkeit behandelt (motion-as-option network). Während des Trainings geben wir zufällig RGB-Bilder in den Bewegungsencoder ein anstelle von optischen Flusskarten, was die Abhängigkeit des Netzwerks von Bewegungshinweisen implizit verringert. Diese Gestaltung sichert zu, dass der Bewegungsencoder sowohl RGB-Bilder als auch optische Flusskarten verarbeiten kann, was je nach Art der Eingabe zu zwei unterschiedlichen Vorhersagen führt. Um diese Flexibilität optimal zu nutzen, führen wir einen adaptiven Ausgabeauswahlalgorithmus ein, der während des Testens die optimale Vorhersage bestimmt.