Verbesserung der unüberwachten Video-Objekt-Segmentierung durch die Generierung von Falschflüssen

Die unüberwachte Video-Objekt-Segmentierung (VOS), auch bekannt als Video-Salient-Objekt-Erkennung, zielt darauf ab, das prominenteste Objekt in einem Video auf Pixelbasis zu detektieren. Kürzlich haben sich Ansätze mit zwei Strömen, die sowohl RGB-Bilder als auch optische Flusskarten nutzen, erhebliche Aufmerksamkeit verschafft. Dennoch bleibt die begrenzte Menge an Trainingsdaten eine erhebliche Herausforderung. In dieser Studie schlagen wir eine neuartige DatenGenerierungs-Methode vor, die künstliche optische Flüsse aus einzelnen Bildern simuliert und damit umfangreiche Trainingsdaten für stabiles Netzwerk-Lernen erstellt. Inspiriert durch die Erkenntnis, dass optische Flusskarten stark von Tiefenkarten abhängen, generieren wir künstliche optische Flüsse durch Verfeinerung und Erweiterung der geschätzten Tiefenkarten jedes Bildes. Durch die Einbeziehung unserer simulierten Bild-Fluss-Paare erreichen wir neue Stand der Technik-Leistungen auf allen öffentlichen Benchmark-Datensätzen ohne den Einsatz komplexer Module. Wir glauben, dass unsere DatenGenerierungs-Methode ein potentieller Durchbruch für zukünftige VOS-Forschung darstellt.