Erraten Sie, was sich bewegt: Unüberwachte Video- und Bildsegmentierung durch Vorhersage von Bewegung

Die Bewegung, die über optischen Fluss gemessen wird, bietet einen leistungsstarken Hinweis zur Entdeckung und Lernung von Objekten in Bildern und Videos. Allerdings hat sie im Vergleich zur Verwendung des Erscheinungsbildes einige Blinde Flecken, wie zum Beispiel die Tatsache, dass Objekte unsichtbar werden, wenn sie sich nicht bewegen. In dieser Arbeit schlagen wir einen Ansatz vor, der die Stärken der bewegungsbasierten und des erscheinungsbildbasierten Segmentierung kombiniert. Wir schlagen vor, ein Bildsegmentierungsnetzwerk mit der Vorwandaufgabe zu überwachen, Regionen vorherzusagen, die wahrscheinlich einfache Bewegungsmuster enthalten und daher wahrscheinlich zu Objekten korrespondieren. Da das Modell nur ein einzelnes Bild als Eingabe verwendet, können wir es in zwei Szenarien anwenden: unüberwachte Video-Segmentierung und unüberwachte Bildsegmentierung. Wir erzielen Stand-der-Technik-Ergebnisse für Videos und zeigen die Machbarkeit unseres Ansatzes an stehenden Bildern mit neuen Objekten auf. Zudem experimentieren wir mit verschiedenen Bewegungsmodellen und optischen Fluss-Backbones (optical flow backbones) und stellen fest, dass die Methode gegenüber diesen Änderungen robust ist. Projektseite und Code sind unter https://www.robots.ox.ac.uk/~vgg/research/gwm verfügbar.