Unüberwachte Video-Objektsegmentierung mit bewegungsbasierten bilateralen Netzwerken

In dieser Arbeit untersuchen wir das Problem der unsupervisierten Video-Objektsegmentierung, bei dem sich bewegende Objekte ohne vorherige Kenntnis dieser Objekte segmentiert werden. Zunächst schlagen wir ein bewegungsbasierendes bilaterales Netzwerk vor, um die Hintergrundszene aufgrund der Bewegungsmuster in den nicht-objektbezogenen Regionen zu schätzen. Das bilaterale Netzwerk verringert Falsch-Positiv-Regionen durch eine präzise Identifizierung von Hintergrundobjekten. Anschließend integrieren wir die Hintergrundschätzung des bilateralen Netzwerks zusammen mit Instanz-Embeddings in ein Graphenmodell, welches eine mehrfrahmige Schlussfolgerung ermöglicht, wobei Graphenkanten Pixel aus verschiedenen Frames verbinden. Wir klassifizieren die Graphenknoten durch Definition und Minimierung einer Kostenfunktion und segmentieren die Videoframes basierend auf den Knotenlabels. Die vorgeschlagene Methode erreicht eine bessere Leistung als bisherige state-of-the-art-Methoden für unsupervisierte Video-Objektsegmentierung auf den Datensätzen DAVIS 2016 und FBMS-59.