Lernen der Video-Objekt-Segmentierung aus statischen Bildern

Inspired by recent advances in deep learning for instance segmentation and object tracking, we introduce the video object segmentation problem as a concept of guided instance segmentation. Unser Modell verarbeitet die Frames einzeln und wird durch das Ergebnis des vorherigen Frames zur Segmentierung des interessierenden Objekts im nächsten Frame geleitet. Wir zeigen, dass hochgenaue Objektsegmentierung in Videos durch eine ConvNet ermöglicht werden kann, die ausschließlich mit statischen Bildern trainiert wurde. Das Kernstück unserer Methode ist eine Kombination von Offline- und Online-Lernstrategien, wobei die erstere dazu dient, aus der Schätzung des vorherigen Frames ein verfeinertes Maskenbild zu erzeugen, und die letztere es ermöglicht, das Erscheinungsbild der spezifischen Objektinstanz zu erfassen. Unsere Methode kann verschiedene Arten von Eingabeannotierungen verarbeiten: Begrenzungsrahmen und Segmente sowie mehrere annotierte Frames, was das System für vielfältige Anwendungen geeignet macht. Wir erzielen wettbewerbsfähige Ergebnisse auf drei verschiedenen Datensätzen, unabhängig von der Art der Eingabeannotierung.