Lernen der Video-Objekt-Segmentierung mit visuellem Gedächtnis

Dieses Papier behandelt die Aufgabe der Segmentierung bewegter Objekte in ungesteuerten Videos. Wir stellen ein neues zweistromiges neuronales Netzwerk mit einem expliziten Speichermodul vor, um dies zu erreichen. Die beiden Ströme des Netzwerks kodieren räumliche und zeitliche Merkmale in einer Videosequenz jeweils, während das Speichermodul die Entwicklung der Objekte über die Zeit erfasst. Das Modul zur Erstellung eines „visuellen Gedächtnisses“ im Video, d.h. einer gemeinsamen Repräsentation aller Videobilder, wird mit einer konvolutionellen rekurrenten Einheit realisiert, die aus einer kleinen Anzahl von Trainingsvideos gelernt wird. Bei Eingabe eines Videobildes weist unser Ansatz jedem Pixel auf Basis der gelernten raumzeitlichen Merkmale sowie des dem Video spezifischen „visuellen Gedächtnisses“ automatisch ein Objekt- oder Hintergrundlabel zu, ohne manuell annotierte Bilder zu benötigen. Das visuelle Gedächtnis wird mit konvolutionellen Gated Recurrent Units (GRUs) implementiert, was es ermöglicht, räumliche Informationen über die Zeit hinweg zu verbreiten. Wir evaluieren unsere Methode umfassend an zwei Benchmarks, den DAVIS- und den Freiburg-Berkeley Motion Segmentation Datensätzen, und zeigen Stand-of-the-Art-Ergebnisse. Zum Beispiel übertreffen unsere Ergebnisse die des besten Verfahrens im DAVIS-Datensatz um fast 6 %. Darüber hinaus führen wir eine ausführliche ablativ Analyse durch, um den Einfluss jeder Komponente im vorgeschlagenen Framework zu untersuchen.