Videoobjekt-Segmentierung mit Space-Time-Memory-Netzwerken

Wir schlagen eine innovative Lösung für die semi-überwachte Videoobjektsegmentierung vor. Aufgrund der Natur des Problems werden verfügbare Hinweise (z.B. Videobilder mit Objektmasken) reichhaltiger, wenn man die Zwischenvorhersagen berücksichtigt. Bestehende Methoden sind jedoch nicht in der Lage, diese reiche Informationsquelle vollständig zu nutzen. Wir lösen dieses Problem durch den Einsatz von Memory Networks und lernen, relevante Informationen aus allen verfügbaren Quellen zu extrahieren. In unserem Framework bilden die vergangenen Bilder mit Objektmasken ein externes Gedächtnis, und das aktuelle Bild als Abfrage wird unter Verwendung der Maskeninformationen im Gedächtnis segmentiert. Insbesondere werden Abfrage und Gedächtnis dicht im Merkmalsraum abgeglichen, wobei alle räumlich-zeitlichen Pixelpositionen in einem Feedforward-Verfahren abgedeckt werden. Im Gegensatz zu früheren Ansätzen ermöglicht uns die umfangreiche Nutzung der Leitinformationen, Herausforderungen wie Erscheinungsänderungen und Verdeckungen besser zu bewältigen. Wir haben unsere Methode anhand der neuesten Benchmark-Datensätze validiert und dabei den aktuellen Stand der Technik erreicht (Gesamtwert von 79,4 auf dem YouTube-VOS Validierungsdatensatz, J-Werte von 88,7 und 79,2 auf den DAVIS 2016/2017 Validierungsdatensätzen), während wir gleichzeitig eine schnelle Laufzeit (0,16 Sekunde/Bild auf dem DAVIS 2016 Validierungsdatensatz) bieten.