Regionen-bewusste Video-Objekt-Segmentierung mit tiefem Bewegungsmodellierung

Aktuelle halbüberwachte Verfahren zur Videosegmentierung von Objekten (VOS) nutzen in der Regel die gesamten Merkmale eines Bildes, um Objektmasken vorherzusagen und das Gedächtnis zu aktualisieren. Dies führt zu erheblichen redundanten Berechnungen. Um Redundanzen zu reduzieren, stellen wir einen regionenbasierten Ansatz zur Videosegmentierung von Objekten (RAVOS) vor, der Regionen von Interesse (ROIs) für eine effiziente Segmentierung und Speicherung von Objekten vorhersagt. RAVOS enthält einen schnellen Objektbewegungstracker, um ihre ROIs im nächsten Bild vorherzusagen. Für eine effiziente Segmentierung werden die Objektmerkmale gemäß den ROIs extrahiert, und ein spezieller Objektdecoder wird entwickelt, um die Segmentierung auf Objektebene durchzuführen. Für eine effiziente Speicherung schlagen wir ein Bewegungspfadgedächtnis vor, das redundanten Kontext durch die Speicherung von Merkmalen innerhalb des Bewegungspfades der Objekte zwischen zwei Bildern filtert. Neben RAVOS schlagen wir auch einen groß angelegten Datensatz vor, der als OVOS bezeichnet wird, um die Leistungsfähigkeit von VOS-Modellen bei Überlagerungen zu bewerten. Die Auswertung anhand der Benchmarks DAVIS und YouTube-VOS sowie unseres neuen OVOS-Datensatzes zeigt, dass unsere Methode mit deutlich kürzerer Inferenzzeit erstklassige Ergebnisse erzielt, z.B. 86,1 J&F bei 42 FPS auf DAVIS und 84,4 J&F bei 23 FPS auf YouTube-VOS.