Selbstüberwachtes Video-Objekt-Segmentation durch bewegungsbehaftete Masken-Propagierung

Wir stellen eine selbstüberwachte spatiotemporale Matching-Methode vor, die Motion-Aware Mask Propagation (MAMP) genannt wird, für die Video-Objektsegmentierung. MAMP nutzt die Aufgabe der Frame-Rekonstruktion zur Trainingsphase, wobei keine Annotationen erforderlich sind. Während der Inferenz extrahiert MAMP hochauflösende Merkmale aus jedem Frame, um einen Speicherbank aus diesen Merkmalen sowie den vorhergesagten Masken aus ausgewählten vergangenen Frames aufzubauen. Anschließend propagiert MAMP die Masken aus der Speicherbank auf nachfolgende Frames basierend auf unserem vorgeschlagenen motion-aware spatiotemporalen Matching-Modul, um schnelle Bewegungen und Szenarien mit langfristiger Übereinstimmung effektiv zu bewältigen. Evaluierungen auf den Datensätzen DAVIS-2017 und YouTube-VOS zeigen, dass MAMP eine state-of-the-art-Leistung erzielt und gegenüber bestehenden selbstüberwachten Methoden eine stärkere Verallgemeinerungsfähigkeit aufweist: auf DAVIS-2017 erreicht MAMP eine um 4,2 % höhere durchschnittliche J&F-Metrik, auf den nicht gesehenen Kategorien von YouTube-VOS sogar eine um 4,85 % höhere durchschnittliche J&F-Metrik im Vergleich zum nächsten Konkurrenten. Darüber hinaus erzielt MAMP Leistungen, die mit vielen überwachten Methoden der Video-Objektsegmentierung vergleichbar sind. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/bo-miao/MAMP.