HyperAIHyperAI
vor 2 Monaten

Zeitlich Konsistente Referenzbasierte Videoobjektsegmentierung mit Hybrider Speicherung

Bo Miao; Mohammed Bennamoun; Yongsheng Gao; Mubarak Shah; Ajmal Mian
Zeitlich Konsistente Referenzbasierte Videoobjektsegmentierung mit Hybrider Speicherung
Abstract

Methoden zur referenzbasierten Videoobjektsegmentierung (R-VOS) stehen vor der Herausforderung, eine konsistente Objektsegmentierung aufrechtzuerhalten, aufgrund der Variabilität des zeitlichen Kontexts und der Anwesenheit anderer visuell ähnlicher Objekte. Wir schlagen ein end-to-end R-VOS-Paradigma vor, das die zeitliche Instanzkonsistenz explizit neben der referenzbasierten Segmentierung modelliert. Insbesondere führen wir ein neues hybrides Gedächtnis ein, das die Zusammenarbeit zwischen Frames fördert und so eine robuste räumlich-zeitliche Zuordnung und -ausbreitung ermöglicht. Merkmale von Frames mit automatisch generierten hochwertigen Referenzmasken werden basierend auf einer mehrstufigen Assoziation propagiert, um eine zeitlich konsistente R-VOS zu erreichen. Darüber hinaus schlagen wir eine neue Metrik namens Maskenkonsistenzzahl (MCS) vor, um die zeitliche Konsistenz der Videosegmentierung zu bewerten. Ausführliche Experimente zeigen, dass unser Ansatz die zeitliche Konsistenz erheblich verbessert und zu Spitzenleistungen bei gängigen R-VOS-Benchmarks führt, wie z.B. Ref-YouTube-VOS (67,1 %) und Ref-DAVIS17 (65,6 %). Der Quellcode ist unter https://github.com/bo-miao/HTR verfügbar.

Zeitlich Konsistente Referenzbasierte Videoobjektsegmentierung mit Hybrider Speicherung | Neueste Forschungsarbeiten | HyperAI