vor 2 Monaten

RefineVIS: Video-Instanzsegmentierung mit zeitlicher Aufmerksamkeitsverfeinerung

Andre Abrantes; Jiang Wang; Peng Chu; Quanzeng You; Zicheng Liu

Abstract

Wir stellen ein neues Framework namens RefineVIS für die Video-Instanz-Segmentierung (VIS) vor, das durch iterative Verfeinerung der Repräsentationen unter Verwendung des Sequenzkontexts eine gute Objektzuordnung zwischen Frames und genaue Segmentierungs-Masken erreicht. RefineVIS lernt zwei getrennte Repräsentationen auf Basis eines standardisierten framebasierten Bild-Instanz-Segmentierungsmodells: eine Zuordnungsrepräsentation, die für die Zuordnung von Objekten über Frames hinweg zuständig ist, und eine Segmentierungsrepräsentation, die genaue Segmentierungs-Masken erzeugt. Kontrastives Lernen wird verwendet, um zeitlich stabile Zuordnungsrepräsentationen zu erlernen. Ein Modul zur zeitlichen Aufmerksamkeitsverfeinerung (Temporal Attention Refinement, TAR) lernt diskriminative Segmentierungsrepräsentationen durch Ausnutzen zeitlicher Beziehungen und einer neuen technischen Kontrastreduzierungstechnik zur Entstörung. Unsere Methode unterstützt sowohl Online- als auch Offline-Inferenz. Sie erreicht den aktuellen Stand der Technik in Bezug auf die Genauigkeit der Video-Instanz-Segmentierung auf den Datensätzen YouTube-VIS 2019 (64,4 AP), YouTube-VIS 2021 (61,4 AP) und OVIS (46,1 AP). Die Visualisierung zeigt, dass das TAR-Modul insbesondere bei anspruchsvollen Fällen wie stark verdeckten Objekten genauere Instanzsegmentierungs-Masken generieren kann.