HyperAIHyperAI
vor 2 Monaten

DVIS++: Verbessertes dekoppeltes Framework für universelle Videosegmentierung

Tao Zhang; Xingye Tian; Yikang Zhou; Shunping Ji; Xuebo Wang; Xin Tao; Yuan Zhang; Pengfei Wan; Zhongyuan Wang; Yu Wu
DVIS++: Verbessertes dekoppeltes Framework für universelle Videosegmentierung
Abstract

Wir präsentieren den \textbf{D}ekopplten \textbf{VI}deo-\textbf{S}egmentierungsrahmen (DVIS), einen neuen Ansatz für die anspruchsvolle Aufgabe der universellen Video-Segmentierung, einschließlich Video-Instanzsegmentierung (VIS), Video-Semantiksegmentierung (VSS) und Video-Panoptiksegmentierung (VPS). Im Gegensatz zu früheren Methoden, die die Video-Segmentierung in einem End-to-End-Prozess modellieren, teilt unser Ansatz die Video-Segmentierung in drei aufeinanderfolgende Teilprobleme auf: Segmentierung, Verfolgung und Verfeinerung. Diese dekopplte Designstruktur ermöglicht eine einfachere und effektivere Modellierung der räumlich-zeitlichen Darstellungen von Objekten, insbesondere in komplexen Szenen und langen Videos. Demgemäß führen wir zwei neue Komponenten ein: den referenzbasierten Tracker und den zeitlichen Refiner. Diese Komponenten verfolgen Objekte bildweise und modellieren räumlich-zeitliche Darstellungen basierend auf vorab ausgerichteten Merkmalen. Um die Verfolgungsfähigkeit von DVIS zu verbessern, schlagen wir eine Rauschunterdrückungsstrategie im Training vor und integrieren kontrastives Lernen, was zu einem robusteren Rahmenwerk namens DVIS++ führt. Des Weiteren bewerten wir DVIS++ in verschiedenen Szenarien, darunter offene Vokabularien und das Verwenden eines gefrorenen vorgefertigten Backbones. Durch die Integration von CLIP mit DVIS++ präsentieren wir OV-DVIS++, das erste offene-Vokabular-universelle Video-Segmentierungsrahmenwerk. Wir führen umfangreiche Experimente auf sechs Hauptbenchmarks durch, einschließlich den VIS-, VSS- und VPS-Datensätzen. Mit einer einheitlichen Architektur übertrifft DVIS++ erheblich spezialisierte state-of-the-art-Methoden auf diesen Benchmarks sowohl in geschlossenen als auch in offenen Vokabularszenarien. Quellcode:~\url{https://github.com/zhang-tao-whu/DVIS_Plus}.

DVIS++: Verbessertes dekoppeltes Framework für universelle Videosegmentierung | Neueste Forschungsarbeiten | HyperAI