ReferDINO: Referring Video Object Segmentation mit visuellen Grundlagen

Die referenzielle Video-Objekt-Segmentation (RVOS) zielt darauf ab, Zielobjekte in einem Video basierend auf einer Textbeschreibung zu segmentieren. Trotz bemerkenswerter Fortschritte in den letzten Jahren haben aktuelle RVOS-Modelle weiterhin Schwierigkeiten, komplexe Objektbeschreibungen zu verarbeiten, aufgrund ihrer begrenzten Video-Sprach-Verständnis. Um diese Einschränkung zu beheben, präsentieren wir \textbf{ReferDINO}, ein end-to-end RVOS-Modell, das starke visuelle und sprachliche Verarbeitungsfähigkeiten von vorab trainierten visuellen Grundierungsmodellen erbt und zusätzlich effektive zeitliche Verständnisfähigkeiten und Objektsegmentierungskompetenzen besitzt. In ReferDINO führen wir drei technische Innovationen ein, um die Grundierungsmodelle effektiv für RVOS anzupassen: 1) einen objektkonsistenten zeitlichen Verstärker, der die vorab trainierten Objekt-Text-Darstellungen nutzt, um das zeitliche Verständnis und die Objektkonsistenz zu verbessern; 2) einen grundierungsgesteuerten deformablen Maskendekoder, der Text- und Grundierungsbedingungen integriert, um genaue Objektmasken zu generieren; 3) eine konfidenzbasierte Abfrageverfeinerungsstrategie, die die Effizienz der Objektdekodierung erheblich steigert, ohne dabei die Leistung zu beeinträchtigen. Wir führen umfangreiche Experimente auf fünf öffentlichen RVOS-Benchmarks durch, um zu zeigen, dass unser vorgeschlagenes ReferDINO signifikant besser als state-of-the-art Methoden abschneidet. Projektseite: \url{https://isee-laboratory.github.io/ReferDINO}