Zur robusten Segmentierung referierender Videoobjekte mit zyklischem relationalem Konsens

Verweisbezogene Video-Objekt-Segmentierung (R-VOS) ist eine anspruchsvolle Aufgabe, die darauf abzielt, ein Objekt in einem Video basierend auf einer sprachlichen Beschreibung zu segmentieren. Die meisten bestehenden R-VOS-Methoden setzen eine kritische Annahme voraus: Das genannte Objekt muss im Video tatsächlich erscheinen. Diese Annahme, die wir semantische Konsens bezeichnen, wird in realen Szenarien häufig verletzt, wenn die sprachliche Anfrage auf fehlerhafte Videos abgestimmt wird. In dieser Arbeit betonen wir die Notwendigkeit eines robusten R-VOS-Modells, das semantische Diskrepanzen bewältigen kann. Dementsprechend schlagen wir eine erweiterte Aufgabenstellung namens Robust R-VOS vor, die unpaarige Video-Text-Eingaben akzeptiert. Wir lösen dieses Problem durch die gemeinsame Modellierung der primären R-VOS-Aufgabe und ihrer dualen Aufgabe (Text-Rekonstruktion). Ein struktureller Text-zu-Text-Zyklus-Constraint wird eingeführt, um den semantischen Konsens zwischen Video-Text-Paaren zu unterscheiden und ihn bei positiven Paaren zu erzwingen, wodurch eine mehrmodale Ausrichtung sowohl aus positiven als auch aus negativen Paaren erreicht wird. Unser struktureller Constraint adressiert effektiv die Herausforderung der sprachlichen Vielfalt und überwindet die Beschränkungen früherer Methoden, die auf punktweisen Constraints basierten. Zudem wird eine neue Evaluierungsdatenbank, R²-Youtube-VOS, konstruiert, um die Robustheit des Modells zu messen. Unser Modell erreicht state-of-the-art-Leistung auf den R-VOS-Benchmarks Ref-DAVIS17 und Ref-Youtube-VOS sowie auf unserer neuen R²-Youtube-VOS-Datenbank.