HyperAIHyperAI

Command Palette

Search for a command to run...

Zur robusten Segmentierung referierender Videoobjekte mit zyklischem relationalem Konsens

Xiang Li Jinglu Wang Xiaohao Xu Xiao Li Bhiksha Raj Yan Lu

Zusammenfassung

Verweisbezogene Video-Objekt-Segmentierung (R-VOS) ist eine anspruchsvolle Aufgabe, die darauf abzielt, ein Objekt in einem Video basierend auf einer sprachlichen Beschreibung zu segmentieren. Die meisten bestehenden R-VOS-Methoden setzen eine kritische Annahme voraus: Das genannte Objekt muss im Video tatsächlich erscheinen. Diese Annahme, die wir semantische Konsens bezeichnen, wird in realen Szenarien häufig verletzt, wenn die sprachliche Anfrage auf fehlerhafte Videos abgestimmt wird. In dieser Arbeit betonen wir die Notwendigkeit eines robusten R-VOS-Modells, das semantische Diskrepanzen bewältigen kann. Dementsprechend schlagen wir eine erweiterte Aufgabenstellung namens Robust R-VOS vor, die unpaarige Video-Text-Eingaben akzeptiert. Wir lösen dieses Problem durch die gemeinsame Modellierung der primären R-VOS-Aufgabe und ihrer dualen Aufgabe (Text-Rekonstruktion). Ein struktureller Text-zu-Text-Zyklus-Constraint wird eingeführt, um den semantischen Konsens zwischen Video-Text-Paaren zu unterscheiden und ihn bei positiven Paaren zu erzwingen, wodurch eine mehrmodale Ausrichtung sowohl aus positiven als auch aus negativen Paaren erreicht wird. Unser struktureller Constraint adressiert effektiv die Herausforderung der sprachlichen Vielfalt und überwindet die Beschränkungen früherer Methoden, die auf punktweisen Constraints basierten. Zudem wird eine neue Evaluierungsdatenbank, R²-Youtube-VOS, konstruiert, um die Robustheit des Modells zu messen. Unser Modell erreicht state-of-the-art-Leistung auf den R-VOS-Benchmarks Ref-DAVIS17 und Ref-Youtube-VOS sowie auf unserer neuen R²-Youtube-VOS-Datenbank.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zur robusten Segmentierung referierender Videoobjekte mit zyklischem relationalem Konsens | Paper | HyperAI