LoSh: Long-Short Text Joint Prediction Network für die Referierende Videoobjektsegmentierung

Referenzbasierte Video-Objektsegmentierung (Referring Video Object Segmentation, RVOS) zielt darauf ab, das im Video durch eine gegebene Textexpression referierte Objektinstanz zu segmentieren. Die Textexpression enthält normalerweise eine komplexe Beschreibung der Erscheinung, der Handlung sowie der Beziehung des Objekts zu anderen Objekten. Es ist daher äußerst schwierig für ein RVOS-Modell, alle diese Attribute im Video korrekt zu erfassen; tatsächlich neigt das Modell oft stärker zu visuellen Merkmalen, die mit Aktionen und Beziehungen zusammenhängen. Dies kann zu unvollständigen oder sogar falschen Maskenvorhersagen der Zielinstanz führen. Um dieses Problem anzugehen, extrahieren wir aus der ursprünglichen langen Textexpression eine themenorientierte, kurze Textexpression. Diese kurze Form behält ausschließlich die auf Erscheinung bezogenen Informationen der Zielinstanz bei, sodass wir sie nutzen können, um die Aufmerksamkeit des Modells gezielt auf die visuelle Erscheinung der Instanz zu lenken. Wir lassen das Modell gemeinsame Vorhersagen basierend auf sowohl der langen als auch der kurzen Textexpression treffen und integrieren ein Long-Short-Cross-Attention-Modul zur Interaktion der gemeinsamen Merkmale sowie eine Long-Short-Prediction-Schnittmenge-Verlustfunktion zur Regulierung der gemeinsamen Vorhersagen. Neben der Verbesserung der sprachlichen Komponente führen wir außerdem eine Vorwärts-Rückwärts-Visuelle-Konsistenzverlustfunktion ein, die optische Flüsse nutzt, um visuelle Merkmale zwischen annotierten Bildern und ihren zeitlichen Nachbarn zu transformieren, um Konsistenz zu gewährleisten. Unsere Methode baut auf zwei state-of-the-art-Pipelines auf. Umfassende Experimente an den Datensätzen A2D-Sentences, Refer-YouTube-VOS, JHMDB-Sentences und Refer-DAVIS17 zeigen beeindruckende Verbesserungen durch unsere Methode. Der Quellcode ist unter https://github.com/LinfengYuan1997/Losh verfügbar.