Mehrkontext-basiertes zeitkonsistentes Modellierung für die Segmentierung referenzierter Videoobjekte

Die referenzbasierte VideoobjektsSegmentierung (Referring Video Object Segmentation) zielt darauf ab, Objekte innerhalb eines Videos gemäß einer gegebenen Textbeschreibung zu segmentieren. Bestehende transformerbasierte Ansätze zur zeitlichen Modellierung stoßen auf Herausforderungen im Zusammenhang mit Abfrageinkonsistenzen und der begrenzten Berücksichtigung des Kontextes. Abfrageinkonsistenzen führen zu instabilen Masken verschiedener Objekte in der Mitte des Videos. Die begrenzte Berücksichtigung des Kontextes resultiert in der Segmentierung falscher Objekte, da die Beziehung zwischen dem gegebenen Text und den Instanzen nicht ausreichend berücksichtigt wird. Um diese Probleme zu lösen, schlagen wir das Modul für mehrfachkontextuelle zeitliche Konsistenz (Multi-Context Temporal Consistency Module, MTCM) vor, das aus einem Ausrichter (Aligner) und einem Mehrfachkontextverstärker (Multi-Context Enhancer, MCE) besteht. Der Ausrichter entfernt Rauschen von Abfragen und ordnet sie an, um Abfragekonsistenz zu erreichen. Der MCE prognostiziert textrelevante Abfragen durch die Berücksichtigung von mehrfachem Kontext. Wir haben MTCM auf vier verschiedene Modelle angewendet und konnten die Leistung bei allen verbessern, insbesondere erreichten wir einen J&F-Wert von 47,6 auf dem MeViS-Datensatz. Der Quellcode ist unter https://github.com/Choi58/MTCM verfügbar.