SOC: Semantic-Assisted Object Cluster für die Bezugsvideobjektssegmentierung

Diese Arbeit untersucht die Referenz-Videoobjektsegmentierung (RVOS), indem sie die visuell-linguistische Ausrichtung auf Videoebene verstärkt. Moderne Ansätze modellieren die RVOS-Aufgabe als ein Sequenzvorhersageproblem und führen für jeden Frame getrennt multimodale Interaktionen sowie Segmentierung durch. Allerdings führt das Fehlen einer globalen Sicht auf den Videoinhalt zu Schwierigkeiten bei der effektiven Nutzung von Beziehungen zwischen Frames sowie bei der Verständnis von Textbeschreibungen hinsichtlich zeitlicher Veränderungen von Objekten. Um dieses Problem anzugehen, schlagen wir Semantic-assisted Object Cluster (SOC) vor, welches Videoinhalte und sprachliche Anleitungen zur einheitlichen zeitlichen Modellierung und kreuzmodalen Ausrichtung aggregiert. Durch die Assoziation einer Gruppe von framebasierten Objekt-Embeddings mit Sprachtokens ermöglicht SOC eine gemeinsame Lernung im Raum über Modalitäten und Zeitschritte hinweg. Darüber hinaus präsentieren wir eine multimodale kontrastive Supervision, um einen gut ausgerichteten gemeinsamen Raum auf Videoebene zu fördern. Wir führen umfangreiche Experimente auf etablierten RVOS-Benchmarks durch und zeigen, dass unsere Methode gegenüber allen bisherigen Spitzenverfahren signifikant besser abschneidet. Zudem verbessert die Betonung der zeitlichen Kohärenz die Stabilität und Anpassungsfähigkeit unserer Methode bei der Verarbeitung von Textausdrücken mit zeitlichen Variationen. Der Quellcode wird verfügbar gemacht.