MPG-SAM 2: Anpassung von SAM 2 mit Maske-Priors und globalen Kontext für die referenzbasierte Video-Objekt-Segmentierung

Die referenzbasierte Video-Objekt-Segmentierung (RVOS) zielt darauf ab, Objekte in einem Video gemäß textuellen Beschreibungen zu segmentieren, was die Integration multimodaler Informationen und die Wahrnehmung zeitlicher Dynamiken erfordert. Das Segment Anything Model 2 (SAM 2) hat seine große Effektivität bei verschiedenen Video-Segmentierungsaufgaben bewiesen. Allerdings wird dessen Anwendung auf offline-RVOS durch die Übersetzung des Textes in effektive Prompts und einen Mangel an globaler Kontextbewusstsein herausgefordert. In dieser Arbeit schlagen wir ein neues RVOS-Framework vor, das als MPG-SAM 2 bezeichnet wird, um diese Herausforderungen zu bewältigen. Insbesondere verwendet MPG-SAM 2 einen vereinheitlichten multimodalen Encoder, um Video- und textuelle Merkmale gemeinsam zu kodieren und semantisch ausgerichtete Video- und Texteinbettungen sowie multimodale Klassentoken zu generieren. Ein Masken-Vorhersage-Generator nutzt die Videoeinbettungen und Klassentoken, um Pseudo-Masken der Zielobjekte und des globalen Kontexts zu erstellen. Diese Masken werden zusammen mit den multimodalenen Klassentoken als dichte Prompts in den Prompt-Encoder eingespeist, während die multimodalenen Klassentoken als seltene Prompts dienen, um genaue Prompts für SAM 2 zu generieren. Um SAM 2 eine globale Sicht zu bieten, führen wir einen hierarchischen Aggregator für globale historische Informationen ein, der es SAM 2 ermöglicht, globale und historische Informationen der Zielobjekte sowohl auf Pixel- als auch auf Objektniveau zu aggregieren. Dies verbessert die Zielrepräsentation und die zeitliche Konsistenz. Ausführliche Experimente auf mehreren RVOS-Benchmarks zeigen die Überlegenheit von MPG-SAM 2 sowie die Effektivität unserer vorgeschlagenen Module.