MemorySAM: Modalitäten und Semantik mit dem Segment Anything Model speichern für die multimodale semantische Segmentierung

Die Forschung konzentriert sich auf die multimodale semantische Segmentierung (Multi-Modal Semantic Segmentation, MMSS), bei der pixelgenaue Vorhersagen aus mehreren visuellen Modalitäten gewonnen werden, die von unterschiedlichen Sensoren erfasst wurden. Kürzlich hat das große Vision-Modell Segment Anything Model 2 (SAM2) eine starke Zero-Shot-Segmentierungsfähigkeit sowohl für Bilder als auch für Videos gezeigt. Bei der Erweiterung von SAM2 auf die MMSS ergeben sich zwei zentrale Herausforderungen: 1. Wie kann SAM2 an multimodale Daten angepasst werden? 2. Wie kann SAM2 sein semantisches Verständnis verbessern? Inspiriert durch die zeitliche Korrelation zwischen Bildern in Videos schlagen wir vor, multimodale Daten als eine Folge von Frames zu betrachten, die dasselbe Szenario darstellen. Unser zentrales Konzept besteht darin, modality-agnostische Informationen und semantische Informationen im Zusammenhang mit der Ziel-Szene „zu speichern“ („memorize“). Um dies zu erreichen, wenden wir die Gedächtnismechanismen von SAM2 über multimodale Daten hinweg an, um modality-agnostische Merkmale zu erfassen. Gleichzeitig schlagen wir ein ausschließlich während des Trainings eingesetztes Semantisches Prototyp-Gedächtnis-Modul (Semantic Prototype Memory Module, SPMM) vor, um kategorienbezogene Prototypen während des Trainings zu speichern und die Transition von SAM2 von der Instanz- zur semantischen Segmentierung zu fördern. Eine prototypbasierte Anpassungsverlustfunktion wird iterativ zwischen globalen und lokalen Prototypen angewandt, um das semantische Verständnis von SAM2 zu alignieren und zu verfeinern. Ausführliche experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes MemorySAM sowohl auf synthetischen als auch auf realen Benchmark-Daten erheblich über den Stand der Technik (SoTA) hinausgeht (65,38 % auf DELIVER, 52,88 % auf MCubeS). Der Quellcode wird öffentlich zugänglich gemacht.