HyperAIHyperAI

Command Palette

Search for a command to run...

MemorySAM: Modalitäten und Semantik mit dem Segment Anything Model speichern für die multimodale semantische Segmentierung

Zusammenfassung

Die Forschung konzentriert sich auf die multimodale semantische Segmentierung (Multi-Modal Semantic Segmentation, MMSS), bei der pixelgenaue Vorhersagen aus mehreren visuellen Modalitäten gewonnen werden, die von unterschiedlichen Sensoren erfasst wurden. Kürzlich hat das große Vision-Modell Segment Anything Model 2 (SAM2) eine starke Zero-Shot-Segmentierungsfähigkeit sowohl für Bilder als auch für Videos gezeigt. Bei der Erweiterung von SAM2 auf die MMSS ergeben sich zwei zentrale Herausforderungen: 1. Wie kann SAM2 an multimodale Daten angepasst werden? 2. Wie kann SAM2 sein semantisches Verständnis verbessern? Inspiriert durch die zeitliche Korrelation zwischen Bildern in Videos schlagen wir vor, multimodale Daten als eine Folge von Frames zu betrachten, die dasselbe Szenario darstellen. Unser zentrales Konzept besteht darin, modality-agnostische Informationen und semantische Informationen im Zusammenhang mit der Ziel-Szene „zu speichern“ („memorize“). Um dies zu erreichen, wenden wir die Gedächtnismechanismen von SAM2 über multimodale Daten hinweg an, um modality-agnostische Merkmale zu erfassen. Gleichzeitig schlagen wir ein ausschließlich während des Trainings eingesetztes Semantisches Prototyp-Gedächtnis-Modul (Semantic Prototype Memory Module, SPMM) vor, um kategorienbezogene Prototypen während des Trainings zu speichern und die Transition von SAM2 von der Instanz- zur semantischen Segmentierung zu fördern. Eine prototypbasierte Anpassungsverlustfunktion wird iterativ zwischen globalen und lokalen Prototypen angewandt, um das semantische Verständnis von SAM2 zu alignieren und zu verfeinern. Ausführliche experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes MemorySAM sowohl auf synthetischen als auch auf realen Benchmark-Daten erheblich über den Stand der Technik (SoTA) hinausgeht (65,38 % auf DELIVER, 52,88 % auf MCubeS). Der Quellcode wird öffentlich zugänglich gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp