HyperAIHyperAI
vor 2 Monaten

Sigma: Siamese Mamba Netzwerk für multimodale semantische Segmentierung

Zifu Wan; Pingping Zhang; Yuhao Wang; Silong Yong; Simon Stepputtis; Katia Sycara; Yaqi Xie
Sigma: Siamese Mamba Netzwerk für multimodale semantische Segmentierung
Abstract

Die multimodale semantische Segmentierung verbessert die Wahrnehmung und Szeneinterpretation von KI-Agenten erheblich, insbesondere unter schwierigen Bedingungen wie bei schlechter Beleuchtung oder überbelichteten Umgebungen. Durch die Nutzung zusätzlicher Modalitäten (X-Modality) wie thermischer und tiefeninformationen neben den traditionellen RGB-Bildern wird ergänzende Information bereitgestellt, was zu robusteren und zuverlässigeren Vorhersagen führt. In dieser Arbeit stellen wir Sigma vor, ein Siameses Mamba-Netzwerk für multimodale semantische Segmentierung, das auf dem fortschrittlichen Mamba basiert. Im Gegensatz zu herkömmlichen Methoden, die auf CNNs mit ihren begrenzten lokalen Rezeptivfeldern oder Vision Transformers (ViTs) mit globalen Rezeptivfeldern, aber quadratischer Komplexität, angewiesen sind, erreicht unser Modell globale Rezeptivfelder mit linearer Komplexität. Durch den Einsatz eines siamesischen Encoders und die Innovation eines Mamba-basierten Fusionmechanismus wählen wir effektiv wesentliche Informationen aus verschiedenen Modalitäten aus. Anschließend wurde ein Decoder entwickelt, um die kanalweise Modellierungsfähigkeit des Modells zu verbessern. Unsere vorgeschlagene Methode wurde sorgfältig anhand von RGB-Thermalszenarien und RGB-Tiefenszenarien evaluiert und hat ihre Überlegenheit gezeigt. Sie markiert auch die erste erfolgreiche Anwendung von Zustandsraummodellen (SSMs) in multimodalen Wahrnehmungsaufgaben. Der Quellcode ist unter https://github.com/zifuwan/Sigma verfügbar.

Sigma: Siamese Mamba Netzwerk für multimodale semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI