Sigma : Réseau Siamese Mamba pour la Segmentation Sémantique Multi-Modale

La segmentation sémantique multi-modale améliore considérablement la perception et la compréhension des scènes par les agents d'IA, en particulier dans des conditions défavorables telles que l'éclairage faible ou le sur-exposition. L'utilisation de modalités supplémentaires (X-modalité) comme thermique et profondeur, en complément du RGB traditionnel, fournit des informations complémentaires, permettant des prédictions plus robustes et fiables. Dans ce travail, nous présentons Sigma, un réseau Siamese Mamba pour la segmentation sémantique multi-modale utilisant le Mamba avancé. Contrairement aux méthodes conventionnelles qui reposent sur les CNNs, avec leurs champs récepteurs locaux limités, ou les Vision Transformers (ViTs), qui offrent des champs récepteurs globaux au prix d'une complexité quadratique, notre modèle atteint des champs récepteurs globaux avec une complexité linéaire. En utilisant un encodeur Siamese et en innovant un mécanisme de fusion basé sur le Mamba, nous sélectionnons efficacement les informations essentielles provenant de différentes modalités. Un décodeur est ensuite développé pour améliorer la capacité de modélisation canal-par-canal du modèle. Notre méthode proposée est évaluée rigoureusement sur des tâches de segmentation sémantique RGB-Thermique et RGB-Profondeur, démontrant sa supériorité et marquant la première application réussie des Modèles d'États Spatiaux (SSMs) dans les tâches de perception multi-modale. Le code est disponible à l'adresse suivante : https://github.com/zifuwan/Sigma.