RS-Mamba pour la prédiction dense d'images de télédétection de grande taille

La modélisation du contexte est cruciale pour les tâches de prédiction dense des images de télédétection. De nos jours, l'augmentation de la taille des images de télédétection à très haute résolution (VHR) pose des défis dans la modélisation efficace du contexte. Bien que les modèles basés sur les transformers possèdent des capacités de modélisation globale, ils rencontrent des défis computationnels lorsqu'ils sont appliqués à de grandes images VHR en raison de leur complexité quadratique. La pratique conventionnelle consistant à découper de grandes images en plus petits patchs entraîne une perte notable d'informations contextuelles. Pour répondre à ces problèmes, nous proposons le modèle Remote Sensing Mamba (RSM) pour les tâches de prédiction dense dans les grandes images VHR de télédétection. Le RSM est spécifiquement conçu pour capturer le contexte global des images de télédétection avec une complexité linéaire, facilitant ainsi le traitement efficace des grandes images VHR. Étant donné que les couvertures terrestres dans les images de télédétection sont réparties dans des directions spatiales arbitraires en raison des caractéristiques d'imagerie aérienne, le RSM intègre un module d'analyse sélective omnidirectionnel pour modéliser globalement le contexte des images dans plusieurs directions, capturant ainsi des caractéristiques spatiales importantes provenant de diverses orientations. Des expérimentations étendues sur les tâches de segmentation sémantique et de détection de changements sur divers types de couvertures terrestres ont démontré l'efficacité du RSM proposé. Nous avons conçu des modèles simples mais efficaces basés sur le RSM, atteignant des performances d'état de l'art sur les tâches de prédiction dense dans les images VHR sans recourir à des stratégies d'entraînement complexes. En exploitant sa complexité linéaire et ses capacités de modélisation globale, le RSM offre une meilleure efficacité et précision que les modèles basés sur les transformers pour les grandes images de télédétection. De manière intéressante, nous avons également montré que notre modèle performe généralement mieux avec une taille d'image plus grande dans les tâches de prédiction dense. Notre code est disponible à l'adresse suivante : https://github.com/walking-shadow/Official_Remote_Sensing_Mamba.