il y a 17 jours

GAMUS : Un benchmark de segmentation sémantique multi-modale consciente de la géométrie pour les données de télédétection

Zhitong Xiong, Sining Chen, Yi Wang, Lichao Mou, Xiao Xiang Zhu

Résumé

Les informations géométriques présentes dans les modèles numériques de surface normalisés (nDSM) sont fortement corrélées avec la classe sémantique de la couverture du sol. L’exploitation conjointe de deux modalités — RGB et nDSM (hauteur) — présente un potentiel considérable pour améliorer les performances de segmentation. Toutefois, ce domaine reste encore peu exploré en télédétection en raison de plusieurs défis. Premièrement, les tailles des jeux de données existants sont relativement modestes et leur diversité est limitée, ce qui restreint la capacité de validation. Deuxièmement, l’absence de benchmarks unifiés pour l’évaluation des performances rend difficile la comparaison de l’efficacité des différentes approches. Troisièmement, les méthodes sophistiquées de segmentation sémantique multimodale n’ont pas encore été profondément explorées dans le contexte des données de télédétection. Pour relever ces défis, nous proposons dans cet article un nouveau jeu de données de référence (benchmark) pour la segmentation sémantique multimodale basé sur des données RGB-Hauteur (RGB-H). Afin d’assurer une analyse équitable et complète des méthodes existantes, ce benchmark comprend : 1) un jeu de données à grande échelle comprenant des paires d’images RGB et nDSM co-enregistrées, ainsi que des étiquettes sémantiques au niveau pixel ; 2) une évaluation et une analyse approfondies des stratégies existantes de fusion multimodale, tant pour les réseaux convolutifs que pour les réseaux basés sur les Transformers, appliquées aux données de télédétection. Par ailleurs, nous introduisons un nouveau module de fusion multimodale intermédiaire basé sur les Transformers (TIMF), conçu pour améliorer les performances de segmentation sémantique grâce à une fusion adaptative au niveau des tokens. Le benchmark ainsi conçu vise à stimuler les recherches futures sur le développement de nouvelles méthodes d’apprentissage multimodal pour les données de télédétection. Des analyses étendues de ces méthodes sont menées, et des résultats expérimentaux fournissent des insights précieux. Le code associé au benchmark et aux modèles de base est disponible à l’adresse suivante : \url{https://github.com/EarthNets/RSI-MMSegmentation}.