HyperAIHyperAI

Command Palette

Search for a command to run...

GAMUS : Un benchmark de segmentation sémantique multi-modale consciente de la géométrie pour les données de télédétection

Zhitong Xiong Sining Chen Yi Wang Lichao Mou Xiao Xiang Zhu

Résumé

Les informations géométriques présentes dans les modèles numériques de surface normalisés (nDSM) sont fortement corrélées avec la classe sémantique de la couverture du sol. L’exploitation conjointe de deux modalités — RGB et nDSM (hauteur) — présente un potentiel considérable pour améliorer les performances de segmentation. Toutefois, ce domaine reste encore peu exploré en télédétection en raison de plusieurs défis. Premièrement, les tailles des jeux de données existants sont relativement modestes et leur diversité est limitée, ce qui restreint la capacité de validation. Deuxièmement, l’absence de benchmarks unifiés pour l’évaluation des performances rend difficile la comparaison de l’efficacité des différentes approches. Troisièmement, les méthodes sophistiquées de segmentation sémantique multimodale n’ont pas encore été profondément explorées dans le contexte des données de télédétection. Pour relever ces défis, nous proposons dans cet article un nouveau jeu de données de référence (benchmark) pour la segmentation sémantique multimodale basé sur des données RGB-Hauteur (RGB-H). Afin d’assurer une analyse équitable et complète des méthodes existantes, ce benchmark comprend : 1) un jeu de données à grande échelle comprenant des paires d’images RGB et nDSM co-enregistrées, ainsi que des étiquettes sémantiques au niveau pixel ; 2) une évaluation et une analyse approfondies des stratégies existantes de fusion multimodale, tant pour les réseaux convolutifs que pour les réseaux basés sur les Transformers, appliquées aux données de télédétection. Par ailleurs, nous introduisons un nouveau module de fusion multimodale intermédiaire basé sur les Transformers (TIMF), conçu pour améliorer les performances de segmentation sémantique grâce à une fusion adaptative au niveau des tokens. Le benchmark ainsi conçu vise à stimuler les recherches futures sur le développement de nouvelles méthodes d’apprentissage multimodal pour les données de télédétection. Des analyses étendues de ces méthodes sont menées, et des résultats expérimentaux fournissent des insights précieux. Le code associé au benchmark et aux modèles de base est disponible à l’adresse suivante : \url{https://github.com/EarthNets/RSI-MMSegmentation}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp