Un Nouveau Schéma de Segmentations Sémantiques Basé sur Transformer pour des Images Résolues Finement de Télédétection

Le réseau entièrement convolutif (FCN) adoptant une architecture encodeur-décodeur constitue le paradigme standard pour la segmentation sémantique. L'architecture encodeur-décodeur utilise un encodeur pour capturer des cartes de caractéristiques à plusieurs niveaux, lesquelles sont intégrées dans la prédiction finale par un décodeur. Étant donné que le contexte est essentiel pour une segmentation précise, d'importants efforts ont été déployés afin d'extraire ces informations de manière intelligente, notamment en recourant aux convolutions dilatées (atrous) ou en intégrant des modules d'attention. Toutefois, ces approches reposent toutes sur l'architecture FCN utilisant comme base un réseau ResNet ou d'autres architectures de type backbone, lesquelles ne parviennent pas à exploiter pleinement le contexte au sens théorique. À l'inverse, nous introduisons le Swin Transformer comme architecture de base afin d'extraire efficacement les informations contextuelles, et concevons un nouveau décodeur basé sur un module d'agrégation de caractéristiques fortement connectées (DCFAM) pour restaurer la résolution et générer la carte de segmentation. Les résultats expérimentaux obtenus sur deux jeux de données de segmentation sémantique à partir d’images satellitaires démontrent l’efficacité du schéma proposé. Le code est disponible à l’adresse suivante : https://github.com/WangLibo1995/GeoSeg