HyperAIHyperAI
il y a 17 jours

Réseau de multi-attention pour la segmentation sémantique d’images satellites à haute résolution

{Peter M. Atkinson, Libo Wang, Jianlin Su, Chenxi Duan, Ce Zhang, Shunyi Zheng, Rui Li}
Résumé

La segmentation sémantique des images satellitaires joue un rôle crucial dans de nombreuses applications, notamment la gestion des ressources foncières, la surveillance de la biosphère et l’aménagement urbain. Bien que l’exactitude de la segmentation sémantique dans les images satellitaires ait considérablement progressé grâce aux réseaux neuronaux profonds à convolution, plusieurs limites persistent dans les modèles standards. Premièrement, pour les architectures encodeur-décodeur telles que U-Net, l’utilisation des caractéristiques multi-échelles entraîne une sous-utilisation de l’information, car les caractéristiques de bas niveau et celles de haut niveau sont simplement concaténées sans traitement préalable. Deuxièmement, les dépendances à longue portée des cartes de caractéristiques ne sont pas suffisamment exploitées, conduisant à des représentations de caractéristiques sous-optimales associées à chaque classe sémantique. Troisièmement, bien que le mécanisme d’attention par produit scalaire ait été introduit et utilisé dans la segmentation sémantique afin de modéliser les dépendances à longue portée, les exigences importantes en temps et en espace imposées par l’attention limitent son utilisation concrète dans des scénarios d’application traitant des entrées à grande échelle. Cet article propose un réseau multi-attention (MANet) pour résoudre ces problèmes en extrayant les dépendances contextuelles grâce à plusieurs modules d’attention efficaces. Un nouveau mécanisme d’attention, nommé kernel attention à complexité linéaire, est introduit afin de réduire la charge computationnelle élevée associée à l’attention. En s’appuyant sur le kernel attention et l’attention sur les canaux, nous intégrons les cartes de caractéristiques locales extraites par ResNet-50 avec leurs dépendances globales correspondantes, et réajustons de manière adaptative les cartes de canaux interdépendantes. Des expériences numériques menées sur deux grands jeux de données d’images satellitaires à haute résolution démontrent la supériorité du MANet proposé. Le code est disponible à l’adresse suivante : https://github.com/lironui/Multi-Attention-Network.