Réseau convolutif à renforcement sémantique local pour la reconnaissance de scènes aériennes
La reconnaissance de scènes aériennes est un défi en raison de la distribution complexe des objets et de l’agencement spatial dans les images aériennes à grande échelle. Les études récentes tentent d’explorer la capacité des modèles d’apprentissage profond à représenter sémantiquement les régions locales, mais la manière dont ces régions clés peuvent être précisément perçues reste un problème ouvert. Dans cet article, nous proposons un réseau convolutif amélioré par la sémantique locale (LSE-Net) pour la reconnaissance de scènes aériennes, inspiré de la perception visuelle humaine des régions locales essentielles dans les scènes aériennes, dans l’objectif de construire une représentation sémantique locale discriminante. Notre LSE-Net se compose d’un extracteur de caractéristiques convolutives enrichi du contexte, d’un module de perception sémantique locale à deux branches et d’une couche de classification. Premièrement, nous concevons des opérateurs de convolution dilatée à plusieurs échelles afin de fusionner de manière apprenable les caractéristiques convolutives à plusieurs niveaux et échelles, permettant ainsi de capter pleinement les réponses locales dans une scène aérienne. Ensuite, ces caractéristiques sont introduites dans notre module à deux branches de perception sémantique locale. Dans ce module, nous proposons une mesure de réponse de pic de classe sensible au contexte (CACPR) pour décrire avec précision l’impulsion visuelle des régions locales clés ainsi que les informations contextuelles associées. Par ailleurs, une matrice de poids d’attention spatiale est extraite afin de quantifier l’importance de chaque région locale clé pour la scène aérienne. Enfin, les cartes de confiance de classe raffinées sont envoyées à la couche de classification. Des expériences exhaustives sur trois benchmarks de classification de scènes aériennes montrent que notre LSE-Net atteint des performances de pointe, validant ainsi l’efficacité de notre module de perception sémantique locale et de la mesure CACPR.