Un ConvNet à connexion denses multi-exemplaires pour la classification des scènes aériennes
Contrairement aux scènes naturelles, les scènes aériennes sont souvent composées d’un grand nombre d’objets disposés de manière dense sur la surface, vue du ciel, ce qui exige généralement des caractéristiques plus discriminantes ainsi que des sémantiques locales précises pour une description adéquate. Toutefois, lorsqu’elles sont appliquées à la classification de scènes, la plupart des réseaux de neurones convolutifs (ConvNets) existants ont tendance à modéliser principalement les sémantiques globales des images, entraînant inévitablement une perte des caractéristiques de basse et moyenne résolution, particulièrement lorsque le modèle s’approfondit. Pour relever ces défis, nous proposons dans cet article un réseau convolutif à connexion dense multiple (MIDC-Net) pour la classification des scènes aériennes. Ce modèle traite la classification des scènes aériennes comme un problème d’apprentissage multi-exemplaires, permettant ainsi une investigation plus fine des sémantiques locales. Notre architecture de classification se compose d’un classificateur au niveau des exemplaires, d’un pooling multi-exemplaires, suivi d’une couche de classification au niveau du sac (bag). Dans le classificateur au niveau des exemplaires, nous proposons une structure simplifiée de connexion dense, permettant de préserver efficacement les caractéristiques provenant de différentes couches. Les caractéristiques convolutives extraites sont ensuite transformées en vecteurs de caractéristiques d’exemplaires. Ensuite, nous introduisons un pooling multi-exemplaires basé sur un mécanisme d’attention entraînable, qui met en évidence les sémantiques locales pertinentes par rapport à l’étiquette de scène et produit directement la probabilité au niveau du sac. Enfin, grâce à notre couche de classification au niveau du sac, le cadre d’apprentissage multi-exemplaires est directement supervisé par les étiquettes de sac. Des expériences menées sur trois benchmarks largement utilisés pour les scènes aériennes démontrent que la méthode proposée surpasse largement de nombreuses méthodes de pointe, tout en utilisant significativement moins de paramètres.