Pooling attentionnel contextuel (CAP) pour la classification visuelle fine-grained

Les réseaux de neurones convolutifs profonds (CNN) ont démontré une forte capacité à extraire des informations discriminantes sur la pose et les parties des objets pour la reconnaissance d’images. Dans le cadre de la reconnaissance fine-grainée, une représentation riche et consciente du contexte des caractéristiques de l’objet ou de la scène joue un rôle fondamental, car elle met en évidence une variance significative au sein d’une même sous-catégorie, ainsi qu’une variation subtile entre différentes sous-catégories. Identifier ces variations subtiles qui caractérisent pleinement l’objet ou la scène n’est pas trivial. Pour y remédier, nous proposons une nouvelle méthode d’agrégation attentive consciente du contexte (CAP), capable d’extraire efficacement des changements subtils grâce à des gradients sous-pixel, tout en apprenant à focaliser sur des régions intégratives informatives et à évaluer leur importance dans la discrimination entre sous-catégories, sans nécessiter d’étiquettes de boîtes englobantes et/ou d’annotations de parties distinctes. Nous introduisons également une nouvelle encodage de caractéristiques en tenant compte de la cohérence intrinsèque entre l’information contenue dans les régions intégratives et leur structure spatiale, afin de capturer les corrélations sémantiques entre elles. Notre approche est simple mais extrêmement efficace, et peut être facilement intégrée au-dessus d’un réseau de classification standard. Nous évaluons notre méthode sur six architectures de base (SotA) et huit jeux de données de référence. Notre méthode surpasse significativement les approches SotA sur six jeux de données, et se montre très compétitive sur les deux restants.