Apprentissage d'un réseau de neurones convolutif à multi-attention pour la reconnaissance d'images à granularité fine

La reconnaissance de catégories à granularité fine (par exemple, les espèces d’oiseaux) repose fortement sur la localisation discriminative des parties et l’apprentissage de caractéristiques fine-grained basées sur les parties. Les approches existantes résolvent principalement ces défis de manière indépendante, tout en négligeant le fait que la localisation des parties (par exemple, la tête d’un oiseau) et l’apprentissage des caractéristiques fine-grained (par exemple, la forme de la tête) sont mutuellement corrélées. Dans ce papier, nous proposons une nouvelle approche d’apprentissage des parties basée sur un réseau neuronal convolutif à multi-attention (MA-CNN), dans laquelle la génération des parties et l’apprentissage des caractéristiques s’auto-renforcent mutuellement. MA-CNN est composé de trois sous-réseaux : convolution, regroupement de canaux et classification des parties. Le sous-réseau de regroupement de canaux prend en entrée les canaux de caractéristiques provenant des couches convolutives, et génère plusieurs parties en effectuant un regroupement, un pondération et un pooling sur des canaux spatialement corrélés. Le sous-réseau de classification des parties effectue ensuite une classification de l’image à partir de chaque partie individuelle, permettant ainsi d’apprendre des caractéristiques fine-grained plus discriminatives. Deux pertes sont proposées pour guider l’apprentissage multi-tâches du regroupement de canaux et de la classification des parties, ce qui encourage MA-CNN à générer des parties plus discriminatives à partir des canaux de caractéristiques, tout en apprenant des caractéristiques fine-grained améliorées à partir de ces parties de manière réciproque. Contrairement à de nombreuses méthodes existantes, MA-CNN ne nécessite pas d’annotations de boîtes englobantes ou de parties, et peut être entraîné de manière end-to-end. Nous intégrons les parties apprises par MA-CNN avec un réseau part-CNN pour la reconnaissance, et démontrons des performances optimales sur trois jeux de données challengers publiés en reconnaissance fine-grained, notamment CUB-Birds, FGVC-Aircraft et Stanford-Cars.