Apprentissage par transfert adaptatif au domaine sur une augmentation de données consciente de l'attention visuelle pour la catégorisation visuelle fine

La catégorisation visuelle fine (Fine-Grained Visual Categorization, FGVC) constitue un défi majeur en vision par ordinateur. Ce problème se caractérise par de fortes variations intra-classes et des différences subtiles inter-classes. Dans cet article, nous abordons ce défi de manière faiblement supervisée, en alimentant les modèles de réseaux neuronaux avec des données supplémentaires grâce à une technique d’augmentation de données basée sur un mécanisme d’attention visuelle. Nous réalisons un transfert de connaissances adaptatif au domaine par ajustement fin (fine-tuning) sur notre modèle de réseau de base. Nos expérimentations sont menées sur six jeux de données FGVC difficiles et largement utilisés, et nous démontrons une amélioration compétitive en termes de précision en combinant des techniques d’augmentation de données conscientes d’attention avec des caractéristiques extraites à partir du modèle d’apprentissage profond InceptionV3, pré-entraîné sur de grands jeux de données. Notre méthode surpasse les approches concurrentes sur plusieurs jeux de données FGVC et obtient des résultats compétitifs sur d’autres. Des études expérimentales montrent que l’apprentissage par transfert à partir de grands jeux de données peut être efficacement exploité en conjonction avec une augmentation de données fondée sur l’attention visuelle, permettant d’atteindre des résultats de pointe sur plusieurs jeux de données FGVC. Nous présentons une analyse approfondie de nos expérimentations. Notre méthode atteint des performances de pointe sur plusieurs jeux de données de classification fine, notamment les défis CUB200-2011 (oiseaux), Flowers-102 et FGVC-Aircrafts.