Vers une classification d’images à granularité fine à l’aide de réseaux antagonistes génératifs et de détection de points faciaux

La classification fine-grained demeure une tâche difficile, car elle nécessite d’apprendre des différences complexes et locales entre les catégories. La diversité des poses, des échelles et des positions des objets au sein d’une image rend ce problème encore plus complexe. Bien que les modèles récents basés sur les Transformers visuels (Vision Transformer, ViT) atteignent des performances élevées, ils requièrent une quantité importante de données d’entrée. Pour surmonter ce défi, nous avons exploité au maximum une augmentation de données basée sur les réseaux antagonistes génératifs (GAN) afin de générer des instances supplémentaires pour le jeu de données. Nous avons choisi le jeu de données Oxford-IIIT Pets pour cette étude. Il comprend 37 races de chats et de chiens, avec des variations significatives en termes d’échelle, de pose et d’éclairage, ce qui accentue la difficulté de la tâche de classification fine. Par ailleurs, nous avons amélioré les performances du modèle récent de réseau antagoniste génératif, StyleGAN2-ADA, afin de produire des images plus réalistes tout en évitant le surajustement au jeu d’apprentissage. Pour ce faire, nous avons entraîné une version personnalisée de MobileNetV2 afin de prédire les points de repère faciaux des animaux ; nous avons ensuite recadré les images en conséquence. Enfin, nous avons combiné les images synthétiques avec le jeu de données original et comparé notre méthode proposée avec les augmentations classiques par GAN et l’absence d’augmentation, en utilisant différentes sous-parties du jeu d’apprentissage. Notre approche a été validée par l’évaluation de la précision de la classification fine d’images sur un modèle récent de Vision Transformer (ViT).