Amélioration des schémas d'augmentation et d'évaluation pour la synthèse d'images sémantiques

Bien que la mise en œuvre de données (data augmentation) soit une technique courante visant à améliorer les performances des réseaux neuronaux profonds, très peu d’efforts ont été consacrés au développement de stratégies d’augmentation spécifiques aux réseaux antagonistes génératifs (GAN). À cet effet, nous introduisons une nouvelle méthode d’augmentation conçue spécifiquement pour les modèles de synthèse d’images sémantiques basés sur les GAN. Nous proposons de déformer aléatoirement les formes des objets dans les cartes d’étiquettes sémantiques utilisées comme entrée du générateur. Les différences locales de forme entre les cartes d’étiquettes déformées et non déformées, ainsi que les images correspondantes, permettent au GAN d’apprendre de manière plus fine les détails structurels et géométriques de la scène, améliorant ainsi la qualité des images générées. Lors de l’évaluation des modèles GAN augmentés par rapport à leurs versions « vanilla », nous constatons que les métriques quantitatives rapportées dans les études antérieures sur la synthèse d’images sémantiques sont fortement biaisées en faveur de certaines classes sémantiques, car elles sont calculées à l’aide d’un réseau de segmentation pré-entraîné externe. Nous proposons donc d’améliorer le cadre d’évaluation établi en analysant séparément les performances des images générées sur les classes biaisées et non biaisées par rapport au réseau de segmentation donné. Enfin, nous démontrons des améliorations significatives, tant quantitatives que qualitatives, obtenues grâce à notre méthode d’augmentation, sur les deux partitions de classes, en utilisant des modèles de pointe pour la synthèse d’images sémantiques sur trois jeux de données différents. En moyenne sur les jeux de données COCO-Stuff, ADE20K et Cityscapes, les modèles augmentés surpassent leurs homologues « vanilla » de près de 3 points de mIoU et de près de 10 points de FID.