HyperAIHyperAI
il y a 11 jours

Un discriminateur basé sur U-Net pour les réseaux adverses génératifs

Edgar Schönfeld, Bernt Schiele, Anna Khoreva
Un discriminateur basé sur U-Net pour les réseaux adverses génératifs
Résumé

Parmi les principaux défis restants pour les réseaux antagonistes génératifs (GANs) figure la capacité à générer des images cohérentes à la fois globalement et localement, avec des formes d’objets et des textures indiscernables des images réelles. Pour relever ce défi, nous proposons une architecture alternative du discriminateur basée sur U-Net, inspirée des avancées de la littérature en segmentation d’images. L’architecture U-Net proposée permet de fournir au générateur un retour détaillé au niveau pixel par pixel, tout en préservant la cohérence globale des images synthétisées, grâce à une rétroaction globale sur l’image. En s’appuyant sur la réponse au niveau pixel par pixel du discriminateur, nous introduisons également une technique de régularisation de cohérence au niveau pixel, fondée sur l’augmentation de données CutMix, qui incite le discriminateur U-Net à se concentrer davantage sur les changements sémantiques et structurels entre images réelles et fausses. Cette approche améliore l’entraînement du discriminateur U-Net, renforçant ainsi la qualité des échantillons générés. Le nouveau discriminateur dépasse l’état de l’art en termes de métriques standard de distribution et de qualité d’image, permettant au générateur de produire des images aux structures, apparences et niveaux de détail variés, tout en maintenant une réalisme global et local. Par rapport à la base BigGAN, nous obtenons une amélioration moyenne de 2,7 points FID sur les jeux de données FFHQ, CelebA et le nouveau jeu de données COCO-Animals. Le code est disponible à l’adresse suivante : https://github.com/boschresearch/unetgan.