La quantification de caractéristiques améliore l'entraînement des GAN

L’instabilité de l’entraînement des réseaux antagonistes génératifs (GAN) constitue un problème ancien malgré les efforts de recherche considérables. Nous identifions que ces instabilités proviennent principalement des difficultés rencontrées lors du matching de caractéristiques basé sur les statistiques des mini-batches, en raison d’un équilibre fragile entre la distribution cible fixe et la distribution générée de manière progressive. Dans ce travail, nous proposons une méthode appelée Quantification des Caractéristiques (FQ) pour le discriminateur, visant à projeter à la fois les échantillons réels et faux dans un espace discret partagé. Les valeurs quantifiées de la FQ sont construites comme un dictionnaire évolutif, cohérent avec les statistiques des caractéristiques issues de l’historique récent de la distribution générée. Ainsi, la FQ permet implicitement un matching robuste des caractéristiques dans un espace compact. Notre approche peut être facilement intégrée aux modèles GAN existants, avec un surcoût computationnel négligeable pendant l’entraînement. Nous appliquons la FQ à trois modèles GAN représentatifs sur neuf benchmarks : BigGAN pour la génération d’images, StyleGAN pour la synthèse faciale, et U-GAT-IT pour la translation d’image non supervisée. Les résultats expérimentaux étendus montrent que le modèle FQ-GAN améliore significativement les scores FID des méthodes de référence sur diverses tâches, atteignant ainsi de nouveaux états de l’art.