SWAGAN : un modèle génératif piloté par ondelettes basé sur le style

Ces dernières années, des progrès considérables ont été réalisés en matière de qualité visuelle des réseaux antagonistes génératifs (GAN). Néanmoins, ces réseaux souffrent encore d’une dégradation de la qualité pour les contenus à haute fréquence, due à une architecture biaisée en fréquence et à des fonctions de perte peu favorables. Pour remédier à ce problème, nous proposons un nouveau GAN généraliste basé sur le style et les ondelettes, appelé SWAGAN, qui met en œuvre une génération progressive dans le domaine fréquentiel. SWAGAN intègre des ondelettes dans ses architectures de générateur et de discriminateur, imposant ainsi une représentation latente sensible aux fréquences à chaque étape du processus. Cette approche permet d’améliorer significativement la qualité visuelle des images générées, tout en augmentant notablement les performances computationnelles. Nous démontrons l’avantage de notre méthode en l’intégrant dans le cadre de StyleGAN2, en montrant que la génération de contenu dans le domaine des ondelettes conduit à des images de meilleure qualité, avec des détails à haute fréquence plus réalistes. En outre, nous vérifions que l’espace latent de notre modèle préserve les propriétés qui permettent à StyleGAN de servir de base à une multitude de tâches d’édition, et nous démontrons que notre approche sensible aux fréquences améliore également la qualité visuelle en aval.