HyperAIHyperAI
il y a 17 jours

StyleGAN-XL : Extension de StyleGAN à de grands jeux de données diversifiés

Axel Sauer, Katja Schwarz, Andreas Geiger
StyleGAN-XL : Extension de StyleGAN à de grands jeux de données diversifiés
Résumé

Les graphiques informatiques ont connu récemment une forte poussée d’approches centrées sur les données pour la création de contenus photoréalistes et contrôlables. StyleGAN, en particulier, a fixé de nouveaux standards en matière de modélisation générative en termes de qualité d’image et de contrôle. Toutefois, les performances de StyleGAN déclinent fortement sur de grands ensembles de données non structurées, tels qu’ImageNet. Conçu initialement pour la contrôlabilité, StyleGAN a été critiqué par des travaux antérieurs pour son architecture restrictive, jugée inadaptée aux jeux de données diversifiés. En contraste, nous identifions le principal facteur limitant comme étant la stratégie d’entraînement actuelle. En suivant le paradigme récemment introduit des Projected GAN, nous exploitons des priori puissants issus de réseaux neuronaux ainsi qu’une stratégie de croissance progressive afin de former avec succès le générateur le plus récent, StyleGAN3, sur ImageNet. Notre modèle final, StyleGAN-XL, établit un nouveau record d’état de l’art dans la synthèse d’images à grande échelle et constitue le premier modèle capable de générer des images à une résolution de $1024^2$ à l’échelle de ce type de jeu de données. Nous démontrons que ce modèle peut inverser et modifier des images au-delà du domaine étroit des portraits ou de classes d’objets spécifiques.