Vers un entraînement plus rapide et stabilisé des GAN pour la synthèse d’images de haute fidélité en peu d’exemples

L’entraînement des réseaux génératifs adverses (GAN) sur des images de haute fidélité nécessite généralement des clusters GPU à grande échelle et un très grand nombre d’images d’entraînement. Dans cet article, nous étudions la tâche de synthèse d’images en peu d’exemples (few-shot image synthesis) pour les GAN, avec un coût informatique minimal. Nous proposons une architecture GAN légère qui atteint une qualité supérieure à une résolution de 1024×1024. Notamment, le modèle converge à partir de zéro en seulement quelques heures d’entraînement sur une seule GPU RTX-2080, tout en maintenant des performances stables, même avec moins de 100 échantillons d’entraînement. Deux innovations techniques fondent notre approche : un module d’excitation canal par canal à saut de couche (skip-layer channel-wise excitation module), et un discriminateur auto-supervisé entraîné comme encodeur de caractéristiques. Sur treize jeux de données couvrant une large variété de domaines d’images (les données et le code sont disponibles à l’adresse : https://github.com/odegeasslbc/FastGAN-pytorch), nous démontrons que notre modèle surpasse de manière significative l’état de l’art, notamment StyleGAN2, lorsque les ressources de données et de calcul sont limitées.