Omni-GAN : Sur les secrets des cGANs et au-delà

Le réseau adversaire génératif conditionnel (cGAN) constitue un outil puissant pour la génération d’images de haute qualité, mais les approches existantes souffrent généralement d’une performance insatisfaisante ou du risque de collapsus de mode. Ce papier présente Omni-GAN, une variante du cGAN qui met en lumière les difficultés inhérentes à la conception d’un discriminateur adéquat pour l’entraînement du modèle. La clé réside dans le fait de garantir une supervision forte au discriminateur afin qu’il puisse percevoir correctement les concepts, tout en appliquant une régularisation modérée pour éviter le collapsus. Omni-GAN est facile à implémenter et s’intègre librement avec des méthodes d’encodage disponibles en standard (par exemple, les représentations neuronales implicites, INR). Des expériences confirment la supériorité d’Omni-GAN et d’Omni-INR-GAN sur une large gamme de tâches de génération et de restauration d’images. En particulier, Omni-INR-GAN établit de nouveaux records sur le jeu de données ImageNet, avec des scores Inception respectivement de 262,85 et 343,22 pour des tailles d’image de 128 et 256, dépassant les anciens records de plus de 100 points. En outre, en exploitant le prior du générateur, Omni-INR-GAN permet d’extrapoler des images à faible résolution vers des résolutions arbitrairement élevées, pouvant atteindre une augmentation de résolution supérieure à x60. Le code source est disponible.