Réseaux de Génération Adversariaux à Recherche de Modes pour la Synthèse d'Images Diverses

La plupart des tâches de génération conditionnelle s'attendent à des sorties diverses à partir d'un seul contexte conditionnel. Cependant, les réseaux adversariaux génératifs conditionnels (cGANs) se concentrent souvent sur l'information conditionnelle a priori et négligent les vecteurs de bruit en entrée, qui contribuent aux variations des sorties. Les tentatives récentes visant à résoudre le problème de la collapsus modale pour les cGANs sont généralement spécifiques à la tâche et coûteuses en termes de calcul. Dans ce travail, nous proposons un terme de régularisation simple mais efficace pour aborder le problème de la collapsus modale des cGANs. La méthode proposée maximise explicitement le rapport entre la distance des images générées par rapport aux codes latents correspondants, encourageant ainsi les générateurs à explorer davantage les modes mineurs pendant l'entraînement. Ce terme de régularisation mode-seeking peut être facilement appliqué à diverses tâches de génération conditionnelle sans imposer de surcharge d'entraînement ni modifier les structures de réseau originales. Nous validons l'algorithme proposé sur trois tâches de synthèse d'images conditionnelles, incluant la génération catégorique, la traduction image-à-image et la synthèse texte-à-image, avec différents modèles de base. Les résultats qualitatifs et quantitatifs démontrent tous l'efficacité du terme de régularisation proposé pour améliorer la diversité sans perte de qualité.