HyperAIHyperAI
il y a 17 jours

Réseaux génératifs antagonistes à discriminant dual

{Trung Le, Dinh Phung, Tu Dinh Nguyen, Hung Vu}
Réseaux génératifs antagonistes à discriminant dual
Résumé

Dans cet article, nous proposons une nouvelle approche pour résoudre le problème de la « collapse des modes » rencontré dans les réseaux antagonistes génératifs (GAN). Notre idée, intuitive mais démontrée comme particulièrement efficace, permet notamment de surmonter certaines limites fondamentales des GAN. En essence, elle combine les divergences de Kullback-Leibler (KL) et de KL inverse dans une fonction objectif unifiée, exploitant ainsi les propriétés statistiques complémentaires de ces divergences afin de diversifier efficacement la densité estimée lors de la capture de distributions multi-modales. Nous appelons notre méthode D2GAN (Dual Discriminator Generative Adversarial Nets), qui, contrairement au GAN classique, dispose de deux discriminateurs. En conjonction avec un générateur, ce cadre repose sur une analogie de jeu à somme nulle (minimax), où un discriminateur attribue de hauts scores aux échantillons issus de la distribution réelle, tandis que l’autre, au contraire, favorise les échantillons produits par le générateur, et le générateur lui-même cherche à tromper les deux discriminateurs. Nous établissons une analyse théorique montrant qu’avec des discriminateurs optimaux, l’optimisation du générateur dans D2GAN revient à minimiser simultanément les divergences KL et inverse entre la distribution réelle et celle induite par les données générées, ce qui permet efficacement d’éviter le phénomène de collapse des modes. Nous menons des expériences étendues sur des jeux de données synthétiques et réels à grande échelle (MNIST, CIFAR-10, STL-10, ImageNet), en veillant à comparer de manière exhaustive notre D2GAN avec les variantes les plus récentes de GAN, à la fois qualitativement et quantitativement. Les résultats expérimentaux démontrent la performance compétitive et supérieure de notre approche dans la génération d’échantillons de haute qualité et diversifiés par rapport aux méthodes de référence, ainsi que sa capacité à s’échelonner efficacement à la base de données ImageNet.