Dual Discriminator Generative Adversarial Nets

In diesem Paper stellen wir einen neuen Ansatz zur Bewältigung des Problems der Moden-Kollaps (mode collapse) in generativen adversarialen Netzen (GANs) vor. Unser Ansatz ist intuitiv, hat sich jedoch als äußerst wirksam erwiesen, insbesondere bei der Überwindung einiger zentraler Limitationen von GANs. Im Wesentlichen kombiniert er die Kullback-Leibler-(KL-)Divergenz und die umgekehrte KL-Divergenz zu einer einheitlichen Zielfunktion, wodurch die ergänzenden statistischen Eigenschaften beider Divergenzen genutzt werden, um die geschätzte Dichtefunktion effektiv zu diversifizieren und so mehrmodale Verteilungen besser zu erfassen. Wir bezeichnen unsere Methode als Dual-Discriminator-Generative Adversarial Nets (D2GAN), die im Gegensatz zu herkömmlichen GANs über zwei Diskriminatoren verfügt. Zusammen mit einem Generator bildet sie ein Analogon zu einem Minimax-Spiel: Während ein Diskriminator hohe Bewertungen für Daten aus der echten Datenverteilung vergeben, belohnt der zweite Diskriminator im Gegenzug Daten, die vom Generator erzeugt wurden, und der Generator generiert Daten, um beide Diskriminatoren zu täuschen. Wir leiten eine theoretische Analyse ab, die zeigt, dass bei optimalen Diskriminatoren die Optimierung des Generators in D2GAN darauf hinausläuft, sowohl die KL- als auch die umgekehrte KL-Divergenz zwischen der echten Datenverteilung und der durch den Generator erzeugten Verteilung zu minimieren. Dadurch wird das Problem des Moden-Kollapses effektiv vermieden. Wir führen umfangreiche Experimente an synthetischen und realen, großskaligen Datensätzen (MNIST, CIFAR-10, STL-10, ImageNet) durch, wobei wir uns besonders bemüht haben, D2GAN umfassend qualitativ und quantitativ mit den neuesten state-of-the-art-Varianten von GANs zu vergleichen. Die experimentellen Ergebnisse belegen die überlegene und konkurrenzfähige Leistung unseres Ansatzes hinsichtlich der Erzeugung hochwertiger und vielfältiger Datenproben im Vergleich zu Baselines sowie die Fähigkeit unserer Methode, auf den ImageNet-Datensatz skaliert zu werden.