CLR-GAN: Steigerung der Stabilität und Qualität von GANs durch konsistente latente Darstellung und Rekonstruktion
Generative Adversarial Networks (GANs) haben aufgrund ihrer herausragenden Fähigkeit zur Bildgenerierung erhebliche Aufmerksamkeit erhalten. Allerdings ist die Training von GANs schwierig, da das Spiel zwischen Generator (G) und Diskriminator (D) ungleich ist. Um die Wettbewerbsbedingungen fairer zu gestalten, schlagen wir einen neuen Ansatz zum Training von GANs vor, den wir Consistent Latent Representation and Reconstruction (CLR-GAN) nennen. In diesem Paradigma betrachten wir G und D als zueinander inverse Prozesse: Während der Diskriminator zusätzlich die Aufgabe erhält, den vordefinierten Latentcode wiederherzustellen, muss auch der Generator die Eingabedaten der Realität rekonstruieren. Dadurch entsteht eine Beziehung zwischen dem Latentraum von G und den Ausgabefeatures von D. Auf Basis dieses Vorwissens können wir G und D während des Trainings mittels eines neuen Kriteriums auf eine gleichwertige Position bringen. Experimentelle Ergebnisse auf verschiedenen Datensätzen und Architekturen belegen, dass unser Paradigma die Stabilität von GANs verbessert und qualitativ hochwertigere Bilder erzeugt (FID-Gewinn von 31,22 % auf CIFAR10 und 39,5 % auf AFHQ-Cat). Wir hoffen, dass dieser vorgeschlagene Ansatz Forscher dazu anregt, GAN-Training aus unterschiedlichen Perspektiven zu betrachten, anstatt sich auf das klassische Zwei-Spieler-Spiel zu beschränken. Der Quellcode ist öffentlich unter https://github.com/Petecheco/CLR-GAN verfügbar.