Großmaßstäbliches GAN-Training für die hochwertige Synthese natürlicher Bilder

Trotz der jüngsten Fortschritte im Bereich der generativen Bildmodellierung bleibt das erfolgreiche Erzeugen hochaufgelöster, vielfältiger Stichproben aus komplexen Datensätzen wie ImageNet ein schwer zu erreichendes Ziel. Um diesem Ziel näher zu kommen, trainieren wir Generative Adversarial Networks (GANs) in bisher unerreichtem Maßstab und untersuchen die Instabilitäten, die speziell bei solchen Größenordnungen auftreten. Wir stellen fest, dass die Anwendung von orthogonaler Regularisierung auf den Generator es ermöglicht, eine einfache „Truncation Trick“-Methode anzuwenden, wodurch man die Balance zwischen Stichprobengüte und Vielfalt durch Reduzierung der Varianz des Eingangs des Generators fein justieren kann. Unsere Modifikationen führen zu Modellen, die den neuen Stand der Technik in der klassenbedingten Bildsynthese setzen. Bei einer Trainingsschärfe von 128x128 Pixeln auf ImageNet erreichen unsere Modelle (BigGANs) einen Inception Score (IS) von 166,5 und eine Frechet Inception Distance (FID) von 7,4, was eine Verbesserung gegenüber dem bisher besten IS von 52,52 und FID von 18,6 darstellt.