Dateneffiziente Instanzgenerierung aus Instanzdiskriminierung

Generative Adversarial Networks (GANs) haben die Bildsynthese erheblich vorangebracht, doch die Synthesqualität sinkt signifikant bei begrenzten Trainingsdaten. Um die Dateneffizienz des GAN-Trainings zu verbessern, verwenden herkömmliche Ansätze typischerweise Datenaugmentation, um das Überanpassen des Diskriminators zu mildern, wobei der Diskriminator dennoch weiterhin eine zweiklassige Aufgabe (real vs. falsch) erlernt. In dieser Arbeit stellen wir eine dateneffiziente Methode zur Instanzgenerierung (InsGen) basierend auf Instanzdiskriminierung vor. Konkret soll der Diskriminator nicht nur zwischen dem echten und dem gefälschten Datensatz unterscheiden, sondern auch jede einzelne Bildinstanz unterscheiden, unabhängig davon, ob sie aus dem Trainingsdatensatz oder aus dem Generator stammt. Auf diese Weise kann der Diskriminator von einer unendlichen Anzahl synthetischer Beispiele profitieren, wodurch das durch unzureichende Trainingsdaten verursachte Überanpassungsproblem gelindert wird. Zudem wird eine Rauschstörstrategie eingeführt, um die Diskriminierungskapazität des Diskriminators weiter zu verbessern. Gleichzeitig wird die erlernte Instanzdiskriminierungsfähigkeit des Diskriminators zurückgekoppelt genutzt, um den Generator zur Vielfalt der Generierung zu motivieren. Umfangreiche Experimente belegen die Wirksamkeit unserer Methode auf verschiedenen Datensätzen und Trainingskonfigurationen. Besonders hervorzuheben ist, dass wir bei der Einstellung mit 2.000 Trainingsbildern aus dem FFHQ-Datensatz die Stand-of-the-Art-Methode um 23,5 % in Bezug auf den FID-Index überbieten.