Zu einer schnelleren und stabilisierten GAN-Trainingsdurchführung für hochauflösende Few-shot-Bildsynthese

Die Ausbildung von Generativen adversarialen Netzen (GANs) auf hochauflösenden Bildern erfordert normalerweise große GPU-Cluster und eine enorme Anzahl an Trainingsbildern. In diesem Artikel untersuchen wir die Few-Shot-Bildsynthese mit GANs bei minimalem Rechenaufwand. Wir schlagen eine leichtgewichtige GAN-Architektur vor, die eine herausragende Bildqualität bei einer Auflösung von 1024×1024 erreicht. Bemerkenswert ist, dass das Modell bereits von Grund auf mit nur wenigen Stunden Training auf einer einzigen RTX-2080-GPU konvergiert und auch mit weniger als 100 Trainingsbeispielen konsistente Leistung erbringt. Zwei technische Innovationen bilden die Grundlage unserer Arbeit: ein Skip-Layer Kanal-Wechselmodul sowie ein selbstüberwachter Diskriminator, der als Merkmals-Encoder trainiert wird. Anhand von dreizehn Datensätzen, die eine breite Vielfalt an Bilddomänen abdecken (die Datensätze und der Code sind verfügbar unter: https://github.com/odegeasslbc/FastGAN-pytorch), zeigen wir, dass unser Modell im Vergleich zum Stand der Technik, insbesondere im Hinblick auf StyleGAN2, bei begrenzten Daten- und Rechenressourcen überlegene Leistung erzielt.