vor 11 Tagen

Ein U-Net-basierter Diskriminator für generative adversarische Netzwerke

Edgar Schönfeld, Bernt Schiele, Anna Khoreva

Abstract

Unter den größten verbleibenden Herausforderungen für generative adversarische Netzwerke (GANs) steht die Fähigkeit, global und lokal konsistente Bilder mit Objektformen und Texturen zu synthetisieren, die von realen Bildern nicht zu unterscheiden sind. Um dieses Problem anzugehen, schlagen wir eine alternative U-Net-basierte Diskriminatorarchitektur vor, die Erkenntnisse aus der Segmentierungsliteratur nutzt. Die vorgeschlagene U-Net-basierte Architektur ermöglicht es, dem Generator detaillierte Feedback auf Pixel-Ebene zu liefern, während gleichzeitig die globale Kohärenz der synthetisierten Bilder durch die gleichzeitige Bereitstellung von globalen Bildfeedback beibehalten wird. Unterstützt durch die Pixel-Genauigkeit des Diskriminators entwickeln wir zudem eine neue Regularisierungstechnik auf Pixel-Ebene, basierend auf der Datenverstärkungsmethode CutMix, die den U-Net-Diskriminator dazu anregt, stärker auf semantische und strukturelle Unterschiede zwischen realen und gefälschten Bildern zu achten. Dies verbessert die Trainingsstabilität und -qualität des U-Net-Diskriminators und steigert somit die Qualität der generierten Bilder. Die neuartige Diskriminatorarchitektur erreicht gegenüber dem Stand der Technik Verbesserungen hinsichtlich standardisierter Verteilungs- und Bildqualitätsmetriken und ermöglicht es dem Generator, Bilder mit variabler Struktur, Erscheinung und Detailgenauigkeit zu erzeugen, wobei sowohl globale als auch lokale Realität gewahrt bleiben. Im Vergleich zur BigGAN-Benchmark erreichen wir im Durchschnitt eine Verbesserung um 2,7 FID-Punkte auf den Datensätzen FFHQ, CelebA sowie dem neu vorgestellten COCO-Animals-Datensatz. Der Quellcode ist unter https://github.com/boschresearch/unetgan verfügbar.