Merkmalsquantisierung verbessert die GAN-Trainingsperformance

Die Instabilität beim Training von GANs ist trotz erheblicher Forschungsanstrengungen ein lang bestehendes Problem geblieben. Wir identifizieren, dass diese Instabilitäten darauf zurückzuführen sind, dass die Merkmalsanpassung mit Mini-Batch-Statistiken schwierig ist, bedingt durch die empfindliche Balance zwischen der festen Zielverteilung und der progressiv generierten Verteilung. In dieser Arbeit stellen wir Feature Quantization (FQ) für den Diskriminator vor, um sowohl echte als auch gefälschte Datensamples in einen gemeinsamen diskreten Raum einzubetten. Die quantisierten Werte von FQ werden als sich entwickelndes Wörterbuch konstruiert, das konsistent mit den Merkmalsstatistiken der jüngsten Verteilungsgeschichte ist. Dadurch ermöglicht FQ implizit eine robuste Merkmalsanpassung in einem kompakten Raum. Unser Ansatz lässt sich problemlos in bestehende GAN-Modelle integrieren und erzeugt bei der Ausführung nur geringen zusätzlichen Rechenaufwand. Wir wenden FQ auf drei repräsentative GAN-Modelle an, die auf neun Benchmarks getestet wurden: BigGAN für die Bildgenerierung, StyleGAN für die Gesichtssynthese und U-GAT-IT für die unsupervised Bild-zu-Bild-Übersetzung. Ausführliche experimentelle Ergebnisse zeigen, dass das vorgeschlagene FQ-GAN die FID-Werte der Baseline-Methoden auf einer Vielzahl von Aufgaben erheblich verbessert und damit neue SOTA-Leistungen erzielt.