Sie benötigen lediglich adversarische Aufsicht für die semantische Bildsynthese

Trotz ihrer jüngsten Erfolge leiden GAN-Modelle für die semantische Bildsynthese weiterhin unter schlechter Bildqualität, wenn sie ausschließlich mit adversarieller Supervision trainiert werden. Historisch gesehen hat die zusätzliche Verwendung der VGG-basierten perceptuellen Verlustfunktion geholfen, dieses Problem zu überwinden und die Qualität der Synthese erheblich zu verbessern – gleichzeitig jedoch die Weiterentwicklung von GAN-Modellen für die semantische Bildsynthese eingeschränkt. In dieser Arbeit stellen wir ein neuartiges, vereinfachtes GAN-Modell vor, das lediglich adversarielle Supervision benötigt, um hochwertige Ergebnisse zu erzielen. Wir überarbeiten den Diskriminator neu als semantischen Segmentierungsnetzwerk und verwenden die gegebenen semantischen Labelkarten direkt als Ground-Truth für das Training. Durch eine stärkere Supervision sowohl des Diskriminators als auch des Generators mittels räumlich- und semantikbewusster Rückmeldungen des Diskriminators gelingt es uns, Bilder mit höherer Fidelity und besserer Übereinstimmung mit den Eingabelabelkarten zu synthetisieren, wodurch der Einsatz der perceptuellen Verlustfunktion überflüssig wird. Darüber hinaus ermöglichen wir hochwertige multimodale Bildsynthese durch globales und lokales Sampling eines 3D-Rauschtenors, der in den Generator eingespeist wird, was eine vollständige oder teilweise Bildänderung erlaubt. Wir zeigen, dass die von unserem Modell synthetisierten Bilder vielfältiger sind und die Farb- und Texturverteilungen realer Bilder enger nachahmen. Insgesamt erreichen wir im Vergleich zum Stand der Technik eine durchschnittliche Verbesserung um 6 FID- und 5 mIoU-Punkte auf verschiedenen Datensätzen, wobei ausschließlich adversarielle Supervision verwendet wird.