USIS: Unsupervised Semantic Image Synthesis

Semantische Bildsynthese (Semantic Image Synthesis, SIS) ist eine Unterklasse der Bild-zu-Bild-Übersetzung, bei der aus einer Segmentierungsmaske ein fotorealistisches Bild generiert wird. Die SIS wurde bisher überwiegend als überwachtes Problem behandelt. Allerdings beruhen aktuelle state-of-the-art-Methoden auf einer riesigen Menge an gelabelten Daten und können nicht in einer unpaarigen (unpaired) Umgebung eingesetzt werden. Im Gegensatz dazu erzielen allgemeine unpaarige Bild-zu-Bild-Übersetzungsframeworks deutlich schlechtere Ergebnisse, da sie semantische Layouts durch Farbcodierung repräsentieren und diese dann an herkömmliche Faltungsnetzwerke weiterleiten, welche Korrespondenzen im Erscheinungsbild anstelle semantischer Inhalte lernen. In dieser ersten Arbeit schlagen wir ein neues unsupervisiertes Paradigma für die semantische Bildsynthese (Unsupervised Semantic Image Synthesis, USIS) vor, das einen ersten Schritt darstellt, um die Leistungsunterschiede zwischen paaren und unpaaren Szenarien zu verringern. Insbesondere setzt der vorgeschlagene Ansatz einen SPADE-Generator ein, der durch eine selbstüberwachte Segmentierungsverlustfunktion lernt, Bilder mit visuell unterscheidbaren semantischen Klassen zu erzeugen. Zudem schlagen wir vor, zur Anpassung der Farb- und Texturverteilung realer Bilder ohne Verlust hochfrequenter Informationen eine ganzheitliche, wellenbasierte Diskriminierung über das gesamte Bild zu verwenden. Wir testen unsere Methode an drei anspruchsvollen Datensätzen und zeigen, dass sie in der unpaarigen Umgebung multimodale, fotorealistische Bilder mit verbesserter Qualität generieren kann.