Semantischer Engpass zur Szenenerzeugung

Durch die Kombination der hochfrequenten Generierungsfähigkeiten von labelbedingten Bildsynthesemethoden mit der Flexibilität unbedingter generativer Modelle stellen wir ein semantisches Bottleneck-GAN-Modell für die unbedingte Synthese komplexer Szenen vor. Wir gehen während des Trainings davon aus, dass pixelgenaue Segmentierungslabels verfügbar sind, und nutzen diese, um die Szenenstruktur zu lernen. Während der Inferenz synthetisiert unser Modell zunächst eine realistische Segmentierungslayout von Grund auf, gefolgt von der Synthese einer realistischen Szene bedingt durch dieses Layout. Für die erste Aufgabe verwenden wir ein unbedingtes, progressiv arbeitendes Segmentierungs-Synthesenetzwerk, das die Verteilung realistischer semantischer Szenenlayouts erfasst. Für die zweite Aufgabe nutzen wir ein bedingtes Segmentierung-zu-Bild-Synthesenetzwerk, das die Verteilung foto-realistischer Bilder unter der Bedingung des semantischen Layouts erfasst. Wenn das Modell end-to-end trainiert wird, übertrifft es state-of-the-art generative Modelle hinsichtlich der Frechet-Inception-Distance und Benutzerstudienbewertungen bei der unsupervisierten Bildsynthese auf zwei anspruchsvollen Domänen. Darüber hinaus zeigen wir, dass die generierten Segmentierungskarten als zusätzliche Trainingsdaten verwendet werden können, um die Leistung jüngerer Segmentierung-zu-Bild-Synthesenetzwerke erheblich zu verbessern.