HyperAIHyperAI
vor 18 Tagen

Lernen der Vorhersage von Layout-zu-Bild bedingten Faltungen für die semantische Bildsynthese

Xihui Liu, Guojun Yin, Jing Shao, Xiaogang Wang, Hongsheng Li
Lernen der Vorhersage von Layout-zu-Bild bedingten Faltungen für die semantische Bildsynthese
Abstract

Die semantische Bildsynthese zielt darauf ab, photorealistische Bilder aus semantischen Layouts zu generieren. Vorherige Ansätze, die bedingte generative adversarische Netzwerke (GAN) verwenden, erreichen auf dieser Aufgabe den Stand der Technik, wobei entweder die semantischen Etikettkarten als Eingaben für den Generator dienen oder zur Modulation der Aktivierungen in Normalisierungsschichten über affine Transformationen genutzt werden. Wir argumentieren, dass die Faltkerne im Generator bei der Bildgenerierung über unterschiedliche semantische Etiketten an verschiedenen Orten informiert sein sollten. Um die semantische Anordnung effektiver für den Bildgenerator auszunutzen, schlagen wir vor, Faltkerne bedingt auf der semantischen Etikettkarte vorherzusagen, um die Zwischenmerkmalskarten aus den Rauschkarten zu generieren und schließlich die Bilder zu erzeugen. Darüber hinaus stellen wir einen Merkmalspyramiden-Diskriminator mit Semantik-Embedding vor, der effektiver ist, feine Details zu verbessern und die semantische Ausrichtung zwischen den generierten Bildern und den Eingabesemantiklayout zu stärken, als frühere Multi-Skala-Diskriminatoren. Wir erreichen den Stand der Technik sowohl in quantitativen Metriken als auch in subjektiven Bewertungen auf verschiedenen semantischen Segmentierungsdatensätzen und demonstrieren so die Wirksamkeit unseres Ansatzes.