Objektzentrierte Bildgenerierung aus Layouts

Trotz der kürzlich erzielten beeindruckenden Ergebnisse bei der Generierung von Einzelobjekten und Einzelbereichsbildern bleibt die Erstellung komplexer Szenen mit mehreren Objekten eine Herausforderung. In dieser Arbeit gehen wir von der Idee aus, dass ein Modell in der Lage sein muss, einzelne Objekte und deren Beziehungen zueinander zu verstehen, um komplexe Szenen gut zu generieren. Unsere Methode zur Layout-zu-Bild-Generierung, die wir als Object-Centric Generative Adversarial Network (OC-GAN) bezeichnen, basiert auf einem neuartigen Scene-Graph Similarity Module (SGSM). Das SGSM lernt Darstellungen der räumlichen Beziehungen zwischen den Objekten in der Szene, was zu einer verbesserten Layout-Treue unseres Modells führt. Wir schlagen außerdem Änderungen am Bedingungsmechanismus des Generators vor, die dessen Objektinstanzbewusstsein erhöhen. Neben der Verbesserung der Bildqualität adressieren unsere Beiträge zwei Schwachstellen früherer Ansätze: (1) das unabsichtliche Generieren von Objekten ohne entsprechende Begrenzungsrahmen im Layout und (2) überlappende Begrenzungsrahmen im Layout, die zu verschmolzenen Objekten in den Bildern führen. Umfangreiche quantitative Evaluierungen und Ausblendungsstudien zeigen die Wirkung unserer Beiträge auf, wobei unser Modell sowohl auf den COCO-Stuff- als auch auf den Visual Genome-Datensätzen bessere Ergebnisse erzielt als bisherige Stand-of-the-Art-Ansätze. Schließlich beheben wir eine wichtige Einschränkung der Bewertungsmaße, die in früheren Arbeiten verwendet wurden, durch die Einführung von SceneFID – einer objektzentrierten Anpassung des bekannten Fréchet-Inception-Distanz-Maßes (Fr{\'e}chet Inception Distance), das besser für Bilder mit mehreren Objekten geeignet ist.