Bildgenerierung aus Szenengraphen

Um das visuelle Weltmodell wirklich zu verstehen, sollten unsere Modelle nicht nur in der Lage sein, Bilder zu erkennen, sondern auch zu generieren. In diesem Zusammenhang gab es kürzlich aufregende Fortschritte bei der Generierung von Bildern aus natürlichsprachlichen Beschreibungen. Diese Methoden erzielen beeindruckende Ergebnisse in begrenzten Bereichen wie der Beschreibung von Vögeln oder Blumen, haben jedoch Schwierigkeiten, komplexe Sätze mit vielen Objekten und Beziehungen treu wiederzugeben. Um diese Einschränkung zu überwinden, schlagen wir eine Methode zur Generierung von Bildern aus Szengraphen vor, die es ermöglicht, explizit über Objekte und ihre Beziehungen nachzudenken. Unser Modell verwendet Graphkonvolutionen zur Verarbeitung der Eingabegraphen, berechnet ein Szenenlayout durch die Vorhersage von Begrenzungsrahmen und Segmentierungsmasken für die Objekte und konvertiert das Layout in ein Bild mit einem kaskadierten Verfeinerungsnetzwerk. Das Netzwerk wird gegen ein Paar von Diskriminatoren adverarial trainiert, um realistische Ausgaben sicherzustellen. Wir validieren unseren Ansatz anhand des Visual Genome- und des COCO-Stuff-Datensatzes, wobei qualitative Ergebnisse, Abschätzungen und Nutzerstudien die Fähigkeit unserer Methode beweisen, komplexe Bilder mit mehreren Objekten zu generieren.