Bildgenerierung aus Layout

Trotz erheblicher Fortschritte bei generativen Modellen in jüngerer Zeit bleibt die kontrollierte Generierung von Bildern, die mehrere und komplexe Objektanordnungen darstellen, ein schwieriges Problem. Zu den zentralen Herausforderungen gehören die Vielfalt des Aussehens, das ein gegebenes Objekt haben kann, und als Folge davon die exponentielle Menge an Bildern, die mit einer angegebenen Anordnung konsistent sind. Um diesen Herausforderungen zu begegnen, schlagen wir einen neuen Ansatz für layoutbasierte Bildgenerierung vor; wir nennen ihn Layout2Im. Gegeben eine grobe räumliche Anordnung (Bounding Boxes + Objektkategorien) kann unser Modell eine Reihe realistischer Bilder generieren, die die richtigen Objekte an den gewünschten Positionen zeigen. Die Darstellung jedes Objekts wird in einen spezifischen/definierten Teil (Kategorie) und einen unspezifischen/unbestimmten Teil (Aussehen) getrennt. Die Kategorie wird mithilfe eines Wort-Einbettungsverfahrens kodiert, während das Aussehen in einen niedrigdimensionalen Vektor reduziert wird, der aus einer Normalverteilung gezogen wird. Individuelle Objektdarstellungen werden durch Verwendung von konvolutionellen LSTMs zusammengefügt, um eine Kodierung der gesamten Anordnung zu erhalten, und dann in ein Bild dekodiert. Mehrere Verlustfunktionen werden eingeführt, um präzise und vielfältige Generierung zu fördern. Das vorgeschlagene Layout2Im-Modell übertrifft den bisherigen Stand der Technik erheblich und verbessert den besten gemeldeten Inception-Score um 24,66 % auf dem sehr anspruchsvollen COCO-Stuff-Datensatz und um 28,57 % auf dem Visual Genome-Datensatz. Ausführliche Experimente zeigen außerdem die Fähigkeit unserer Methode, komplexe und vielfältige Bilder mit mehreren Objekten zu generieren.