HyperAIHyperAI

Command Palette

Search for a command to run...

Bildgenerierung aus Layout

Zhao Bo ; Meng Lili ; Yin Weidong ; Sigal Leonid

Zusammenfassung

Trotz erheblicher Fortschritte bei generativen Modellen in jüngerer Zeit bleibt die kontrollierte Generierung von Bildern, die mehrere und komplexe Objektanordnungen darstellen, ein schwieriges Problem. Zu den zentralen Herausforderungen gehören die Vielfalt des Aussehens, das ein gegebenes Objekt haben kann, und als Folge davon die exponentielle Menge an Bildern, die mit einer angegebenen Anordnung konsistent sind. Um diesen Herausforderungen zu begegnen, schlagen wir einen neuen Ansatz für layoutbasierte Bildgenerierung vor; wir nennen ihn Layout2Im. Gegeben eine grobe räumliche Anordnung (Bounding Boxes + Objektkategorien) kann unser Modell eine Reihe realistischer Bilder generieren, die die richtigen Objekte an den gewünschten Positionen zeigen. Die Darstellung jedes Objekts wird in einen spezifischen/definierten Teil (Kategorie) und einen unspezifischen/unbestimmten Teil (Aussehen) getrennt. Die Kategorie wird mithilfe eines Wort-Einbettungsverfahrens kodiert, während das Aussehen in einen niedrigdimensionalen Vektor reduziert wird, der aus einer Normalverteilung gezogen wird. Individuelle Objektdarstellungen werden durch Verwendung von konvolutionellen LSTMs zusammengefügt, um eine Kodierung der gesamten Anordnung zu erhalten, und dann in ein Bild dekodiert. Mehrere Verlustfunktionen werden eingeführt, um präzise und vielfältige Generierung zu fördern. Das vorgeschlagene Layout2Im-Modell übertrifft den bisherigen Stand der Technik erheblich und verbessert den besten gemeldeten Inception-Score um 24,66 % auf dem sehr anspruchsvollen COCO-Stuff-Datensatz und um 28,57 % auf dem Visual Genome-Datensatz. Ausführliche Experimente zeigen außerdem die Fähigkeit unserer Methode, komplexe und vielfältige Bilder mit mehreren Objekten zu generieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Bildgenerierung aus Layout | Paper | HyperAI