HyperAIHyperAI

Command Palette

Search for a command to run...

Steuerbare Text-zu-Bild-Generierung

Bowen Li Xiaojuan Qi Thomas Lukasiewicz Philip H. S. Torr

Zusammenfassung

In diesem Paper stellen wir einen neuartigen kontrollierbaren textbasierten Generativen adversarialen Netzwerk (ControlGAN) vor, der in der Lage ist, hochwertige Bilder effektiv zu synthetisieren und gleichzeitig bestimmte Bereiche der Bildgenerierung anhand natürlicher Sprachbeschreibungen zu steuern. Um dies zu erreichen, führen wir einen Generator ein, der auf Wortebene räumliche und kanalbasierte Aufmerksamkeit nutzt, um verschiedene visuelle Merkmale zu entkoppeln und es dem Modell ermöglicht, sich auf die Generierung und Manipulation von Unterregionen zu konzentrieren, die den relevantesten Wörtern zugeordnet sind. Zudem wird ein wortbasiertes Diskriminator vorgeschlagen, der feinabgestimmte überwachende Rückmeldungen bereitstellt, indem Wörter mit Bildregionen korreliert werden, wodurch die Trainierung eines effektiven Generators unterstützt wird, der bestimmte visuelle Attribute manipulieren kann, ohne die Generierung anderer Inhalte zu beeinträchtigen. Darüber hinaus wird eine perceptuelle Verlustfunktion eingesetzt, um die Zufälligkeit bei der Bildgenerierung zu reduzieren und den Generator dazu zu bringen, spezifische Attribute zu manipulieren, die in der überarbeiteten Textbeschreibung gefordert sind. Ausführliche Experimente auf Benchmark-Datensätzen zeigen, dass unsere Methode die bestehenden State-of-the-Art-Verfahren übertrifft und in der Lage ist, synthetische Bilder effektiv mittels natürlicher Sprachbeschreibungen zu manipulieren. Der Quellcode ist unter https://github.com/mrlibw/ControlGAN verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Steuerbare Text-zu-Bild-Generierung | Paper | HyperAI