vor 17 Tagen

Steuerbare Text-zu-Bild-Generierung

Bowen Li, Xiaojuan Qi, Thomas Lukasiewicz, Philip H. S. Torr

Abstract

In diesem Paper stellen wir einen neuartigen kontrollierbaren textbasierten Generativen adversarialen Netzwerk (ControlGAN) vor, der in der Lage ist, hochwertige Bilder effektiv zu synthetisieren und gleichzeitig bestimmte Bereiche der Bildgenerierung anhand natürlicher Sprachbeschreibungen zu steuern. Um dies zu erreichen, führen wir einen Generator ein, der auf Wortebene räumliche und kanalbasierte Aufmerksamkeit nutzt, um verschiedene visuelle Merkmale zu entkoppeln und es dem Modell ermöglicht, sich auf die Generierung und Manipulation von Unterregionen zu konzentrieren, die den relevantesten Wörtern zugeordnet sind. Zudem wird ein wortbasiertes Diskriminator vorgeschlagen, der feinabgestimmte überwachende Rückmeldungen bereitstellt, indem Wörter mit Bildregionen korreliert werden, wodurch die Trainierung eines effektiven Generators unterstützt wird, der bestimmte visuelle Attribute manipulieren kann, ohne die Generierung anderer Inhalte zu beeinträchtigen. Darüber hinaus wird eine perceptuelle Verlustfunktion eingesetzt, um die Zufälligkeit bei der Bildgenerierung zu reduzieren und den Generator dazu zu bringen, spezifische Attribute zu manipulieren, die in der überarbeiteten Textbeschreibung gefordert sind. Ausführliche Experimente auf Benchmark-Datensätzen zeigen, dass unsere Methode die bestehenden State-of-the-Art-Verfahren übertrifft und in der Lage ist, synthetische Bilder effektiv mittels natürlicher Sprachbeschreibungen zu manipulieren. Der Quellcode ist unter https://github.com/mrlibw/ControlGAN verfügbar.