vor 17 Tagen

Rekurrente affine Transformation für die Text-zu-Bild-Synthese

Senmao Ye, Fei Liu, Minkui Tan

Abstract

Die Text-zu-Bild-Synthese zielt darauf ab, natürliche Bilder unter Bedingung von Textbeschreibungen zu generieren. Die zentrale Schwierigkeit dieser Aufgabe liegt in der effektiven Integration von Textinformationen in den Bildsyntheseprozess. Bestehende Methoden passen gewöhnlich geeignete Textinformationen adaptiv in den Syntheseprozess ein, indem sie mehrere isolierte Fusionsblöcke (z. B. bedingte Batch-Normalisierung und Instanz-Normalisierung) verwenden. Diese isolierten Fusionsblöcke konkurrieren jedoch untereinander und erhöhen zudem die Komplexität des Trainings (siehe erste Seite des Supplementärmaterials). Um diese Probleme zu lösen, schlagen wir eine rekurrente affin-transformierte Methode (Recurrent Affine Transformation, RAT) für Generative Adversarielle Netzwerke vor, die alle Fusionsblöcke mittels eines rekurrenten neuronalen Netzwerks verknüpft, um deren langfristige Abhängigkeiten zu modellieren. Zudem verbessern wir die semantische Konsistenz zwischen Texten und generierten Bildern, indem wir ein räumliches Aufmerksamkeitsmodell in den Diskriminator integrieren. Da dieser die entsprechenden Bildregionen erkennt, kann die Textbeschreibung den Generator dazu anleiten, relevantere Bildinhalte zu generieren. Umfassende Experimente auf den Datensätzen CUB, Oxford-102 und COCO belegen die Überlegenheit des vorgeschlagenen Modells gegenüber aktuellen State-of-the-Art-Verfahren \footnote{https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis.git}.