HyperAIHyperAI
vor 2 Monaten

DM-GAN: Dynamische Speicher Generative Adversarial Networks für Text-zu-Bild-Synthese

Minfeng Zhu; Pingbo Pan; Wei Chen; Yi Yang
DM-GAN: Dynamische Speicher Generative Adversarial Networks für Text-zu-Bild-Synthese
Abstract

In dieser Arbeit konzentrieren wir uns auf die Erstellung realistischer Bilder aus Textbeschreibungen. Aktuelle Methoden generieren zunächst ein Anfangsbild mit grober Form und Farbe und verfeinern dieses anschließend zu einem hochaufgelösten Bild. Die meisten existierenden Text-zu-Bild-Synthese-Methoden haben jedoch zwei Hauptprobleme: (1) Diese Methoden hängen stark von der Qualität der Anfangsbilder ab. Wenn das Anfangsbild nicht gut initialisiert ist, können die nachfolgenden Prozesse das Bild kaum auf eine zufriedenstellende Qualität verfeinern. (2) Jedes Wort hat unterschiedliche Bedeutungsgrade bei der Beschreibung verschiedener Bildinhalte, dennoch wird in den bestehenden Bildverfeinerungsprozessen eine unveränderte Textrepräsentation verwendet. In dieser Arbeit schlagen wir das Dynamic Memory Generative Adversarial Network (DM-GAN) vor, um hochwertige Bilder zu erzeugen. Das vorgeschlagene Verfahren führt ein dynamisches Speichermodul ein, um unscharfe Bildinhalte zu verfeinern, wenn die Anfangsbilder nicht gut generiert wurden. Ein Speicherbeschreibegatter wurde entwickelt, um wichtige Textinformationen basierend auf dem Inhalt des Anfangsbildes auszuwählen, was es unserer Methode ermöglicht, Bilder präzise aus der Textbeschreibung zu generieren. Wir nutzen außerdem ein Antwortgatter, um die aus den Speichern gelesenen Informationen und die Bildmerkmale adaptiv zu fusionieren. Wir evaluieren das DM-GAN-Modell anhand des Caltech-UCSD Birds 200 Datensatzes und des Microsoft Common Objects in Context Datensatzes. Die experimentellen Ergebnisse zeigen, dass unser DM-GAN-Modell sich günstig mit den Stand-der-Technik-Ansätzen vergleicht.