MirrorGAN: Lernen der Text-zu-Bild-Generierung durch Umformulierung

Das Generieren eines Bildes aus einer gegebenen Textbeschreibung hat zwei Ziele: visuelle Realität und semantische Konsistenz. Obwohl erhebliche Fortschritte bei der Erstellung hochwertiger und realistisch aussehender Bilder mithilfe von generativen adversären Netzen gemacht wurden, bleibt die Gewährleistung der semantischen Konsistenz zwischen Textbeschreibung und visuellem Inhalt sehr herausfordernd. In dieser Arbeit adressieren wir dieses Problem durch den Vorschlag eines neuen global-lokal aufmerksamkeitsbasierten und semantikbewahrenden Frameworks für Text-zu-Bild-zu-Text-Generierung, das MirrorGAN genannt wird. MirrorGAN nutzt die Idee des Lernens von Text-zu-Bild-Generierung durch Umformulierung und besteht aus drei Modulen: einem semantischen Text-Einbettungsmodul (STEM), einem global-lokal kooperativen aufmerksamkeitsbasierten Modul für kaskadierte Bildgenerierung (GLAM) und einem Modul zur semantischen Wiederherstellung und Ausrichtung von Textbeschreibungen (STREAM). STEM erzeugt Wort- und Satzeinbettungen. GLAM verfügt über eine kaskadierende Architektur zur Generierung von Zielbildern in groben bis feinen Skalen, wobei sowohl lokale Wortaufmerksamkeit als auch globale Satzaufmerksamkeit genutzt werden, um schrittweise die Vielfalt und semantische Konsistenz der generierten Bilder zu verbessern. STREAM strebt an, die Textbeschreibung aus dem generierten Bild wiederzuerstellen, die semantisch mit der gegebenen Textbeschreibung übereinstimmt. Gründliche Experimente auf zwei öffentlichen Benchmark-Datensätzen zeigen die Überlegenheit von MirrorGAN gegenüber anderen repräsentativen state-of-the-art-Methoden.