HyperAIHyperAI
vor 17 Tagen

DF-GAN: Ein einfacher und effektiver Baseline für die Text-zu-Bild-Synthese

Ming Tao, Hao Tang, Fei Wu, Xiao-Yuan Jing, Bing-Kun Bao, Changsheng Xu
DF-GAN: Ein einfacher und effektiver Baseline für die Text-zu-Bild-Synthese
Abstract

Die Synthese hochwertiger, realistischer Bilder aus Textbeschreibungen ist eine anspruchsvolle Aufgabe. Bestehende Text-zu-Bild-Generative Adversarial Networks (GANs) verwenden typischerweise eine gestapelte Architektur als Grundgerüst, weisen jedoch drei wesentliche Schwächen auf. Erstens führt die gestapelte Architektur zu Verflechtungen zwischen Generatoren unterschiedlicher Bildskalen. Zweitens bevorzugen bisherige Studien, zusätzliche Netzwerke in den adversarialen Lernprozess einzubinden und diese festzulegen, um die semantische Konsistenz zwischen Text und Bild zu gewährleisten – dies beschränkt jedoch die Überwachungskapazität dieser Netzwerke. Drittens ist die in früheren Arbeiten weit verbreitete cross-modal-Attention-basierte Text-Bild-Fusion auf bestimmten speziellen Bildskalen eingeschränkt, da sie aufgrund des hohen Rechenaufwands nicht effizient anwendbar ist. Um diese Probleme zu lösen, schlagen wir ein einfacheres, jedoch leistungsfähigeres Deep Fusion Generative Adversarial Network (DF-GAN) vor. Konkret stellen wir folgende Innovationen vor: (i) einen neuartigen einstufigen Text-zu-Bild-Backbone, der hochauflösende Bilder direkt ohne Verflechtungen zwischen verschiedenen Generatoren synthetisiert; (ii) einen neuartigen zielorientierten Diskriminator, bestehend aus einem Matching-Aware Gradient Penalty und einem One-Way Output, der die semantische Konsistenz zwischen Text und Bild verbessert, ohne zusätzliche Netzwerke einzuführen; (iii) einen neuartigen tiefen Text-Bild-Fusionsblock, der den Fusionsprozess vertieft, um eine vollständige Integration von Text- und visuellen Merkmalen zu ermöglichen. Im Vergleich zu aktuellen State-of-the-Art-Methoden ist unser vorgeschlagenes DF-GAN einfacher, effizienter und erzielt bessere Ergebnisse bei der Synthese realistischer, text-konsistenter Bilder auf weit verbreiteten Datensätzen.