HyperAIHyperAI
vor 2 Monaten

StackGAN: Text-zu-foto-realistische Bildsynthese mit gestapelten generativen adversären Netzen

Han Zhang; Tao Xu; Hongsheng Li; Shaoting Zhang; Xiaogang Wang; Xiaolei Huang; Dimitris Metaxas
StackGAN: Text-zu-foto-realistische Bildsynthese mit gestapelten generativen adversären Netzen
Abstract

Die Synthese hochwertiger Bilder aus Textbeschreibungen ist ein anspruchsvolles Problem im Bereich der Computer Vision und hat zahlreiche praktische Anwendungen. Die von bestehenden Text-zu-Bild-Ansätzen generierten Beispiele können die Bedeutung der gegebenen Beschreibungen grob widerspiegeln, enthalten jedoch oft notwendige Details und lebendige Objekteile nicht. In dieser Arbeit schlagen wir Stacked Generative Adversarial Networks (StackGAN) vor, um 256x256 foto-realistiche Bilder unter Berücksichtigung von Textbeschreibungen zu generieren. Wir zerlegen das schwierige Problem durch einen Sketch-Verfeinerungsprozess in handhabbarere Teilprobleme. Das Stage-I-GAN erstellt basierend auf der gegebenen Textbeschreibung eine Skizze mit den grundlegenden Formen und Farben des Objekts, wodurch niedrig-auflösende Stage-I-Bilder entstehen. Das Stage-II-GAN nimmt die Ergebnisse von Stage I sowie die Textbeschreibungen als Eingaben entgegen und erzeugt hochauflösende Bilder mit foto-realistischen Details. Es ist in der Lage, Mängel in den Ergebnissen von Stage I zu korrigieren und durch den Verfeinerungsprozess überzeugende Details hinzuzufügen. Um die Vielfalt der synthetisierten Bilder zu erhöhen und das Training des bedingten GANs zu stabilisieren, führen wir eine neuartige Technik namens Conditioning Augmentation ein, die eine Glättung des latenten konditionierenden Manifolds fördert. Ausführliche Experimente und Vergleiche mit dem Stand der Technik auf Benchmark-Datensätzen zeigen, dass das vorgeschlagene Verfahren erhebliche Verbesserungen bei der Generierung foto-realistischer Bilder unter Berücksichtigung von Textbeschreibungen erreicht.

StackGAN: Text-zu-foto-realistische Bildsynthese mit gestapelten generativen adversären Netzen | Neueste Forschungsarbeiten | HyperAI