Lernen, Was und Wo zu Zeichnen

Generative Adversarial Networks (GANs) haben kürzlich die Fähigkeit gezeigt, überzeugende realistische Bilder wie Inneneinrichtungen, Album-Covers, Manga, Gesichter, Vögel und Blumen zu synthetisieren. Obwohl bestehende Modelle in der Lage sind, Bilder auf Grundlage globaler Restriktionen wie einer Klassenbezeichnung oder einer Bildunterschrift zu erzeugen, bieten sie keine Kontrolle über Haltung oder Objektstandort. Wir schlagen ein neues Modell vor, das Generative Adversarial What-Where Network (GAWWN), welches Bilder unter Berücksichtigung von Anweisungen synthetisiert, die beschreiben, welchen Inhalt an welchem Standort gezeichnet werden soll. Wir präsentieren hochwertige 128 x 128 Bildsynthesen am Beispiel des Caltech-UCSD Birds-Datensatzes, bedingt sowohl durch informelle Textbeschreibungen als auch durch Objektstandorte. Unser System ermöglicht es, sowohl die Begrenzungsbox um den Vogel als auch seine einzelnen Teile zu steuern. Durch die Modellierung der bedingten Verteilungen über Teilstandorte ermöglicht unser System auch die Bedingung auf beliebige Teilmengen von Teilen (z.B. nur Schnabel und Schwanz), was eine effiziente Schnittstelle für die Auswahl von Teilstandorten bietet. Zudem zeigen wir vorläufige Ergebnisse im anspruchsvolleren Bereich der text- und standortgesteuerten Synthese von Bildern menschlicher Aktivitäten am Beispiel des MPII Human Pose-Datensatzes.