vor 2 Monaten

Interaktive Bildsynthese mit Panoptischer Layoutgenerierung

Wang, Bo ; Wu, Tao ; Zhu, Minfeng ; Du, Peng

Abstract

Die interaktive Bildsynthese auf der Grundlage nutzergesteuerter Eingaben ist eine herausfordernde Aufgabe, wenn Benutzer die Szenenstruktur eines generierten Bildes einfach steuern möchten. Obwohl bei ansatzbasierten Methoden für die Bildsynthese aus Layouts erhebliche Fortschritte gemacht wurden, erfordern bestehende Verfahren zur Erstellung realistischer künstlicher Bilder in interaktiven Szenen hochpräzise Eingaben, die möglicherweise mehrfach angepasst werden müssen und für Anfängerbenutzer unbenutzerfreundlich sind. Bei Störungen in der Platzierung von Begrenzungsboxen leiden layoutbasierte Modelle an „fehlenden Bereichen“ in den erstellten semantischen Layouts und damit verbunden unerwünschten Artefakten in den generierten Bildern. In dieser Arbeit schlagen wir Panoptische Layout Generative Adversarial Networks (PLGAN) vor, um diese Herausforderung zu bewältigen. Die PLGAN setzt die panoptische Theorie ein, die zwischen Objektkategorien mit amorphen Rändern („Stuff“) und solchen mit gut definierten Formen („Things“) unterscheidet, sodass „Stuff“- und Instanz-Layouts durch separate Zweige konstruiert und anschließend zu panoptischen Layouts fusioniert werden. Insbesondere können die „Stuff“-Layouts amorpe Formen annehmen und die durch die Instanz-Layouts entstandenen fehlenden Bereiche ausfüllen. Wir vergleichen experimentell unsere PLGAN mit den neuesten layoutbasierten Modellen auf den Datensätzen COCO-Stuff, Visual Genome und Landscape. Die Vorteile der PLGAN werden nicht nur visuell demonstriert, sondern auch quantitativ verifiziert hinsichtlich des Inception-Scores, der Fréchet-Inception-Distanz, der Klassifikationsgenauigkeit und des Coverage-Werts.