HyperAIHyperAI
vor 17 Tagen

Verbesserung von Augmentations- und Evaluierungsschemata für die semantische Bildsynthese

Prateek Katiyar, Anna Khoreva
Verbesserung von Augmentations- und Evaluierungsschemata für die semantische Bildsynthese
Abstract

Trotz der Tatsache, dass Datenaugmentation eine etablierte Technik zur Steigerung der Leistung von tiefen neuronalen Netzwerken ist, wurde bisher wenig Aufmerksamkeit darauf verwendet, Augmentierungsstrategien für generative adversarische Netzwerke (GANs) zu entwickeln. Um dieses Defizit zu beheben, stellen wir ein neuartiges Augmentierungsschema vor, das speziell für semantische Bildsynthesemodelle basierend auf GANs konzipiert wurde. Wir schlagen vor, Objektgeometrien in den semantischen Etikettenkarten, die als Eingabe für den Generator dienen, zufällig zu verzerren. Die lokalen geometrischen Abweichungen zwischen den verzerrten und den unverzerrten Etikettenkarten sowie den entsprechenden Bildern ermöglichen es der GAN, strukturelle und geometrische Details der Szenen besser zu erlernen, wodurch die Qualität der generierten Bilder verbessert wird. Bei der Bewertung der augementierten GAN-Modelle gegenüber ihren ursprünglichen (vanilla) Versionen stellen wir fest, dass die in früheren Studien zur semantischen Bildsynthese verwendeten Quantifizierungsmaße stark gegenüber bestimmten semantischen Klassen verzerrt sind, da sie über ein extern vortrainiertes Segmentierungsnetzwerk abgeleitet werden. Daher schlagen wir vor, das etablierte Bewertungsschema für semantische Bildsynthese zu verbessern, indem die Leistung der generierten Bilder getrennt für die verzerrten und die unverzerrten Klassen des gegebenen Segmentierungsnetzwerks analysiert wird. Schließlich zeigen wir erhebliche quantitative und qualitative Verbesserungen durch unser Augmentierungsschema, sowohl für die klassenspezifischen Aufteilungen, unter Verwendung von State-of-the-Art-Modellen zur semantischen Bildsynthese auf drei unterschiedlichen Datensätzen. Im Durchschnitt über die Datensätze COCO-Stuff, ADE20K und Cityscapes übertreffen die augementierten Modelle ihre vanilla-Gegenstücke um etwa 3 mIoU und etwa 10 FID-Punkte.