Bildsynthese aus umkonfigurierbaren Layouts und Stilen
Trotz bemerkenswerter Fortschritte bei der bedingten und unbedingten Bildsynthese bleibt es ein langjähriges Problem, generative Modelle zu erlernen, die in der Lage sind, realistische und scharfe Bilder aus einem umkonfigurierbaren räumlichen Layout (d.h., Begrenzungsrahmen + Klassenlabels in einem Bildgitter) und Stil (d.h., strukturelle und äußere Variationen, die durch latente Vektoren kodiert sind), insbesondere in hoher Auflösung, zu synthetisieren. Unter umkonfigurierbar ist hierbei zu verstehen, dass ein Modell die intrinsische Eins-zu-Viele-Abbildung von einem gegebenen Layout auf mehrere plausible Bilder mit unterschiedlichen Stilen beibehalten kann und sich anpasst, wenn das Layout oder der latente Stilcode gestört werden. In dieser Arbeit stellen wir eine layout- und stilbasierte Architektur für generative adversarische Netze vor (als LostGANs bezeichnet), die end-to-end trainiert werden kann, um Bilder aus einem umkonfigurierbaren Layout und Stil zu generieren. Inspiriert von dem klassischen StyleGAN besteht das vorgeschlagene LostGAN aus zwei neuen Komponenten: (i) das lernen feinkörniger Maskenkarten auf schwach überwachte Weise, um die Lücke zwischen Layouts und Bildern zu schließen, und (ii) das lernen objektspezifischer, layoutbewusster Merkmalsnormalisierung (ISLA-Norm) im Generator zur Realisierung der Multi-Objekt-Stilgenerierung. In Experimenten wird die vorgeschlagene Methode anhand des COCO-Stuff-Datensatzes und des Visual Genome-Datensatzes getestet, wobei Stand-der-Technik-Ergebnisse erzielt werden. Der Code und die vorab trainierten Modelle sind unter \url{https://github.com/iVMCL/LostGANs} verfügbar.