Freischalten vortrainierter Bildbackbones für semantische Bildsynthese

Semantische Bildsynthese, also die Erzeugung von Bildern aus vom Benutzer bereitgestellten semantischen Labelkarten, ist eine wichtige bedingte Bildgenerierungsaufgabe, da sie sowohl die Inhaltsstruktur als auch die räumliche Anordnung der generierten Bilder kontrollieren ermöglicht. Obwohl Diffusionsmodelle den Stand der Technik in der generativen Bildmodellierung vorangetrieben haben, sind ihre iterativen Inferenzprozesse rechenintensiv. Andere Ansätze wie GANs sind effizienter, da sie für die Generierung lediglich einen einzigen Feed-Forward-Durchlauf benötigen, doch die Bildqualität leidet oft auf großen und vielfältigen Datensätzen. In dieser Arbeit stellen wir eine neue Klasse von GAN-Diskriminatoren für die semantische Bildsynthese vor, die hochrealistische Bilder erzeugt, indem sie Feature-Backbone-Netzwerke ausnutzt, die für Aufgaben wie Bildklassifikation vortrainiert wurden. Außerdem führen wir eine neue Generatorarchitektur ein, die eine verbesserte Kontextmodellierung ermöglicht und cross-Attention nutzt, um Rauschen in latente Variablen einzuspeisen, was zu vielfältigeren generierten Bildern führt. Unser Modell, das wir DP-SIMS nennen, erreicht auf den Datensätzen ADE-20K, COCO-Stuff und Cityscapes state-of-the-art Ergebnisse hinsichtlich Bildqualität und Konsistenz mit den Eingabelabelkarten und übertrifft dabei jüngere Diffusionsmodelle, während es für die Inferenz zwei Größenordnungen weniger Rechenleistung erfordert.