Lokale klassenspezifische und globale bildlevelbasierte generative adversariale Netzwerke für semantikgesteuerte Szenengenerierung

In diesem Artikel behandeln wir die Aufgabe der semantikgesteuerten Szenenerzeugung. Eine offene Herausforderung bei der Szenenerzeugung ist die Schwierigkeit, kleine Objekte und detaillierte lokale Texturen zu generieren, was in globalen Bildniveau-Generierungsmethoden weit verbreitet beobachtet wurde. Um dieses Problem anzugehen, betrachten wir in dieser Arbeit die Lernung der Szenenerzeugung im lokalen Kontext und entwerfen entsprechend ein lokales, klassenspezifisches generatives Netzwerk, das semantische Karten als Leitfaden nutzt. Dieses Netzwerk konstruiert und lernt separate Sub-Generatoren, die jeweils auf die Generierung unterschiedlicher Klassen fokussiert sind, und ermöglicht somit eine detailliertere Szenenrepräsentation. Um diskriminativere, klassenspezifische Merkmalsdarstellungen für die lokale Generierung zu erlernen, wird außerdem ein neuartiger Klassifikationsmodul vorgeschlagen. Um die Vorteile sowohl der globalen Bildniveau- als auch der lokalen klassenspezifischen Generierung zu kombinieren, wird ein gemeinsames Generierungsnetzwerk mit einem Aufmerksamkeitsfusionmodul und einer Dual-Discriminator-Struktur entworfen. Umfangreiche Experimente auf zwei Szenenbildgenerierungsaufgaben zeigen die überlegene Generierungseffizienz des vorgeschlagenen Modells. Die erreichten Ergebnisse übersteigen die bisherigen State-of-the-Art-Werte auf beiden Aufgaben und auf anspruchsvollen öffentlichen Benchmarks deutlich. Der Quellcode und die trainierten Modelle sind unter https://github.com/Ha0Tang/LGGAN verfügbar.