U-GAT-IT: Unüberwachte Generative Aufmerksamkeitsnetze mit anpassbarer Schicht-Instanznormalisierung für Bild-zu-Bild-Übersetzung

Wir schlagen eine neuartige Methode für die unüberwachte Bild-zu-Bild-Übersetzung vor, die ein neues Aufmerksamkeitsmodul und eine neue lernbare Normalisierungsfunktion in einem end-to-end-Prozess integriert. Das Aufmerksamkeitsmodul leitet unser Modell an, sich auf wichtige Bereiche zu konzentrieren, die zwischen den Quell- und Zieldomains unterschieden werden, basierend auf der durch den Hilfsklassifizierer erzielten Aufmerksamkeitskarte. Im Gegensatz zu früheren aufmerksamkeit-basierten Methoden, die geometrische Veränderungen zwischen Domains nicht behandeln können, ist unser Modell in der Lage, sowohl Bilder mit umfassenden Änderungen als auch Bilder mit großen Formveränderungen zu übersetzen. Darüber hinaus hilft unsere neue AdaLIN-Funktion (Adaptive Layer-Instance Normalization) unserem aufmerksamkeitgesteuerten Modell, die Menge der Veränderungen in Form und Textur flexibel durch gelernte Parameter abhängig von den Datensätzen zu steuern. Experimentelle Ergebnisse zeigen die Überlegenheit der vorgeschlagenen Methode im Vergleich zu bestehenden state-of-the-art-Modellen mit fester Netzwerkarchitektur und Hyperparametern. Unser Code und unsere Datensätze sind unter https://github.com/taki0112/UGATIT oder https://github.com/znxlwm/UGATIT-pytorch verfügbar.