Mehrkanal-Aufmerksamkeitsselektion-GAN mit kaskadiertem semantischen Leitungs für die cross-view Bildübersetzung

Die Übersetzung von Bildern zwischen verschiedenen Blickwinkeln ist herausfordernd, da sie Bilder mit erheblich unterschiedlichen Sichtweisen und schweren Verformungen umfasst. In dieser Arbeit schlagen wir einen neuen Ansatz vor, den Multi-Channel Attention SelectionGAN (SelectionGAN), der es ermöglicht, Bilder von natürlichen Szenen aus beliebigen Perspektiven zu generieren, basierend auf einem Bild der Szene und einer neuen semantischen Karte. Der vorgeschlagene SelectionGAN nutzt die semantische Information explizit und besteht aus zwei Stufen. In der ersten Stufe werden das Eingangs-Bild und die Ziel-semantische Karte in ein zyklisches, semantikgesteuertes Generativen Netzwerk eingespeist, um anfängliche grobe Ergebnisse zu produzieren. In der zweiten Stufe verfeinern wir die anfänglichen Ergebnisse durch Anwendung eines mehrkanaligen Aufmerksamkeitsselektionsmechanismus. Darüber hinaus werden Unsicherheitskarten, die automatisch aus den Aufmerksamkeitswerten gelernt werden, verwendet, um den Pixelverlust zu steuern und eine bessere Netzwerkoptimierung zu erreichen. Ausführliche Experimente auf den Datensätzen Dayton, CVUSA und Ego2Top zeigen, dass unser Modell deutlich bessere Ergebnisse als die bislang besten Methoden erzielt. Der Quellcode, die Daten und die trainierten Modelle sind unter https://github.com/Ha0Tang/SelectionGAN verfügbar.