Kreuzsichtbildsynthese mit bedingten GANs

Das Lernen der Generierung natürlicher Szenen ist seit jeher eine herausfordernde Aufgabe im Bereich der Computer Vision. Es wird noch mühseliger, wenn die Generierung auf Bilder mit stark unterschiedlichen Ansichten konditioniert ist. Dies liegt hauptsächlich daran, dass das Verstehen, Zuordnen und Transformieren von Erscheinungs- und semantischen Informationen über die Ansichten hinweg nicht trivial ist. In dieser Arbeit versuchen wir das neuartige Problem der cross-view-Bildsynthese zu lösen, sowohl von Luftbildern zu Straßensichtbildern als auch umgekehrt, unter Verwendung bedingter generativer adversarischer Netze (cGAN). Wir schlagen zwei neue Architekturen vor: Crossview Fork (X-Fork) und Crossview Sequential (X-Seq), um Szenen mit Auflösungen von 64x64 und 256x256 Pixeln zu generieren.Die X-Fork-Architektur verfügt über einen einzelnen Diskriminator und einen einzelnen Generator. Der Generator erzeugt sowohl das Bild als auch dessen semantische Segmentierung in der Zielansicht. Die X-Seq-Architektur nutzt zwei cGANs. Das erste erzeugt das Zielbild, welches anschließend dem zweiten cGAN zur Verfügung gestellt wird, um dessen entsprechende semantische Segmentierungskarte zu generieren. Das Feedback des zweiten cGAN hilft dem ersten cGAN, schärfere Bilder zu erzeugen. Beide vorgeschlagenen Architekturen lernen, natürliche Bilder sowie deren semantische Segmentierungskarten zu generieren.Die vorgestellten Methoden zeigen, dass sie in der Lage sind, die tatsächliche Semantik von Objekten in Quell- und Zielansichten besser zu erfassen und beizubehalten als traditionelle Bild-zu-Bild-Übersetzungsmethoden, die nur die visuelle Erscheinung der Szene berücksichtigen. Umfangreiche qualitative und quantitative Bewertungen bestätigen die Effektivität unserer Frameworks im Vergleich zu zwei Stand-of-the-Art-Methoden für die Generierung natürlicher Szenen bei stark unterschiedlichen Ansichten.