HyperAIHyperAI
vor 2 Monaten

Fotografische Bildsynthese mit kaskadierten Verfeinerungsnetzwerken

Qifeng Chen; Vladlen Koltun
Fotografische Bildsynthese mit kaskadierten Verfeinerungsnetzwerken
Abstract

Wir präsentieren einen Ansatz zur Synthese fotografischer Bilder unter Berücksichtigung semantischer Layouts. Gegeben eine semantische Labelkarte, erzeugt unser Ansatz ein Bild mit fotografischem Erscheinungsbild, das dem Eingabelayout entspricht. Der Ansatz funktioniert somit als Rendering-Engine, die eine zweidimensionale semantische Spezifikation der Szene entgegennimmt und ein entsprechendes fotografisches Bild erzeugt. Im Gegensatz zu aktuellen und zeitgleich durchgeführten Arbeiten basiert unser Ansatz nicht auf einem adversären Training. Wir zeigen, dass photographische Bilder aus semantischen Layouts durch ein einzelnes Feedforward-Netzwerk mit angemessener Struktur synthetisiert werden können, das von Anfang bis Ende mit einem direkten Regressionsziel trainiert wird. Der vorgestellte Ansatz skaliert nahtlos auf hohe Auflösungen; dies demonstrieren wir durch die Synthese von photographischen Bildern in 2-Megapixel-Auflösung, der vollständigen Auflösung unserer Trainingsdaten. Umfangreiche wahrnehmungsbezogene Experimente an Datensätzen von außen- und innenräumlichen Szenen zeigen, dass die durch den vorgestellten Ansatz synthetisierten Bilder erheblich realistischer sind als alternative Ansätze. Die Ergebnisse werden im ergänzenden Video unter https://youtu.be/0fhUJT21-bs dargestellt.