Perzeptive Verluste für Echtzeit-Stilübertragung und Super-Auflösung

Wir betrachten Bildtransformationsprobleme, bei denen ein Eingangsbild in ein Ausgangsbild transformiert wird. Aktuelle Methoden für solche Probleme trainieren in der Regel feed-forward konvolutionsneuronale Netze unter Verwendung eines \emph{pixelbasierten} Verlustes zwischen den Ausgabe- und Ground-Truth-Bildern. Parallele Arbeiten haben gezeigt, dass hochwertige Bilder durch die Definition und Optimierung von \emph{perzeptuellen} Verlustfunktionen erzeugt werden können, die auf hochstufigen Merkmalen basieren, die aus vortrainierten Netzen extrahiert werden. Wir kombinieren die Vorteile beider Ansätze und schlagen die Verwendung von perzeptuellen Verlustfunktionen zum Trainieren von feed-forward Netzen für Bildtransformationsaufgaben vor. Wir präsentieren Ergebnisse im Bereich des Bildstilvertransfers, bei dem ein feed-forward Netzwerk trainiert wird, um das von Gatys et al. vorgeschlagene Optimierungsproblem in Echtzeit zu lösen. Im Vergleich zur optimierungsbasierten Methode liefert unser Netzwerk ähnliche qualitative Ergebnisse, ist aber um drei Größenordnungen schneller. Darüber hinaus experimentieren wir mit der Super-Resolution einzelner Bilder, wobei das Ersetzen eines pixelbasierten Verlustes durch einen perzeptuellen Verlust visuell ansprechende Ergebnisse liefert.