Flexible Style Image Super-Resolution unter Verwendung eines bedingten Ziels

Neuere Studien haben die Leistungsfähigkeit der Einzelbild-Super-Resolution (SR) mithilfe von Faltungsneuralen Netzen (CNNs) erheblich verbessert. Während für ein gegebenes Eingabebild viele mögliche hochauflösende (HR) Lösungen existieren, untersuchen die meisten bestehenden CNN-basierten Methoden während der Inferenz keine alternativen Lösungen. Ein typischer Ansatz zur Erzeugung alternativer SR-Ergebnisse besteht darin, mehrere SR-Modelle mit unterschiedlichen Verlustgewichtungen zu trainieren und diese Modelle kombiniert zu nutzen. Anstelle der Verwendung mehrerer Modelle präsentieren wir eine effizientere Methode, ein einzelnes anpassbares SR-Modell auf verschiedenen Kombinationen von Verlustfunktionen durch Ausnutzung des Multi-Task-Lernens zu trainieren. Konkret optimieren wir ein SR-Modell während des Trainings mit einem bedingten Ziel, wobei dieses Ziel eine gewichtete Summe mehrerer perceptueller Verluste auf verschiedenen Merkmalsstufen darstellt. Die Gewichte variieren je nach vorgegebenen Bedingungen, und der Satz der Gewichte wird als Stil-Controller bezeichnet. Außerdem stellen wir eine Architektur vor, die für diesen Trainingsansatz geeignet ist: den Residual-in-Residual Dense Block, ausgestattet mit räumlichen Merkmalstransformationslagen. Während der Inferenz kann unser trainiertes Modell lokal unterschiedliche Ausgaben erzeugen, bedingt durch eine Stil-Steuerkarte. Umfangreiche Experimente zeigen, dass das vorgeschlagene SR-Modell verschiedene wünschenswerte Rekonstruktionen ohne Artefakte erzeugt und eine vergleichbare quantitative Leistung im Vergleich zu aktuellen State-of-the-Art-Methoden erreicht.