Perzeptuelle Extrem-Resolution-Netzwerk mit Rezeptivfeld-Block

Die perceptuelle extreme Super-Resolution für Einzelbilder ist äußerst herausfordernd, da die Texturen und Details zwischen verschiedenen Bildern erheblich variieren. Um dieser Schwierigkeit zu begegnen, entwickeln wir ein Super-Resolution-Netzwerk mit einem Rezeptivfeld-Block (Receptive Field Block, RFB), basierend auf dem verbesserten SRGAN. Wir bezeichnen unser Netzwerk als RFB-ESRGAN. Die zentralen Beiträge sind wie folgt: Erstens nutzen wir den Rezeptivfeld-Block (RFB), um informationsreiche, mehrskalige Merkmale zu extrahieren und die Unterscheidbarkeit der Merkmale zu verbessern. RFB hat bereits in der Objekterkennung und Klassifikation hervorragende Ergebnisse erzielt. Zweitens setzen wir in der mehrskaligen Rezeptivfeldstruktur statt großer Faltungs-Kerne mehrere kleine Kerne ein, wodurch wir feinere Merkmale extrahieren und gleichzeitig die Rechenkomplexität reduzieren können. Drittens wechseln wir in der Upsampling-Phase alternierend zwischen verschiedenen Upsampling-Methoden, um die Rechenlast weiter zu senken, ohne die Leistungsfähigkeit signifikant zu beeinträchtigen. Viertens kombinieren wir 10 Modelle, die mit unterschiedlichen Iterationen trainiert wurden, um die Robustheit des Modells zu erhöhen und das durch einzelne Modelle eingeführte Rauschen zu minimieren. Unsere experimentellen Ergebnisse belegen die herausragende Leistungsfähigkeit von RFB-ESRGAN. Laut den vorläufigen Ergebnissen der NTIRE 2020 Challenge zur perceptuellen extremer Super-Resolution belegt unsere Lösung den ersten Platz unter allen Teilnehmern.