Effiziente und explizite Modellierung von Bildhierarchien für die Bildrekonstruktion

Das Ziel dieses Papers besteht darin, einen Mechanismus vorzuschlagen, der hierarchische Strukturen in Bildern effizient und explizit im globalen, regionalen und lokalen Bereich für die Bildrekonstruktion modelliert. Dazu analysieren wir zunächst zwei wichtige Eigenschaften natürlicher Bilder: die Querskalen-Ähnlichkeit und anisotrope Bildmerkmale. Darauf aufbauend schlagen wir die „anchored stripe self-attention“ vor, die ein gutes Gleichgewicht zwischen Raum- und Zeitkomplexität der Self-Attention sowie der Modellierungskapazität über den regionalen Bereich hinaus erreicht. Anschließend präsentieren wir eine neue Netzarchitektur namens GRL, die mithilfe der anchored stripe self-attention, der window self-attention und der kanalverbesserten Faltung explizit Bildhierarchien im globalen, regionalen und lokalen Bereich modelliert. Schließlich wird das vorgeschlagene Netzwerk auf sieben Arten der Bildrekonstruktion angewendet, die sowohl reale als auch synthetische Szenarien abdecken. Die vorgeschlagene Methode erreicht neue State-of-the-Art-Ergebnisse für mehrere dieser Aufgaben. Der Quellcode wird unter https://github.com/ofsoundof/GRL-Image-Restoration.git verfügbar sein.