Kanalpartionierte fensterbasierte Aufmerksamkeit und Frequenzlernen für die Einzelbild-Überauflösung

Kürzlich haben window-basierte Aufmerksamkeitsmethoden ein großes Potenzial für Aufgaben im Bereich des Computer Vision gezeigt, insbesondere bei der Single Image Super-Resolution (SISR). Dennoch erweisen sie sich als eingeschränkt hinsichtlich der Erfassung von langreichweitigen Abhängigkeiten und Beziehungen zwischen entfernten Tokens. Zudem stellen wir fest, dass das Lernen im räumlichen Domain nicht die Frequenzinhalte eines Bildes vermittelt, was ein entscheidender Aspekt bei der SISR darstellt. Um diese Herausforderungen zu bewältigen, schlagen wir einen neuen Channel-Partitioned Attention Transformer (CPAT) vor, der langreichweitige Abhängigkeiten durch sequenzielle Erweiterung der Fenster entlang der Höhe und Breite von Feature-Maps effektiver erfassen kann. Zusätzlich führen wir ein neuartiges Spatial-Frequency Interaction Module (SFIM) ein, das Informationen aus räumlicher und frequenzbasierter Domäne integriert, um eine umfassendere Information aus den Feature-Maps bereitzustellen. Dies beinhaltet insbesondere Informationen über den Frequenzinhalt und erweitert die Rezeptivfeldgröße über das gesamte Bild hinweg. Experimentelle Ergebnisse belegen die Wirksamkeit der vorgeschlagenen Module und Architektur. Insbesondere übertrifft CPAT bestehende State-of-the-Art-Methoden bei der x2-Super-Resolution auf dem Urban100-Datensatz um bis zu 0,31 dB.