ML-CrAIST: Multi-scale Low-high Frequency Information-based Cross-Black Attention mit Image Super-Resolving Transformer

In jüngster Zeit haben Transformers erhebliches Interesse in der Forschung zu Einzelbild-Super-Resolution-Aufgaben geweckt und dabei erhebliche Leistungssteigerungen erzielt. Aktuelle Modelle beruhen stark auf der Fähigkeit des Netzwerks, hochwertige semantische Details aus Bildern zu extrahieren, während die effektive Nutzung von Multi-Skalen-Bilddetails und Zwischendaten innerhalb des Netzwerks oft vernachlässigt wird. Darüber hinaus hat sich gezeigt, dass hochfrequente Bereiche in Bildern im Vergleich zu niederfrequenten Bereichen eine erheblich größere Komplexität für die Super-Resolution darstellen. In dieser Arbeit wird ein auf Transformers basierendes Super-Resolution-Architekturmodell namens ML-CrAIST vorgestellt, das diese Lücke schließt, indem es Informationen aus niedrigen und hohen Frequenzen auf mehreren Skalen nutzt. Im Gegensatz zu den meisten vorherigen Ansätzen (entweder räumlich oder kanalbasiert) führen wir sowohl räumliche als auch kanalbasierte Selbst-Attention durch, die gleichzeitig die Wechselwirkungen zwischen Pixeln in räumlicher als auch kanalbasierten Dimensionen modellieren und somit die inhärenten Korrelationen entlang beider Achsen ausnutzen. Darüber hinaus entwickeln wir einen Cross-Attention-Block speziell für die Super-Resolution, der die Korrelationen zwischen niedrigen und hohen Frequenzinformationen untersucht. Quantitative und qualitative Bewertungen zeigen, dass das vorgeschlagene ML-CrAIST state-of-the-art Super-Resolution-Methoden übertrifft (z. B. ein Gewinn von 0,15 dB bei Manga109 ×4). Der Quellcode ist verfügbar unter: https://github.com/Alik033/ML-CrAIST.