HyperAIHyperAI
vor 17 Tagen

Rekursiver Generalisierungs-Transformer für die Bild-Super-Resolution

Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang
Rekursiver Generalisierungs-Transformer für die Bild-Super-Resolution
Abstract

Transformer-Architekturen haben eine bemerkenswerte Leistung in der Bild-Super-Resolution (SR) gezeigt. Aufgrund der quadratischen Rechenkomplexität der Selbst-Attention (SA) in Transformer neigen bestehende Ansätze dazu, die Selbst-Attention auf lokale Regionen zu beschränken, um den Rechenaufwand zu reduzieren. Dieser lokale Entwurf beschränkt jedoch die Ausnutzung globaler Kontextinformationen, die für eine präzise Bildrekonstruktion entscheidend sind. In dieser Arbeit stellen wir den Recursive Generalization Transformer (RGT) für die Bild-Super-Resolution vor, der in der Lage ist, globale räumliche Informationen zu erfassen und sich besonders gut für hochauflösende Bilder eignet. Konkret schlagen wir die rekursive Generalisierungs-Selbst-Attention (RG-SA) vor. Diese aggregiert Eingabedaten rekursiv zu repräsentativen Merkmalskarten und nutzt anschließend Cross-Attention, um globale Informationen zu extrahieren. Gleichzeitig werden die Kanaldimensionen der Aufmerksamkeitsmatrizen (Query, Key und Value) weiter skaliert, um die Redundanz im Kanaldomäne zu verringern. Darüber hinaus kombinieren wir die RG-SA mit lokaler Selbst-Attention, um die Ausnutzung globaler Kontextinformationen zu verbessern, und schlagen die hybride adaptive Integration (HAI) zur Modulintegration vor. Die HAI ermöglicht eine direkte und effektive Fusion von Merkmalen unterschiedlicher Ebenen (lokal oder global). Umfangreiche Experimente zeigen, dass unser RGT sowohl quantitativ als auch qualitativ gegenwärtige state-of-the-art-Methoden übertrifft. Der Quellcode und vortrainierte Modelle sind unter https://github.com/zhengchen1999/RGT verfügbar.