Aktivierung weiterer Pixel in Image Super-Resolution Transformer

Transformer-basierte Methoden haben eine beeindruckende Leistung bei Aufgaben des Low-Level Vision, wie beispielsweise der Bild-Super-Resolution, gezeigt. Allerdings stellen wir durch Attribution-Analysen fest, dass diese Netzwerke nur einen begrenzten räumlichen Bereich der Eingabedaten nutzen können. Dies deutet darauf hin, dass das Potenzial von Transformers in bestehenden Architekturen noch nicht vollständig ausgeschöpft ist. Um mehr Eingabepixel für eine verbesserte Rekonstruktion zu aktivieren, schlagen wir einen neuartigen Hybrid Attention Transformer (HAT) vor. Dieser kombiniert sowohl Kanal-Attention- als auch fensterbasierte Self-Attention-Strukturen, wodurch die komplementären Vorteile genutzt werden: die Nutzung globaler Statistiken sowie die starke Fähigkeit zur lokalen Anpassung. Darüber hinaus führen wir ein überlappendes Cross-Attention-Modul ein, um die Aggregation von Informationen zwischen benachbarten Fenstern zu verbessern und die Interaktion zwischen den Fenster-Features zu verstärken. Im Trainingsprozess wenden wir zusätzlich eine same-task-Vortrainingsstrategie an, um das Potenzial des Modells weiter zu erschließen. Umfangreiche Experimente belegen die Wirksamkeit der vorgeschlagenen Module, und durch eine Skalierung des Modells demonstrieren wir, dass die Leistung dieser Aufgabe erheblich gesteigert werden kann. Unser Gesamtansatz übertrifft die derzeitigen State-of-the-Art-Methoden signifikant um mehr als 1 dB. Der Quellcode und die Modelle sind unter https://github.com/XPixelGroup/HAT verfügbar.