HyperAIHyperAI
vor 17 Tagen

Untersuchung der frequenzinspirierten Optimierung im Transformer für eine effiziente Einzelbild-Überauflösung

Ao Li, Le Zhang, Yun Liu, Ce Zhu
Untersuchung der frequenzinspirierten Optimierung im Transformer für eine effiziente Einzelbild-Überauflösung
Abstract

Transformer-basierte Methoden haben bei der Einzelbild-Überauflösung (Single Image Super-Resolution, SISR) ein hohes Potenzial durch die effektive Erfassung von langreichweitigen Abhängigkeiten demonstriert. Allerdings haben die meisten aktuellen Forschungsarbeiten in diesem Bereich den Fokus auf die Gestaltung von Transformer-Blöcken zur Erfassung globaler Informationen gelegt, während die Bedeutung der Integration von Hochfrequenz-Priorisierungen vernachlässigt wurde, die wir für von Vorteil halten. In unserer Studie führten wir eine Reihe von Experimenten durch und stellten fest, dass Transformer-Strukturen besser geeignet sind, Niederfrequenzinformationen zu erfassen, jedoch im Vergleich zu konvolutionellen Ansätzen eine begrenzte Kapazität zur Konstruktion von Hochfrequenzdarstellungen aufweisen. Unser vorgeschlagener Ansatz, der cross-refinement adaptive feature modulation Transformer (CRAFT), vereint die Stärken beider Architekturen – konvolutioneller und Transformer-Strukturen. Er besteht aus drei zentralen Komponenten: dem High-Frequency Enhancement Residual Block (HFERB) zur Extraktion von Hochfrequenzinformationen, dem Shift Rectangle Window Attention Block (SRWAB) zur Erfassung globaler Informationen sowie dem Hybrid Fusion Block (HFB) zur Verfeinerung der globalen Darstellung. Um die inhärenten Schwierigkeiten von Transformer-Strukturen zu bewältigen, führen wir eine frequenzgeleitete Post-Training-Quantisierung (PTQ)-Methode ein, die darauf abzielt, die Effizienz von CRAFT zu verbessern. Diese Strategie integriert adaptive doppelte Clipping-Techniken und eine Verbesserung der Grenzverläufe. Um die Vielseitigkeit unseres Ansatzes weiter zu steigern, erweitern wir unsere PTQ-Strategie zu einer allgemeingültigen Quantisierungsmethode für transformerbasierte SISR-Verfahren. Unsere experimentellen Ergebnisse belegen die Überlegenheit von CRAFT gegenüber aktuellen state-of-the-art-Methoden – sowohl in voller Präzision als auch bei quantisierten Szenarien. Diese Ergebnisse unterstreichen die Wirksamkeit und Allgemeingültigkeit unserer PTQ-Strategie. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/AVC2-UESTC/Frequency-Inspired-Optimization-for-EfficientSR.git.