HyperAIHyperAI
vor 3 Monaten

CFAT: Trianguläre Fenster für die Bild-Superresolution freisetzen

{Maheshkumar H. Kolekar, Gaurav Kumar, Abhisek Ray}
CFAT: Trianguläre Fenster für die Bild-Superresolution freisetzen
Abstract

Transformer-basierte Modelle haben das Feld der Bild-Super-Resolution (SR) revolutioniert, indem sie ihre inhärente Fähigkeit nutzen, komplexe kontextuelle Merkmale zu erfassen. Die aktuell in Transformer-Architekturen verwendete Technik des überlappenden rechteckigen verschobenen Fensters ist heute eine gängige Praxis in Super-Resolution-Modellen, um die Qualität und Robustheit der Bildvergrößerung zu verbessern. Allerdings leidet sie unter Verzerrungen an den Bildrändern und besitzt begrenzte einzigartige Verschiebemuster. Um diese Schwächen zu überwinden, schlagen wir eine nicht überlappende dreieckige Fenster-Technik vor, die synchron mit der rechteckigen Technik arbeitet, um Randverzerrungen zu reduzieren und dem Modell Zugang zu einer größeren Vielzahl einzigartiger Sifting-Modi zu ermöglichen. In diesem Artikel präsentieren wir einen Composite Fusion Attention Transformer (CFAT), der eine lokale Aufmerksamkeit basierend auf dreieckigen und rechteckigen Fenstern sowie eine kanalbasierte globale Aufmerksamkeitstechnik in der Bild-Super-Resolution integriert. Dadurch wird erreicht, dass Aufmerksamkeitsmechanismen auf eine größere Anzahl von Bildpixeln aktiviert werden können und langreichweitige, mehrskalige Merkmale erfasst werden, was die SR-Leistung signifikant verbessert. Die umfassenden experimentellen Ergebnisse sowie die Ablationsstudie belegen die Wirksamkeit von CFAT im Bereich der Super-Resolution. Unser vorgeschlagenes Modell erreicht gegenüber anderen state-of-the-art-SR-Architekturen eine signifikante Verbesserung um 0,7 dB.