HyperAIHyperAI
vor 17 Tagen

PPformer: Verwendung von pixel-weisem und patch-weisem Cross-Attention zur Verbesserung von Bildern bei schlechten Lichtverhältnissen

{X Qin, Y Zhong, J Dang}
Abstract

Kürzlich haben transformerbasierte Ansätze im Vergleich zu CNN-basierten Methoden bei der Aufgabe der Low-Light-Bildverbesserung starke Konkurrenz gezeigt, indem sie Selbst-Attention zur Merkmalsextraktion einsetzen. Transformerbasierte Methoden erzielen hervorragende Leistungen bei der Modellierung von langreichweitigen Pixel-Abhängigkeiten, die für eine verbesserte Beleuchtung, natürliche Farben und höhere Kontraste bei der Low-Light-Bildverbesserung entscheidend sind. Allerdings beschränkt die hohe Rechenkosten von Selbst-Attention die Entwicklung in diesem Bereich, während einige Ansätze Schwierigkeiten haben, ein Gleichgewicht zwischen Genauigkeit und Rechenaufwand zu finden. In dieser Arbeit stellen wir ein leichtgewichtiges und effektives Netzwerk namens PPformer vor, das auf einem neuartigen pixel- und patch-weisen Kreuz-Attention-Mechanismus basiert, für die Low-Light-Bildverbesserung. PPformer ist ein hybrides CNN-Transformer-Netzwerk, das in drei Teile unterteilt ist: Local-Branch, Global-Branch und Dual Cross-Attention. Jeder dieser Teile spielt eine entscheidende Rolle innerhalb des PPformer-Architektur. Speziell extrahiert der Local-Branch lokale Strukturmerkmale mittels einer Stapelung von Wide Enhancement Modules, während der Global-Branch durch den Cross Patch Module und den Global Convolution Module präzise globale Informationen liefert. Im Gegensatz zur Selbst-Attention nutzen wir hier extrahierte globale semantische Informationen, um die Modellierung von Abhängigkeiten zwischen lokalen und nicht-lokalen Regionen zu leiten. Durch die Berechnung der Dual Cross-Attention kann PPformer Bilder effektiv wiederherstellen, die eine bessere Farbkonsistenz, natürliche Helligkeit und Kontraste aufweisen. Dank des vorgeschlagenen Dual Cross-Attention-Mechanismus kann PPformer Abhängigkeiten sowohl auf Pixel- als auch auf Patch-Ebene effizient erfassen, wodurch eine vollständige Merkmalskarte umfassend verarbeitet wird. Umfangreiche Experimente auf elf realen Benchmark-Datensätzen zeigen, dass PPformer sowohl quantitativ als auch qualitativ bessere Ergebnisse erzielt als bisherige state-of-the-art-Methoden.