HyperAIHyperAI
vor 10 Tagen

LoFormer: Local Frequency Transformer für die Bildentunschärfung

Xintian Mao, Jiansheng Wang, Xingran Xie, Qingli Li, Yan Wang
LoFormer: Local Frequency Transformer für die Bildentunschärfung
Abstract

Aufgrund der rechnerischen Komplexität des Self-Attention (SA) greifen verbreitete Techniken zur Bildentschärfung häufig entweder auf lokal begrenzten SA oder auf grobgliedrige globale SA-Methoden zurück, wobei beide Ansätze Nachteile aufweisen, wie beispielsweise eine Beeinträchtigung der globalen Modellierung oder einen Mangel an feinabgestuften Korrelationen. Um dieses Problem zu lösen, indem langreichweitige Abhängigkeiten effektiv modelliert werden, ohne feinabgestufte Details zu opfern, stellen wir einen neuartigen Ansatz vor, der als Local Frequency Transformer (LoFormer) bezeichnet wird. Innerhalb jedes Modulblocks von LoFormer integrieren wir einen lokal kanalweisen Self-Attention im Frequenzraum (Freq-LC), um gleichzeitig Kreuz-Kovarianzen innerhalb lokaler Fenster niedriger und hoher Frequenzen zu erfassen. Diese Operationen bieten den Vorteil, (1) eine ausgewogene Lernmöglichkeit sowohl für grobe Strukturen als auch für feine Details zu gewährleisten, und (2) einen breiteren Spektrum an repräsentativen Eigenschaften zu erschließen im Vergleich zu grobgliedrigen globalen SA-Methoden. Zudem führen wir ein MLP-Gating-Mechanismus ein, der komplementär zu Freq-LC funktioniert und dazu dient, irrelevante Merkmale zu filtern und gleichzeitig die Fähigkeit zur globalen Lernung zu stärken. Unsere Experimente zeigen, dass LoFormer die Leistung bei der Bildentschärfung erheblich verbessert und auf dem GoPro-Datensatz eine PSNR von 34,09 dB bei 126 G FLOPs erreicht. https://github.com/DeepMed-Lab-ECNU/Single-Image-Deblur