10 天前
LoFormer:用于图像去模糊的局部频率Transformer
Xintian Mao, Jiansheng Wang, Xingran Xie, Qingli Li, Yan Wang

摘要
由于自注意力机制(Self-Attention, SA)具有较高的计算复杂度,当前主流的图像去模糊方法通常采用局部化自注意力或粗粒度全局自注意力策略,但这两类方法均存在明显缺陷:前者削弱了全局建模能力,后者则难以捕捉细粒度的特征相关性。为有效建模长程依赖关系,同时不损失细节信息,本文提出一种新型架构——局部频率变换器(Local Frequency Transformer, LoFormer)。在LoFormer的每个模块中,我们引入了一种基于频域的局部通道自注意力机制(Frequency-domain Local Channel-wise Self-Attention, Freq-LC),用于在低频与高频局部窗口内同步捕捉跨通道协方差。该设计具有两大优势:(1)确保粗粒度结构与细粒度细节获得均衡的学习机会;(2)相比传统粗粒度全局自注意力方法,能够探索更丰富的表征特性。此外,我们还设计了一种与Freq-LC互补的MLP门控机制,用于抑制无关特征,同时增强模型的全局建模能力。实验结果表明,LoFormer在图像去模糊任务中显著提升了性能,在GoPro数据集上达到了34.09 dB的PSNR,仅需126G FLOPs。项目代码已开源:https://github.com/DeepMed-Lab-ECNU/Single-Image-Deblur