17 天前
基于高效ConvNet的图像去模糊再思考
Lingyan Ruan, Mojtaba Bemana, Hans-peter Seidel, Karol Myszkowski, Bin Chen

摘要
图像去模糊旨在从模糊图像中恢复出潜在的清晰图像,在计算机视觉领域具有广泛的应用。多年来,卷积神经网络(CNN)在该任务中表现优异。然而,近年来一种新型网络架构——Transformer,展现出更强的性能。其优势可归因于多头自注意力(MHSA)机制,该机制相比CNN具有更大的感受野和更强的输入内容适应能力。然而,由于MHSA的计算开销随输入分辨率呈二次增长,使其在高分辨率图像去模糊任务中变得不切实际。本文提出了一种统一的轻量级CNN网络,具备较大的有效感受野(ERF),在保持更低计算成本的同时,性能可与Transformer相媲美,甚至更优。其核心设计是一种高效的CNN模块——LaKD,该模块结合了大核深度卷积与空间-通道混合结构,在实现与Transformer相当或更大的有效感受野的同时,参数量显著更小。具体而言,在聚焦模糊与运动模糊的基准数据集上,我们的方法相比当前最先进的Restormer模型,分别实现了+0.17dB和+0.43dB的PSNR提升,同时参数量减少32%,乘加操作(MACs)减少39%。大量实验验证了所提网络的优越性能,以及各模块的有效性。此外,我们提出了一种紧凑且直观的ERFMeter度量指标,能够定量刻画有效感受野,并与模型性能表现出高度相关性。我们希望本工作能激发研究社区进一步探索CNN与Transformer架构在图像去模糊之外更广泛任务中的优劣与潜力。