
摘要
卷积神经网络(CNNs)在局部空间模式识别方面表现出色。然而,在许多视觉任务(如目标识别与分割)中,显著信息往往存在于CNN感受野边界之外。由于其感受野受限,CNN难以捕捉此类相关信息。自注意力机制虽能增强模型对全局信息的访问能力,但会带来显著的计算开销。为此,我们提出一种快速且简洁的全卷积方法——DAS(Deformable Attention Shortcut),旨在引导模型聚焦于相关特征区域。DAS利用可变形卷积定位图像中关键区域,并通过可分离卷积提升计算效率。该模块可无缝集成至现有CNN架构中,借助门控机制实现相关特征信息的传播。与Transformer式注意力机制O(n²)的计算复杂度相比,DAS仅具有O(n)的复杂度。我们的研究表明,DAS通过增强对关键特征的关注能力,显著提升了主流CNN在图像分类与目标检测任务中的性能。例如,在以ResNet50为骨干网络的情况下,DAS在Stanford Dogs数据集上提升4.47%,在ImageNet上提升1.91%,在COCO目标检测AP指标上提升3.3%。该方法在性能上优于其他CNN注意力机制,同时保持相似甚至更低的浮点运算量(FLOPs)。相关代码将公开发布。