
摘要
在目标检测任务中,如何在高分辨率输入下平衡特征图分辨率与感受野之间的矛盾需求,仍然是一个尚未解决的开放性问题。针对这一挑战,本文提出了一种新型网络架构——注意力引导的上下文特征金字塔网络(Attention-guided Context Feature Pyramid Network, AC-FPN),通过融合注意力引导的多路径特征,有效利用来自不同大感受野的判别性信息。该模型包含两个核心模块:第一个是上下文提取模块(Context Extraction Module, CEM),用于从多个不同感受野中挖掘丰富的上下文信息;由于冗余的上下文关系可能误导目标定位与识别,本文进一步设计了第二个模块——注意力引导模块(Attention-guided Module, AM),该模块基于注意力机制自适应地捕捉对象间的显著依赖关系。AM进一步细分为两个子模块:上下文注意力模块(Context Attention Module, CxAM)和内容注意力模块(Content Attention Module, CnAM),分别专注于提取具有判别性的语义信息和实现精确的位置定位。尤为重要的是,所提出的AC-FPN可无缝集成至现有的基于FPN的检测模型中。在目标检测与实例分割任务上的大量实验表明,引入本文所提出的CEM与AM后,原有模型性能显著优于未使用该模块的基线模型,且本方法成功取得了当前最先进的实验结果。相关源代码已开源,地址为:https://github.com/Caojunxu/AC-FPN。