17 天前

注意与引导(AG-Net):一种基于关键点驱动注意力机制的深度网络用于图像识别

Asish Bera, Zachary Wharton, Yonghuai Liu, Nik Bessis, Ardhendu Behera
注意与引导(AG-Net):一种基于关键点驱动注意力机制的深度网络用于图像识别
摘要

本文提出了一种基于关键点的新颖注意力机制,用于静态图像的视觉识别。尽管深度卷积神经网络(CNN)在识别具有明显类别的图像方面取得了显著成功,但在区分细粒度变化方面表现仍不够理想。为此,本文提出了一种端到端的CNN模型,通过引入新型注意力机制,学习与细粒度变化相关联的有意义特征。该机制通过识别图像中的语义区域(Semantic Regions, SRs)及其空间分布,有效捕捉图像的结构信息,实验证明这是建模图像细微变化的关键。我们通过聚类图像中检测到的关键点,自动识别这些语义区域。利用创新的注意力机制,评估各语义区域在图像识别任务中的“有用性”,重点关注与当前任务最相关的图像局部区域。该框架适用于传统图像识别与细粒度图像识别任务,无需依赖人工标注的区域(如身体部位或物体的边界框)进行学习与预测。此外,所提出的基于关键点的注意力机制可轻松集成至现有CNN模型中。在六个多样化的基准数据集上对框架进行了评估,结果表明,该模型在Distracted Driver V1(准确率提升3.39%)、Distracted Driver V2(准确率提升6.58%)、Stanford-40 Actions(mAP提升2.15%)、People Playing Musical Instruments(mAP提升16.05%)、Food-101(准确率提升6.30%)以及Caltech-256(准确率提升2.59%)等数据集上,均显著优于当前最先进的方法。