17 天前

细粒度分类中的人类注意力

Yao Rong, Wenjia Xu, Zeynep Akata, Enkelejda Kasneci
细粒度分类中的人类注意力
摘要

人类在注意、处理和分类图像时的方式,有望显著提升深度学习模型的性能。通过利用人类关注的区域,可以在模型偏离关键判别特征时对其进行纠正。为验证人类注意力中蕴含着对细粒度分类等决策过程具有价值的信息,我们对比了人类注意力与模型解释在识别重要特征方面的表现。为此,我们采集了细粒度分类数据集CUB的人类眼动数据,并构建了一个名为CUB-GHA(基于眼动的人类注意力数据集)的新数据集。此外,我们提出了眼动增强训练(Gaze Augmentation Training, GAT)与知识融合网络(Knowledge Fusion Network, KFN),以将人类眼动知识有效融入分类模型中。我们在CUB-GHA数据集以及近期发布的医学影像数据集CXR-Eye(胸部X光图像数据集,包含放射科医生的眼动数据)上实现了上述方法。实验结果表明,融合人类注意力知识能显著提升分类性能,例如在CXR数据集上相较基线模型提升了4.38%。因此,本研究不仅为理解细粒度分类中人类注意力机制提供了重要洞见,也为未来将人类眼动信息与计算机视觉任务相结合的研究奠定了基础。CUB-GHA数据集及代码已公开,访问地址为:https://github.com/yaorong0921/CUB-GHA。