
摘要
在计算机视觉任务中,聚焦于图像中相关区域的能力对于提升模型性能至关重要,尤其是在关键特征尺寸小、细微或空间分布分散的情况下。传统的卷积神经网络(CNN)通常对图像的所有区域一视同仁,这可能导致特征提取效率低下。为解决这一挑战,我提出了一种新型注意力机制——Vision Eagle Attention,该机制通过卷积空间注意力增强视觉特征的提取能力。该模型利用卷积操作捕捉局部空间特征,并生成一个注意力图,以有选择性地强化图像中最具有信息量的区域。这种注意力机制使模型能够专注于判别性特征,同时抑制无关背景信息的干扰。我将Vision Eagle Attention集成至轻量级ResNet-18架构中,实验表明,该组合能够构建出高效且强大的模型。我在三个广泛使用的基准数据集——FashionMNIST、Intel图像分类数据集和OracleMNIST上对所提模型进行了评估,主要关注图像分类任务。实验结果表明,该方法显著提升了分类准确率。此外,该方法具有良好的可扩展性,未来可推广至其他视觉任务,如目标检测、图像分割和视觉跟踪,为多种基于视觉的应用提供一种计算高效的解决方案。代码已开源,可通过以下链接获取:https://github.com/MahmudulHasan11085/Vision-Eagle-Attention.git