Command Palette
Search for a command to run...
稀缺训练数据域中用于细粒度物体识别的显著性
稀缺训练数据域中用于细粒度物体识别的显著性
Carola Figueroa Flores Abel Gonzalez-Garcia Joost van de Weijer Bogdan Raducanu
花卉识别 CNN Keras
摘要
本文研究了显著性在训练数据稀缺情况下提升卷积神经网络(CNN)分类准确率的作用。我们的方法是在现有CNN架构中添加一个显著性分支,该分支用于调制来自原始图像输入的常规自下而上的视觉特征,作为一种注意力机制来引导特征提取过程。所提出方法的主要目标是使细粒度识别模型能够在有限训练样本的情况下得到有效训练,并提高任务性能,从而减轻对大规模数据集标注的需求。大多数显著性方法仅评估其生成显著图的能力,而未评估其在完整视觉流水线中的功能。我们提出的流水线允许评估显著性方法在高阶物体识别任务中的作用。我们在多种细粒度数据集(Flowers、Birds、Cars和Dogs)上进行了广泛实验,在不同条件下证明,显著性可以显著提高网络性能,尤其在训练数据稀缺的情况下效果更为明显。
一句话总结
通过集成一个作为注意力机制来调节自底向上视觉特征的显著性分支,所提出的 CNN 在 Flowers、Birds、Cars 和 Dogs 数据集上显著提升了细粒度物体识别的准确率,尤其是在训练样本有限的情况下。该设计在完整的视觉流水线中验证了显著性方法的有效性,而非将评估局限于单纯的地图生成。
核心贡献
- 提出了一种卷积神经网络架构,该架构集成专用显著性分支,以作为注意力机制调节标准自底向上视觉特征。
- 构建了一个完整的视觉流水线,通过测量显著性生成方法对高层物体识别性能的直接影响来评估这些方法,而非仅依赖传统的显著性地图质量指标。
- 通过在 Flowers、Birds、Cars 和 Dogs 数据集上进行大量实验,证明所提架构能显著提升分类准确率,尤其在训练数据有限的条件下。
引言
细粒度物体识别需要区分高度相似的子类别,这一任务传统上依赖昂贵的专家标注和大型标注数据集以捕捉细微的视觉差异。尽管计算显著性方法能有效突出视觉显著区域,但既往研究主要优化这些模型以提升地图准确率或预测人类视线,而非衡量其对下游分类任务的实际影响。此外,现有的基于注意力的神经网络通常需从头学习新参数,在标注样本稀缺时容易不稳定且易发生过拟合。本文作者利用预训练显著性网络作为固定注意力模块,在双分支架构中调节标准视觉特征。该方法通过引导识别模型聚焦于判别性区域,无需显式部件标注,从而在数据稀缺条件下显著提升分类准确率,并降低了对昂贵数据集收集的需求。
数据集
- 数据集构成与来源: 作者基于四个源自知名学术存储库的标准细粒度分类基准测试集评估其框架。
- 子集规格:
- Oxford Flower 102 包含 102 个类别的 8,189 张图像,每个类别包含 40 至 258 个样本。
- Birds 数据集涵盖 200 个物种的 11,788 张图像,原始数据附带边界框和 15 个关键点,但作者直接使用完整未裁剪的图像进行处理。
- Cars 数据集提供 196 个类别的 16,185 张图像,已大致均分为训练集和测试集。
- Stanford Dogs 包含 120 个犬种的 20,580 张图像,其预处理步骤会移除任何与 ImageNet 重叠的图像。
- 训练协议与数据利用: 针对每个类别,作者采用固定划分策略:5 张测试图像、5 张验证图像,其余用于训练。为衡量数据受限条件下的性能,作者在每类 k 张图像的子集上训练模型,其中 k 取值范围为 1 至 30,并包含完整的可用训练集。基础 AlexNet 架构在 ImageNet 上进行预训练,随后使用 0.01 的学习率和 0.003 的权重衰减进行 70 轮微调。作者还使用 ResNet-50 和 ResNet-152 验证了该流水线,并报告了基于五次独立随机初始化的平均分类准确率。
- 处理与输入设计: 该工作流避免显式裁剪,直接在完整图像上运行。尽管 Birds 数据集包含边界框和关键点元数据,但作者有意忽略这些标注。相反,作者通过五种成熟算法(iSEEL、SALICON、Itti and Koch、GBVS 和 BMS)以及两种几何基线(均匀白色分布与居中高斯分布)生成注意力图,从而构建额外的显著性输入通道,以验证学习到的视觉注意力能否在标准像素特征之外进一步提升识别能力。
方法
作者利用双分支架构将显著性信息融入卷积神经网络(CNN),以在训练数据稀缺的条件下执行细粒度物体分类。该框架包含两条主要路径:一条处理原始彩色图像的 RGB 分支,以及一条基于同一图像生成的预计算显著性图运行的显著性分支。这两条流通过调制机制进行交互,该机制在特征提取过程中动态调整视觉特征的重要性。RGB 分支遵循标准的 CNN 处理流水线,而显著性分支则将输入的显著性图转换为空间维度匹配的调制图像。随后,该调制图像用于缩放 RGB 分支中某一中间层的特征图,从而有效突出显著区域并弱化关联度较低的背景区域。调制后的特征随后通过跳跃连接与原始特征融合,并输入至共享联合分支。该分支继续通过额外层进行处理,直至到达最终分类层。该架构设计为模块化,兼容多种基础网络(如 AlexNet、ResNet-50 和 ResNet-152),并通过端到端训练联合优化分类与调制组件。
