17 天前

细粒度视觉分类的对齐增强网络

{Yutao Hu}
摘要

细粒度视觉分类(Fine-grained Visual Categorization, FGVC)旨在自动识别不同下位类别之间的细微差异对象。尽管该任务在学术界和工业界均受到广泛关注,但由于不同类别间存在细微的视觉差异,其仍是一项极具挑战性的任务。近年来,跨层特征聚合与跨图像成对学习方法在提升FGVC性能方面展现出显著优势,能够有效提取具有判别性的类别特定特征。然而,现有方法通常采用简单的聚合策略,难以充分挖掘跨层信息的潜在价值;同时,现有的成对学习方法也未能有效建模不同图像之间的长程交互关系。为解决上述问题,本文提出一种新型的对齐增强网络(Alignment Enhancement Network, AENet),包含两个层次的对齐机制:跨层对齐(Cross-layer Alignment, CLA)与跨图像对齐(Cross-image Alignment, CIA)。CLA模块旨在挖掘低层空间信息与高层语义信息之间的跨层关联,从而增强跨层特征聚合能力,提升输入图像的特征表示能力。进一步地,本文引入全新的CIA模块,生成对齐后的特征图,能够在整个空间区域内增强相关特征信息,同时抑制无关信息。本方法基于一个核心假设:当输入图像属于同一类别时,其对应的CIA模块输入应与输出的对齐特征图更加接近。据此,我们在每个CIA模块内部设计了语义亲和性损失(Semantic Affinity Loss),用于监督特征对齐过程。在四个具有挑战性的公开数据集上的实验结果表明,所提出的AENet在细粒度视觉分类任务中取得了当前最优的性能,显著超越了现有先进方法。