17 天前

具有峰值抑制与知识引导的Transformer用于细粒度图像识别

Xinda Liu, Lili Wang, Xiaoguang Han
具有峰值抑制与知识引导的Transformer用于细粒度图像识别
摘要

细粒度图像识别之所以具有挑战性,是因为判别性线索通常在单张图像或多张图像中呈现碎片化分布。尽管现有方法在性能上取得了显著提升,但大多数仍仅关注单张图像中最具判别性的局部区域,忽视了其他区域中的有效信息,并且缺乏对相关图像间判别线索的综合利用。本文从一个全新的视角分析细粒度图像识别的难点,提出了一种结合峰值抑制模块(peak suppression module)与知识引导模块(knowledge guidance module)的Transformer架构。该架构兼顾单张图像中判别特征的多样性,以及多张图像间判别线索的聚合能力。具体而言,峰值抑制模块首先通过线性投影将输入图像转换为序列化标记(tokens),随后根据Transformer编码器生成的注意力响应对相应标记进行屏蔽。该机制在特征学习过程中对最具判别性的区域施加注意力抑制,从而增强对原本被忽略区域的信息利用。知识引导模块则将峰值抑制模块生成的图像表征与可学习的知识嵌入集合进行对比,计算得到知识响应系数。随后,该模块将知识学习过程形式化为一个分类问题,以响应系数作为分类得分。在训练过程中,知识嵌入与图像表征同步更新,使得知识嵌入逐步包含针对不同图像的判别性线索。最终,我们将所获取的知识嵌入融入图像表征中,构建出更为全面的综合表征,显著提升了模型性能。在六个主流数据集上的大量实验验证了所提方法的有效性与优越性。