18 天前

属性去偏置视觉Transformer(AD-ViT)用于长期行人重识别

{and Venu Govindaraju, Srirangaraj Setlur, Deen Mohan, Bhavin Jawade, Kyung Won Lee}
摘要

行人重识别(Person Re-Identification, Re-ID)旨在跨摄像头和视角的图像库中,检索属于同一身份的行人图像。然而,当前大多数行人重识别方法均基于短期设定,假设行人的外观特征保持不变。相比之下,在长期设定下,由于服装和配饰的频繁变化,视觉差异显著增大,使得该任务更具挑战性。因此,学习对时间变化特征不敏感的身份特异性特征,对于实现鲁棒的长期行人重识别至关重要。为此,本文提出一种属性去偏置视觉Transformer(Attribute De-biased Vision Transformer, AD-ViT),通过提供直接监督信号,引导模型学习身份特异性特征。具体而言,我们为行人实例生成属性标签,并利用这些标签通过梯度反转机制,引导模型关注身份相关特征,同时抑制与时间变化相关的属性干扰。在两个长期行人重识别数据集LTCC和NKUP上的实验结果表明,所提出的方法在各项指标上均持续优于当前最先进的方法。