
摘要
在行人重识别领域,现有的深度网络通常专注于表示学习。然而,如果没有迁移学习,所学模型将固定不变,无法适应各种未见过的场景。本文不仅关注表示学习,还探讨了如何直接在深度特征图中构建行人图像匹配的方法。我们将图像匹配视为在特征图中寻找局部对应关系,并即时构建查询自适应卷积核以实现局部匹配。通过这种方式,匹配过程和结果具有可解释性,并且这种显式的匹配方法比表示特征更具泛化能力,能够应对未知的错位、姿态或视角变化等未见过的场景。为了促进该架构的端到端训练,我们进一步构建了一个类别记忆模块,用于缓存每个类别的最新样本的特征图,从而计算用于度量学习的图像匹配损失。通过直接跨数据集评估,所提出的查询自适应卷积(QAConv)方法相比流行的学习方法(mAP 提升约 10% 以上)取得了显著改进,并且其性能与许多迁移学习方法相当。此外,本文提出了一种无模型的时间共现加权评分方法 TLift,该方法进一步提升了性能,在跨数据集行人重识别任务中达到了最先进的水平。代码可在 https://github.com/ShengcaiLiao/QAConv 获取。