11 天前

基于Transformer的行人重识别自监督预训练

Hao Luo, Pichao Wang, Yi Xu, Feng Ding, Yanxin Zhou, Fan Wang, Hao Li, Rong Jin
基于Transformer的行人重识别自监督预训练
摘要

基于Transformer的监督预训练在行人重识别(Person Re-Identification, ReID)任务中取得了显著性能。然而,由于ImageNet数据集与ReID数据集之间存在较大的领域差异,且Transformer模型具有强大的数据拟合能力,通常需要使用更大规模的预训练数据集(如ImageNet-21K)才能有效提升性能。为应对这一挑战,本文从数据和模型结构两个角度出发,旨在缓解预训练阶段与ReID任务之间的领域差距。首先,本文研究了基于视觉Transformer(Vision Transformer, ViT)在无标注行人图像数据集LUPerson上进行自监督学习(Self-Supervised Learning, SSL)的方法,实验结果表明,该方法在ReID任务上的表现显著优于在ImageNet上进行监督预训练的模型。为进一步缩小领域差距并加速预训练过程,本文提出一种名为“灾难性遗忘评分”(Catastrophic Forgetting Score, CFS)的新指标,用于衡量预训练数据与下游ReID数据之间的分布差异。基于CFS,通过采样与下游ReID数据相关性较高的样本,并剔除预训练数据集中无关样本,从而构建一个更适配ReID任务的精简数据子集。在模型结构方面,本文提出一种面向ReID任务的专用模块——基于IBN的卷积主干(IBN-based Convolution Stem, ICS),该模块通过学习更具不变性的特征,有效缓解领域差异带来的负面影响。为全面验证方法的有效性,本文在监督学习、无监督域自适应(Unsupervised Domain Adaptation, UDA)以及无监督学习(Unsupervised Learning, USL)三种典型设置下,对预训练模型进行了充分的微调实验。实验结果表明,我们成功将LUPerson数据集规模压缩至原大小的50%,且未造成性能下降。最终,在Market-1501和MSMT17两个主流ReID数据集上均取得了当前最优的性能表现。例如,所提出的ViT-S/16模型在Market-1501数据集上,于监督学习、UDA和USL三种设置下的mAP准确率分别达到91.3%、89.9%和89.6%。相关代码与模型已开源,发布于:https://github.com/michuanhaohao/TransReID-SSL。

基于Transformer的行人重识别自监督预训练 | 最新论文 | HyperAI超神经