
摘要
从卷积神经网络(CNN)中提取的多粒度特征在有监督的人体再识别(Re-ID)任务中已展现出强大的判别能力。受此启发,本文研究了如何从纯Transformer架构中提取多粒度特征,以应对无监督Re-ID这一无标签但更具挑战性的任务。为此,我们基于改进的视觉Transformer(Vision Transformer, ViT)构建了一种双分支网络结构。在每个分支中,输出的局部token经过重塑后被均匀划分为多个条带,从而生成部件级特征;同时,两个分支的全局token取平均,生成全局特征。进一步地,基于当前表现优异的无监督Re-ID方法——离线-在线相机感知代理(Offline-Online Camera-Aware Proxies, O2CAP),我们针对全局特征与部件级特征分别定义了离线与在线对比学习损失,以实现有效的无监督学习。在三个主流人体Re-ID数据集上的大量实验表明,所提出的方法显著优于当前最先进的无监督Re-ID方法,大幅缩小了与有监督方法之间的性能差距。代码将于近期公开,地址为:https://github.com/RikoLi/WACV23-workshop-TMGF。