7 天前
TransReID:基于Transformer的物体重识别
Shuting He, Hao Luo, Pichao Wang, Fan Wang, Hao Li, Wei Jiang

摘要
在行人与物体重识别(ReID)任务中,提取鲁棒的特征表示是核心挑战之一。尽管基于卷积神经网络(CNN)的方法已取得显著进展,但其每次仅处理局部邻域信息,且受卷积与下采样操作(如池化和步幅卷积)的影响,容易导致细节信息的丢失。为克服上述局限,本文提出一种纯Transformer架构的物体ReID框架——TransReID。具体而言,我们首先将图像划分为若干图像块(patches),并构建一个基于Transformer的强基准模型,通过若干关键改进,在多个主流ReID基准上取得了与CNN方法相当甚至更优的性能。为进一步提升Transformer在ReID任务中对复杂场景的鲁棒特征学习能力,本文精心设计了两个新型模块:(i)拼图块模块(Jigsaw Patch Module, JPM),通过移位(shift)与图像块打乱(patch shuffle)操作重新排列图像块嵌入,生成具有更强判别能力与更广泛覆盖范围的鲁棒特征;(ii)侧信息嵌入模块(Side Information Embeddings, SIE),通过引入可学习的嵌入向量,融合相机视角等非视觉线索,有效缓解因相机或视角变化带来的特征偏差问题。据我们所知,这是首个将纯Transformer架构系统应用于ReID任务的研究工作。实验结果表明,TransReID在行人与车辆ReID多个基准数据集上均取得了领先性能,显著超越现有方法,展现出卓越的泛化能力与先进性。