6 个月前

摘要

在行人与物体重识别（ReID）任务中，提取鲁棒的特征表示是核心挑战之一。尽管基于卷积神经网络（CNN）的方法已取得显著进展，但其每次仅处理局部邻域信息，且受卷积与下采样操作（如池化和步幅卷积）的影响，容易导致细节信息的丢失。为克服上述局限，本文提出一种纯Transformer架构的物体ReID框架——TransReID。具体而言，我们首先将图像划分为若干图像块（patches），并构建一个基于Transformer的强基准模型，通过若干关键改进，在多个主流ReID基准上取得了与CNN方法相当甚至更优的性能。为进一步提升Transformer在ReID任务中对复杂场景的鲁棒特征学习能力，本文精心设计了两个新型模块：（i）拼图块模块（Jigsaw Patch Module, JPM），通过移位（shift）与图像块打乱（patch shuffle）操作重新排列图像块嵌入，生成具有更强判别能力与更广泛覆盖范围的鲁棒特征；（ii）侧信息嵌入模块（Side Information Embeddings, SIE），通过引入可学习的嵌入向量，融合相机视角等非视觉线索，有效缓解因相机或视角变化带来的特征偏差问题。据我们所知，这是首个将纯Transformer架构系统应用于ReID任务的研究工作。实验结果表明，TransReID在行人与车辆ReID多个基准数据集上均取得了领先性能，显著超越现有方法，展现出卓越的泛化能力与先进性。

查看代码