
摘要
近年来,Transformer 在计算机视觉领域受到了越来越多的关注。然而,现有的研究大多将 Transformer 用于特征表示学习,例如图像分类和密集预测,而 Transformer 的泛化能力尚不清楚。在本工作中,我们进一步探讨了将 Transformer 应用于图像匹配和度量学习的可能性,特别是在给定图像对的情况下。我们发现,Vision Transformer (ViT) 和带有解码器的普通 Transformer 由于缺乏图像到图像的注意力机制,不适合用于图像匹配。因此,我们设计了两种简单的解决方案,即在 ViT 中进行查询-库连接(query-gallery concatenation),以及在普通 Transformer 中引入查询-库交叉注意力(query-gallery cross-attention)。后者虽然提高了性能,但仍然有限。这表明 Transformer 中的注意力机制主要设计用于全局特征聚合,而不是天然适合图像匹配。相应地,我们提出了一种新的简化解码器,该解码器去除了带有 softmax 权重的全注意力实现,仅保留查询-键相似性计算。此外,还应用了全局最大池化和多层感知机(MLP)头来解码匹配结果。这样,简化后的解码器不仅计算效率更高,同时在图像匹配方面也更加有效。所提出的 TransMatcher 方法在可泛化的行人再识别任务中取得了最先进的性能,在多个流行数据集上的 Rank-1 和 mAP 指标分别最高提升了 6.1% 和 5.7%。代码可在 https://github.com/ShengcaiLiao/QAConv 获取。