7 天前

GiT:用于车辆重识别的图交互Transformer

Fei Shen, Yi Xie, Jianqing Zhu, Xiaobin Zhu, Huanqiang Zeng
GiT:用于车辆重识别的图交互Transformer
摘要

Transformer 在计算机视觉领域的应用日益广泛,其将图像视为一系列图像块(patches)的序列,并从中学习具有鲁棒性的全局特征。然而,纯 Transformer 模型在车辆重识别任务中并不完全适用,因为该任务不仅需要鲁棒的全局特征,还要求具备区分性的局部特征。为此,本文提出了一种图交互 Transformer(Graph Interactive Transformer, GiT)模型。从宏观视角来看,多个 GiT 模块被堆叠起来构建车辆重识别模型:其中,图结构用于提取图像块内部的判别性局部特征,而 Transformer 则用于捕捉图像块之间的鲁棒全局特征。从微观视角来看,图结构与 Transformer 处于交互状态,实现了局部特征与全局特征之间的高效协同。具体而言,当前层的图模块被嵌入在前一层的图与 Transformer 之后,而当前层的 Transformer 模块则被嵌入在当前图模块与前一层 Transformer 之后,形成一种双向交互机制。此外,本文提出的图结构是一种新型设计的局部校正图(local correction graph),通过探索节点之间的关系,能够有效学习单个图像块内部的判别性局部特征。在三个大规模车辆重识别数据集上的大量实验结果表明,所提出的 GiT 方法在性能上优于当前最先进的车辆重识别方法。