15 天前

基于Transformer的视频行人检索中的多方向多尺度金字塔结构

{Xianghao Zang; Ge Li; Wei Gao}
基于Transformer的视频行人检索中的多方向多尺度金字塔结构
摘要

在视频监控领域,行人检索(又称行人重识别)是一项关键任务,其目标是从非重叠摄像头视角中检索出目标行人。近年来,基于Transformer的模型在该任务上取得了显著进展。然而,这些模型仍存在忽略细粒度、部件相关信息的问题。为此,本文提出一种多方向、多尺度的Transformer金字塔结构(Pyramid in Transformer, PiT),以解决上述问题。在基于Transformer的架构中,每张行人图像被划分为多个图像块(patches),随后这些图像块被输入Transformer层,以获得图像的特征表示。为挖掘细粒度信息,本文提出对图像块分别进行垂直方向和水平方向的划分,从而生成具有不同方向的行人部件。这些部件能够提供更丰富的局部细粒度特征。为进一步融合多尺度特征表示,本文设计了一种金字塔结构,该结构包含全局层面的信息以及来自不同尺度的多个局部层面信息。将同一视频中所有行人图像的特征金字塔进行融合,最终形成具有多方向、多尺度特性的统一特征表示。在两个具有挑战性的基于视频的基准数据集MARS和iLIDS-VID上的实验结果表明,所提出的PiT方法达到了当前最优的性能。大量的消融实验进一步验证了所提出的金字塔结构的有效性与优越性。相关代码已开源,地址为:https://git.openi.org.cn/zangxh/PiT.git。