
摘要
基于视频的人体再识别旨在关联多个非重叠摄像头拍摄的同一人物的视频片段。时空特征能够提供帧间更丰富且互补的信息,在发生遮挡时对区分目标人物尤为关键。本文提出一种新颖的金字塔式时空聚合(Pyramid Spatial-Temporal Aggregation, PSTA)框架,通过逐步聚合帧级特征,并将分层的时序特征融合为最终的视频级表示,从而使得不同层级能够有效利用短期与长期的时序信息。此外,本文进一步设计了时空聚合模块(Spatial-Temporal Aggregation Module, STAM),以增强PSTA的特征聚合能力。该模块主要包含两个新颖的注意力机制模块:空间参考注意力(Spatial Reference Attention, SRA)与时间参考注意力(Temporal Reference Attention, TRA)。SRA用于挖掘单帧内的空间相关性,以确定各位置的注意力权重;而TRA在SRA的基础上引入相邻帧之间的关联性,充分挖掘时序一致性信息,从而有效抑制干扰特征并强化具有判别性的特征。在多个具有挑战性的基准数据集上的大量实验表明,所提出的PSTA框架具有显著有效性,其完整模型在MARS和DukeMTMC-VID基准上分别取得了91.5%和98.3%的Rank-1准确率。