6 个月前

摘要

基于视频的人体再识别（video-based person re-identification, reID）旨在跨多个摄像头检索与查询目标人物身份相同的视频片段。由于视频中存在空间干扰项（如背景杂乱）和时间干扰项（如帧间部分遮挡），该任务相较于基于图像的人体再识别更具挑战性。我们观察到，空间干扰项通常在特定位置持续出现，而时间干扰项则呈现出多种模式，例如部分遮挡往往集中出现在视频的前几帧。这些模式为判断应重点关注哪些帧（即时间注意力）提供了重要线索。基于上述观察，我们提出一种新型的空间与时间记忆网络（Spatial and Temporal Memory Networks, STMN）。其中，空间记忆模块用于存储在多帧视频中反复出现的空间干扰特征，而时间记忆模块则用于保存针对人体视频中典型时间模式进行优化的注意力机制。通过利用空间记忆，模型可对帧级人体表征进行精炼；通过利用时间记忆，模型可将精炼后的帧级特征聚合为序列级的人体表征，从而有效应对视频中复杂的空间与时间干扰。此外，我们引入一种记忆扩散损失（memory spread loss），以防止模型仅关注记忆中的特定条目，从而提升模型的泛化能力。在标准基准数据集MARS、DukeMTMC-VideoReID和LS-VID上的实验结果表明，所提方法在人体再识别任务中具有显著有效性与优越性能。

源 PDF 查看代码