2 个月前

时空高效的非局部注意力网络用于基于视频的人再识别

Chih-Ting Liu; Chih-Wei Wu; Yu-Chiang Frank Wang; Shao-Yi Chien
时空高效的非局部注意力网络用于基于视频的人再识别
摘要

基于视频的人再识别(Re-ID)旨在匹配非重叠摄像头之间的行人视频序列。这是一项既实用又具有挑战性的任务,关键在于如何将视频的空间和时间信息嵌入其特征表示中。尽管大多数现有方法通过聚合图像级特征并在神经网络中设计注意力机制来学习视频特性,但它们仅探索了帧间在高层次特征上的相关性。在这项工作中,我们致力于改进中间特征和高层次特征,采用非局部注意力操作,并做出了两项贡献。(i)我们提出了一种非局部视频注意力网络(Non-local Video Attention Network, NVAN),以在多个特征层级上融合视频特性。(ii)我们进一步引入了一种空间和时间高效的非局部视频注意力网络(Spatially and Temporally Efficient Non-local Video Attention Network, STE-NVAN),通过探索行人视频中的空间和时间冗余来降低计算复杂度。大量实验表明,我们的NVAN在MARS数据集上的rank-1准确率比现有最先进方法提高了3.8%,并且证实了我们的STE-NVAN相比现有方法具有显著更低的计算开销。