15 天前
基于视频的人体再识别的密集交互学习
Tianyu He, Xin Jin, Xu Shen, Jianqiang Huang, Zhibo Chen, Xian-Sheng Hua

摘要
基于视频的人体再识别(video-based person re-identification, re-ID)旨在跨视频片段匹配同一行人。高效地利用多尺度细粒度特征,并建立这些特征之间的结构化交互关系,是实现该任务成功的关键。本文提出一种混合框架——密集交互学习(Dense Interaction Learning, DenseIL),融合了基于卷积神经网络(CNN)与基于注意力机制(Attention-based)架构的核心优势,以应对视频行人再识别中的挑战。DenseIL包含一个CNN编码器和一个密集交互(Dense Interaction, DI)解码器。其中,CNN编码器负责高效提取具有判别性的空间特征,而DI解码器则专门用于密集建模跨帧之间的时空内在交互关系。与以往方法不同,本文进一步设计DI解码器对中间细粒度的CNN特征进行密集注意力建模,从而自然地为每个视频片段生成多粒度的时空表示。此外,我们在DI解码器中引入了时空位置嵌入(Spatio-Temporal Positional Embedding, STEP-Emb),以显式建模时空输入之间的位置关系。在多个标准视频行人再识别数据集上的实验结果表明,DenseIL consistently 且显著优于当前所有先进方法。