15 天前
基于时空表示分解的视频行人重识别
Abhishek Aich, Meng Zheng, Srikrishna Karanam, Terrence Chen, Amit K. Roy-Chowdhury, Ziyan Wu

摘要
尽管视频行人重识别(re-ID)领域近年来取得了显著进展,当前最先进方法仍面临诸多现实世界中的挑战,例如不同行人之间的外观相似性、遮挡问题以及帧间错位等。为缓解上述问题,本文提出一种新型灵活计算单元——时空表征分解(Spatio-Temporal Representation Factorization, STRF),该单元可与大多数现有的3D卷积神经网络架构无缝结合,用于行人重识别任务。与以往方法相比,STRF的核心创新在于显式设计了用于学习判别性时空特征的路径,并进一步对各组件进行分解,以捕捉互补的个体特定外观与运动信息。具体而言,时间维度的分解包含两个分支:一个用于提取静态特征(如衣物颜色),其在时间上变化较小;另一个用于学习动态特征(如行走姿态),随时间演变。同时,空间维度的分解也采用双分支结构,分别用于学习全局(粗粒度区域)和局部(细粒度区域)外观特征,其中局部特征在应对遮挡或空间错位等情形时尤为有效。上述两种分解机制协同作用,构建出一种参数量轻量、模块化的STRF单元,可灵活插入任意两个3D卷积层之间,从而形成端到端可训练的网络框架。实验结果表明,STRF在不改变原有主干网络结构的前提下,显著提升了多种现有基线模型的性能,并在三个标准行人重识别基准数据集上,基于通用评估协议取得了新的最先进结果。