17 天前

用于行人重识别的深度金字塔表示聚合

{Christian Micheloni, Niki Martinel, Gian Luca Foresti}
用于行人重识别的深度金字塔表示聚合
摘要

在行人重识别(Person Re-Identification, Re-ID)任务中,学习具有判别性、视角不变性以及多尺度表征能力、涵盖不同语义层次的行人外观特征,具有至关重要的意义。近年来,研究社区投入大量精力,致力于构建能够捕捉全局单一语义层次特征的深度Re-ID模型。为进一步提升性能,研究者引入了额外的视觉属性信息以及基于身体部位驱动的建模方法。然而,这些方法通常依赖大量人工标注,或需要额外的计算开销。我们认为,一种受金字塔结构启发、能够有效捕捉多尺度信息的方法,有望克服上述限制。具体而言,本文提出一种新颖的网络架构,将行人图像中表征视觉信息的多尺度条带(multi-scale stripes)分解为多个语义层次上的潜在判别性因子。同时,结合多任务损失函数与课程学习(curriculum learning)策略,训练出具有判别性和视角不变性的行人表征,并用于三元组相似性学习。在三个主流Re-ID基准数据集上的实验结果表明,该方法显著优于现有方法(例如,在Duke-MTMC数据集上准确率超过90%)。