
摘要
行人属性识别已成为视频监控领域的一个新兴研究课题。为了预测某个特定属性的存在,需要定位与该属性相关的区域。然而,在这项任务中,区域注释并不可用。如何提取这些与属性相关的区域仍然是一个挑战。现有的方法通常应用与属性无关的视觉注意力机制或启发式的身体部位定位机制来增强局部特征表示,而忽略了利用属性来定义局部特征区域。我们提出了一种灵活的属性定位模块(Attribute Localization Module, ALM),能够自适应地发现最具区分性的区域,并在多个层次上学习每个属性的区域性特征。此外,还引入了特征金字塔架构,以高级语义引导增强低层次的属性特定定位。所提出的框架不需要额外的区域注释,并且可以在多层深度监督下进行端到端训练。大量实验表明,该方法在三个行人属性数据集(包括PETA、RAP和PA-100K)上取得了最先进的结果。