2 个月前

通过全局和局部图像-语言关联改进深度视觉表示以实现行人重识别

Chen, Dapeng ; Li, Hongsheng ; Liu, Xihui ; Shen, Yantao ; Yuan, Zejian ; Wang, Xiaogang
通过全局和局部图像-语言关联改进深度视觉表示以实现行人重识别
摘要

人员重识别是一项重要的任务,需要学习具有区分性的视觉特征以区分不同的个人身份。为了提高视觉特征的学习效果,已经利用了多种辅助信息。在本文中,我们提出利用自然语言描述作为额外的训练监督,以有效提升视觉特征的质量。与其他辅助信息相比,语言可以从更加紧凑和语义化的视觉角度描述特定的个体,因此对像素级别的图像数据具有补充作用。我们的方法不仅通过整体描述的监督学习到更好的全局视觉特征,还通过构建全局和局部图像-语言关联来强化局部视觉特征与语言特征之间的语义一致性。全局图像-语言关联是根据身份标签建立的,而局部关联则基于图像区域与名词短语之间的隐式对应关系。广泛的实验表明,在两种关联方案下使用语言作为训练监督的有效性。我们的方法在测试时无需任何辅助信息的情况下达到了最先进的性能,并且在图像-语言关联方面优于其他联合嵌入方法。