16 天前

基于多模态信息监督的可迁移行人表征学习

Liping Bao, Longhui Wei, Xiaoyu Qiu, Wengang Zhou, Houqiang Li, Qi Tian

摘要

近期关于无监督行人重识别（reID）的研究表明，基于未标注行人图像进行预训练，在下游reID任务上表现优于在ImageNet上进行预训练的方法。然而，这些已有的预训练方法专门针对reID任务设计，难以灵活适配其他行人分析任务。为此，本文提出一种名为VAL-PAT的新框架，旨在通过融合多模态信息，学习可迁移的表征以提升多种行人分析任务的性能。为训练该框架，我们引入三种学习目标：自监督对比学习、图文对比学习以及多属性分类。其中，自监督对比学习有助于模型捕捉行人的内在特征；图文对比学习引导模型关注行人的外观信息；而多属性分类任务则促使模型识别细粒度的行人属性，以挖掘更丰富的语义信息。我们首先在LUPerson-TA数据集上进行预训练，该数据集中的每张图像均附带文本描述和属性标注，随后将所学习到的表征迁移至多个下游任务，包括行人重识别、行人属性识别以及基于文本的行人检索。大量实验结果表明，所提出的框架能够有效学习通用的行人表征，在各类行人分析任务中均取得了优异且一致的性能表现。