2 个月前
DSSL:基于深度学习的文本描述人物检索中的环境-人物分离方法
Zhu, Aichun ; Wang, Zijie ; Li, Yifeng ; Wan, Xili ; Jin, Jing ; Wang, Tian ; Hu, Fangqiang ; Hua, Gang

摘要
许多先前针对基于文本的人脸检索任务的方法致力于学习一种潜在的公共空间映射,目的是从视觉和文本模态中提取模态不变特征。然而,由于高维数据的复杂性,无约束的映射范式无法有效地捕捉对应人员的判别线索,同时丢弃了未对齐的信息。直观上,视觉数据中包含的信息可以分为人员信息(Person Information, PI)和环境信息(Surroundings Information, SI),这两类信息彼此互斥。为此,本文提出了一种新颖的深度环境-人员分离学习(Deep Surroundings-person Separation Learning, DSSL)模型,以有效提取和匹配人员信息,从而实现更高的检索精度。环境-人员分离与融合机制在相互排斥约束下实现了准确有效的环境-人员分离,起到了关键作用。为了充分利用多模态和多粒度信息以提高检索精度,采用了五种不同的对齐范式。进行了大量实验以评估所提出的DSSL在CUHK-PEDES上的表现,该数据集目前是唯一可用的基于文本的人脸检索任务数据集。DSSL在CUHK-PEDES上达到了最先进的性能。为了在真实场景中恰当地评估我们提出的DSSL,构建了一个真实场景下的基于文本的人脸再识别(Real Scenarios Text-based Person Reidentification, RSTPReid)数据集,以促进未来在基于文本的人脸检索领域的研究,并将公开发布该数据集。