2 个月前

RaSa:面向关系和敏感性的文本表示学习用于基于文本的人脸搜索

Yang Bai; Min Cao; Daming Gao; Ziqiang Cao; Chen Chen; Zhenfeng Fan; Liqiang Nie; Min Zhang
RaSa:面向关系和敏感性的文本表示学习用于基于文本的人脸搜索
摘要

基于文本的人像搜索旨在根据给定的文本描述检索指定的人像图像。解决这一具有挑战性任务的关键在于学习强大的多模态表示。为此,我们提出了一种关系感知和敏感度感知的表示学习方法(RaSa),包括两个新颖的任务:关系感知学习(RA)和敏感度感知学习(SA)。一方面,现有方法在不加区分的情况下聚类所有正样本对的表示,忽略了弱正样本对(即文本和配对图像之间存在噪声对应关系)导致的噪声问题,从而引发过拟合学习。RA通过引入一种新的正样本关系检测任务(即学习区分强正样本对和弱正样本对)来降低过拟合风险。另一方面,现有方法通常通过数据增强来学习不变表示(即对某些变换不敏感),以提高表示的鲁棒性。除此之外,我们还通过SA鼓励表示感知到敏感变换(即学习检测替换的词语),从而进一步提升表示的鲁棒性。实验结果表明,RaSa在CUHK-PEDES、ICFG-PEDES和RSTPReid数据集上的Rank@1指标分别优于现有的最先进方法6.94%、4.45%和15.35%。代码可在以下地址获取:https://github.com/Flame-Chasers/RaSa。