2 个月前

RaSa：面向关系和敏感性的文本表示学习用于基于文本的人脸搜索

Yang Bai; Min Cao; Daming Gao; Ziqiang Cao; Chen Chen; Zhenfeng Fan; Liqiang Nie; Min Zhang

摘要

基于文本的人像搜索旨在根据给定的文本描述检索指定的人像图像。解决这一具有挑战性任务的关键在于学习强大的多模态表示。为此，我们提出了一种关系感知和敏感度感知的表示学习方法（RaSa），包括两个新颖的任务：关系感知学习（RA）和敏感度感知学习（SA）。一方面，现有方法在不加区分的情况下聚类所有正样本对的表示，忽略了弱正样本对（即文本和配对图像之间存在噪声对应关系）导致的噪声问题，从而引发过拟合学习。RA通过引入一种新的正样本关系检测任务（即学习区分强正样本对和弱正样本对）来降低过拟合风险。另一方面，现有方法通常通过数据增强来学习不变表示（即对某些变换不敏感），以提高表示的鲁棒性。除此之外，我们还通过SA鼓励表示感知到敏感变换（即学习检测替换的词语），从而进一步提升表示的鲁棒性。实验结果表明，RaSa在CUHK-PEDES、ICFG-PEDES和RSTPReid数据集上的Rank@1指标分别优于现有的最先进方法6.94%、4.45%和15.35%。代码可在以下地址获取：https://github.com/Flame-Chasers/RaSa。