8 个月前

摘要

基于文本的人搜索（TBPS）是近年来在研究界引起广泛关注的问题。该任务的目标是根据文本描述检索出一个或多个特定个体的图像。由于任务的多模态特性，需要学习能够在共享潜在空间中连接文本和图像数据的表示方法。现有的TBPS系统面临两个主要挑战：一是身份间噪声，这是由于文本描述固有的模糊性和不精确性导致的，表明视觉属性的描述可以普遍适用于不同的人；二是身份内变化，这些变化包括姿态、光照等因素，可能会改变同一文本属性在同一主体上的视觉表现。为了解决这些问题，本文提出了一种名为MARS（Mae-Attribute-Relation-Sensitive）的新颖TBPS架构，通过引入两个关键组件来增强当前最先进的模型：视觉重建损失和属性损失。前者利用一个经过训练的掩码自编码器（Masked AutoEncoder），该编码器能够在文本描述的帮助下重建随机遮蔽的图像块。这样做可以促使模型在潜在空间中学习更具表达力的表示和更丰富的文本-视觉关系。而属性损失则平衡了不同类型属性的贡献，这些属性被定义为文本中的形容词-名词短语。这种损失确保了每个人体检索过程中每个属性都得到充分考虑。在三个常用的数据库CUHK-PEDES、ICFG-PEDES和RSTPReid上进行的大量实验表明，该方法在性能上有所提升，特别是在平均精度均值（mean Average Precision, mAP）指标上相对于现有技术取得了显著的进步。

源 PDF