2 个月前
自动合成数据与细粒度自适应特征对齐在组合人物检索中的应用
Liu, Delong ; Li, Haiwen ; Hou, Zhaohui ; Zhao, Zhicheng ; Su, Fei ; Dong, Yuan

摘要
人物检索近年来受到了越来越多的关注。现有的方法主要分为两种检索模式,即仅图像和仅文本。然而,这些方法无法充分利用可用信息,难以满足多样化的应用需求。为了解决上述局限性,我们提出了一种新的组合人物检索(Composed Person Retrieval, CPR)任务,该任务结合了视觉和文本查询,从大规模人物图像数据库中识别出感兴趣的个体。然而,CPR任务面临的首要难题是缺乏可用的标注数据集。因此,我们首先介绍了一种可扩展的自动数据合成管道,该管道将复杂的多模态数据生成分解为文本四元组的创建,随后利用微调的生成模型进行身份一致的图像合成。同时,设计了一种多模态过滤方法,以确保生成的SynCPR数据集保留了115万个高质量且完全合成的三元组。此外,为了提高组合人物查询的表示能力,我们提出了一种新颖的细粒度自适应特征对齐(Fine-grained Adaptive Feature Alignment, FAFA)框架,通过细粒度动态对齐和掩码特征推理实现这一目标。此外,为了客观评估性能,我们手动标注了图像-文本组合人物检索(Image-Text Composed Person Retrieval, ITCPR)测试集。广泛的实验表明,SynCPR数据集的有效性和所提出的FAFA框架在与现有最先进方法相比时的优势。所有代码和数据将在以下网址提供:https://github.com/Delong-liu-bupt/Composed_Person_Retrieval.