2 个月前

TIPCB:一种简单但有效的基于部件的卷积基线模型用于文本辅助的人体搜索

Yuhao Chen; Guoqing Zhang; Yujiang Lu; Zhenxing Wang; Yuhui Zheng; Ruili Wang
TIPCB:一种简单但有效的基于部件的卷积基线模型用于文本辅助的人体搜索
摘要

基于文本的人搜索是图像检索领域的一个子任务,其目标是根据给定的文本描述检索目标人物的图像。两种模态之间的显著特征差异使得这一任务极具挑战性。许多现有方法试图通过局部对齐来解决这一问题,以实现细粒度级别的匹配。然而,大多数相关方法引入了额外的模型或复杂的训练和评估策略,这在实际场景中难以应用。为了促进实际应用,我们提出了一种简单而有效的端到端学习框架——TIPCB(即基于文本-图像局部卷积的基线模型)。首先,提出了一种新颖的双路径局部对齐网络结构,用于提取视觉和文本的局部表示,其中图像被水平分割,文本则进行自适应对齐。然后,我们提出了一种多阶段跨模态匹配策略,该策略从低级、局部和全局三个特征层次消除了模态差异。我们在广泛使用的基准数据集(CUHK-PEDES)上进行了大量实验,结果验证了我们的方法在Top-1、Top-5和Top-10指标上分别优于现有最先进方法3.69%、2.95%和2.31%。我们的代码已发布在https://github.com/OrangeYHChen/TIPCB。