8 个月前

摘要

基于文本的人检索旨在根据文本描述找到查询对象。其关键在于学习视觉和文本模态之间的共同潜在空间映射。为了实现这一目标，现有的研究工作采用了分割方法以获得显式的跨模态对齐，或者利用注意力机制来探索显著的对齐关系。然而，这些方法存在两个缺点：1）标注跨模态对齐关系耗时较长；2）注意力机制虽然可以探索显著的跨模态对齐关系，但可能会忽略一些细微而有价值的关系。为了解决这些问题，我们引入了一种隐式视觉-文本（IVT）框架用于基于文本的人检索。与以往模型不同，IVT 使用单一网络来学习两种模态的表示，从而促进视觉和文本之间的交互。为了探索细粒度的对齐关系，我们进一步提出了两种隐式语义对齐范式：多层级对齐（MLA）和双向掩码建模（BMM）。MLA 模块在句子、短语和单词层面进行更精细的匹配，而 BMM 模块则致力于挖掘视觉和文本模态之间更多的语义对齐关系。我们在公共数据集上进行了广泛的实验以评估所提出的 IVT 框架，包括 CUHK-PEDES、RSTPReID 和 ICFG-PEDES 数据集。即使没有显式的身体部位对齐，我们的方法仍然达到了最先进的性能。代码可在以下地址获取：https://github.com/TencentYoutuResearch/PersonRetrieval-IVT。

源 PDF 查看代码