2 个月前

见微知著:基于文本的人检索中的隐式模态对齐

Shu, Xiujun ; Wen, Wei ; Wu, Haoqian ; Chen, Keyu ; Song, Yiran ; Qiao, Ruizhi ; Ren, Bo ; Wang, Xiao
见微知著:基于文本的人检索中的隐式模态对齐
摘要

基于文本的人检索旨在根据文本描述找到查询对象。其关键在于学习视觉和文本模态之间的共同潜在空间映射。为了实现这一目标,现有的研究工作采用了分割方法以获得显式的跨模态对齐,或者利用注意力机制来探索显著的对齐关系。然而,这些方法存在两个缺点:1)标注跨模态对齐关系耗时较长;2)注意力机制虽然可以探索显著的跨模态对齐关系,但可能会忽略一些细微而有价值的关系。为了解决这些问题,我们引入了一种隐式视觉-文本(IVT)框架用于基于文本的人检索。与以往模型不同,IVT 使用单一网络来学习两种模态的表示,从而促进视觉和文本之间的交互。为了探索细粒度的对齐关系,我们进一步提出了两种隐式语义对齐范式:多层级对齐(MLA)和双向掩码建模(BMM)。MLA 模块在句子、短语和单词层面进行更精细的匹配,而 BMM 模块则致力于挖掘视觉和文本模态之间更多的语义对齐关系。我们在公共数据集上进行了广泛的实验以评估所提出的 IVT 框架,包括 CUHK-PEDES、RSTPReID 和 ICFG-PEDES 数据集。即使没有显式的身体部位对齐,我们的方法仍然达到了最先进的性能。代码可在以下地址获取:https://github.com/TencentYoutuResearch/PersonRetrieval-IVT。

见微知著:基于文本的人检索中的隐式模态对齐 | 最新论文 | HyperAI超神经