
摘要
基于文本到图像的人检索旨在根据给定的文本描述查询识别目标人物。主要挑战在于学习视觉和文本模态之间的映射,将其转化为一个共同的潜在空间。先前的研究尝试通过利用分别预训练的单模态模型来提取视觉和文本特征,以解决这一挑战。然而,这些方法缺乏有效匹配多模态数据所需的底层对齐能力。此外,这些研究使用先验信息来探索显式的局部对齐,这可能导致模态内信息的失真。为了解决这些问题,我们提出了一种跨模态隐式关系推理与对齐框架(IRRA),该框架学习局部视觉-文本标记之间的关系,并在无需额外先验监督的情况下增强全局图像-文本匹配。具体而言,我们首先设计了一个在掩码语言建模范式下的隐式关系推理模块。该模块通过使用跨模态多模态交互编码器将视觉线索整合到文本标记中,实现跨模态交互。其次,为了全局对齐视觉和文本嵌入,我们提出了相似度分布匹配方法,通过最小化图像-文本相似度分布与归一化的标签匹配分布之间的KL散度来实现这一目标。所提出的方法在三个公开数据集上均取得了新的最佳结果,与先前方法相比,在Rank-1准确率方面有显著提升,约3%-9%的提高。