
摘要
跨模态检索是一项基础的视觉-语言任务,具有广泛的实际应用价值。其中,文本到图像匹配是最常见的跨模态检索形式:给定一个大规模图像数据库和一个文本查询,任务目标是检索出最相关的图像集合。现有方法通常采用双编码器架构,结合注意力机制与排序损失(ranking loss),以学习可用于基于余弦相似度进行检索的嵌入表示。尽管这些方法通过定制化的注意力机制尝试在视觉区域与文本词语之间实现语义对齐,但其训练目标并未显式地施加约束以强制这种对齐。为解决上述问题,我们提出了一种新颖的正则化方法——NAPReg(Noun-Aware Proxy Regularization),该方法将高层语义实体(即名词)显式地投影到嵌入空间中,作为共享的可学习代理(learnable proxies)。实验表明,该方法不仅有助于注意力机制学习更精准的词-区域对齐关系,还能利用其他样本中的区域信息,构建更具泛化能力的语义概念潜在表示。在三个基准数据集(MS-COCO、Flickr30k 和 Flickr8k)上的实验结果表明,我们的方法在文本-图像与图像-文本跨模态检索任务中均达到了当前最优的度量学习性能。代码已开源:https://github.com/bhavinjawade/NAPReg