摘要
图像-文本匹配(Image-Text Matching, ITM)旨在建立图像与句子之间的语义对应关系,是视觉与语言理解各类任务的基础。然而,现有ITM基准数据集的构建方式存在局限性。当前ITM基准在构建过程中仅收集图像与句子的配对样本,因此仅在采集时配对的样本被标注为正例,其余所有样本均被标注为负例。这一标注策略导致大量本应为正例的样本被错误标注为负例,从而引入“伪负例”(false negatives)。例如,在采集时某一句子仅与某一张图像配对,因此只有该图像被标注为正例,其余所有图像均被标注为负例。然而,这些被标注为负例的图像中,可能实际上与该句子存在语义对应关系。由于这些样本被错误标注,现有ITM模型在训练过程中基于包含此类误标数据的标注进行优化,不可避免地引入噪声,影响模型性能。针对上述问题,本文提出一种融合语言引导(Language Guidance, LG)的ITM框架,用于识别并纠正伪负例。该框架引入预训练语言模型,以检测潜在的伪负例。为进一步修正伪负例,我们提出一种语言引导损失(language guidance loss),该损失函数能够自适应地调整伪负例在视觉-语义嵌入空间中的位置,使其向正确的语义区域迁移。在两个主流ITM基准上的大量实验表明,所提方法可有效提升现有ITM模型的性能。为进一步验证伪负例纠正的有效性,我们在ECCV Caption数据集上进行了额外实验。ECCV Caption是一个经过人工验证的高质量数据集,其标注中的伪负例已被修正。实验结果表明,本文方法能够有效召回更多原本被错误标注为负例但实际相关的样本,显著提升了模型对真实语义对应关系的识别能力。