摘要

现有跨模态检索（Cross-Modal Retrieval, CMR）方法的成功在很大程度上依赖于一个假设：标注的跨模态对应关系是完全准确的。然而在实际应用中，由于数据收集或人工标注过程中的不可避免误差，部分模态对之间的对应关系往往会被污染，从而引发所谓的“噪声对应”（Noisy Correspondence, NC）问题。为缓解NC带来的负面影响，本文提出一种新颖的方法——一致性精炼与挖掘（Consistency REfining And Mining, CREAM），其核心思想在于揭示并利用“对应关系”与“一致性”之间的差异。具体而言，对于真正的正样本对和负样本对，对应关系与一致性是高度一致的；而对于误检的正样本对（假正例）和漏检的负样本对（假负例），二者则呈现出显著差异。基于这一观察，CREAM采用协同学习范式，用于检测并修正正样本对的对应关系；同时引入负样本挖掘机制，主动探索并利用负样本对中蕴含的一致性信息。得益于CREAM所提出的“一致性精炼与挖掘”策略，模型能够有效避免对假正例的过拟合，同时充分挖掘假负例中潜在的一致性特征，从而显著提升跨模态检索的鲁棒性。大量实验验证了该方法在三个主流图像-文本基准数据集（Flickr30K、MS-COCO 和 Conceptual Captions）上的有效性。此外，我们将该方法拓展至图匹配任务，结果进一步表明，CREAM在应对细粒度噪声对应问题时仍具有优异的鲁棒性。代码已开源，地址为：https://github.com/XLearning-SCU/2024-TIP-CREAM。

源 PDF 查看代码