11 天前

基于一致性精炼与挖掘的噪声对应跨模态检索

{Xi Peng, Jiancheng Lv, Peng Hu, Yunfan Li, Mouxing Yang, Xinran Ma}
摘要

现有跨模态检索(Cross-Modal Retrieval, CMR)方法的成功在很大程度上依赖于一个假设:标注的跨模态对应关系是完全准确的。然而在实际应用中,由于数据收集或人工标注过程中的不可避免误差,部分模态对之间的对应关系往往会被污染,从而引发所谓的“噪声对应”(Noisy Correspondence, NC)问题。为缓解NC带来的负面影响,本文提出一种新颖的方法——一致性精炼与挖掘(Consistency REfining And Mining, CREAM),其核心思想在于揭示并利用“对应关系”与“一致性”之间的差异。具体而言,对于真正的正样本对和负样本对,对应关系与一致性是高度一致的;而对于误检的正样本对(假正例)和漏检的负样本对(假负例),二者则呈现出显著差异。基于这一观察,CREAM采用协同学习范式,用于检测并修正正样本对的对应关系;同时引入负样本挖掘机制,主动探索并利用负样本对中蕴含的一致性信息。得益于CREAM所提出的“一致性精炼与挖掘”策略,模型能够有效避免对假正例的过拟合,同时充分挖掘假负例中潜在的一致性特征,从而显著提升跨模态检索的鲁棒性。大量实验验证了该方法在三个主流图像-文本基准数据集(Flickr30K、MS-COCO 和 Conceptual Captions)上的有效性。此外,我们将该方法拓展至图匹配任务,结果进一步表明,CREAM在应对细粒度噪声对应问题时仍具有优异的鲁棒性。代码已开源,地址为:https://github.com/XLearning-SCU/2024-TIP-CREAM。

基于一致性精炼与挖掘的噪声对应跨模态检索 | 最新论文 | HyperAI超神经