6 个月前

摘要

跨模态匹配旨在建立两种不同模态之间的对应关系，是跨模态检索、视觉与语言理解等众多任务的基础。尽管近年来已提出大量跨模态匹配方法，并取得了显著进展，但几乎所有的现有方法都隐含假设：多模态训练数据已正确对齐。然而在实际应用中，这一假设往往成本极高，甚至难以实现。基于这一观察，本文揭示并深入研究了一个潜在且具有挑战性的新方向——噪声对应（noisy correspondence），可被视为噪声标签的一种新范式。与传统噪声标签主要指类别标签错误不同，本文所指的噪声对应特指样本对之间的错配问题。为应对这一新挑战，我们提出一种面向噪声对应的学习方法，命名为噪声对应修正器（Noisy Correspondence Rectifier, NCR）。简言之，NCR利用神经网络的记忆效应，将数据划分为干净样本与噪声样本两部分，并通过一种自适应预测模型，以协同教学（co-teaching）的方式对对应关系进行修正。为验证所提方法的有效性，我们以图像-文本匹配任务作为典型案例展开实验。在Flickr30K、MS-COCO和Conceptual Captions三个公开数据集上的大量实验结果表明，NCR在处理噪声对应问题上具有显著优势。相关代码已公开，可访问：www.pengxi.me。

源 PDF 查看代码