
摘要
跨模态匹配旨在建立两种不同模态之间的对应关系,是跨模态检索、视觉与语言理解等众多任务的基础。尽管近年来已提出大量跨模态匹配方法,并取得了显著进展,但几乎所有的现有方法都隐含假设:多模态训练数据已正确对齐。然而在实际应用中,这一假设往往成本极高,甚至难以实现。基于这一观察,本文揭示并深入研究了一个潜在且具有挑战性的新方向——噪声对应(noisy correspondence),可被视为噪声标签的一种新范式。与传统噪声标签主要指类别标签错误不同,本文所指的噪声对应特指样本对之间的错配问题。为应对这一新挑战,我们提出一种面向噪声对应的学习方法,命名为噪声对应修正器(Noisy Correspondence Rectifier, NCR)。简言之,NCR利用神经网络的记忆效应,将数据划分为干净样本与噪声样本两部分,并通过一种自适应预测模型,以协同教学(co-teaching)的方式对对应关系进行修正。为验证所提方法的有效性,我们以图像-文本匹配任务作为典型案例展开实验。在Flickr30K、MS-COCO和Conceptual Captions三个公开数据集上的大量实验结果表明,NCR在处理噪声对应问题上具有显著优势。相关代码已公开,可访问:www.pengxi.me。