
摘要
在获取的数据中存在噪声,这不可避免地会导致跨模态匹配性能的下降。不幸的是,在多模态领域中获得精确注释的成本很高,因此一些方法试图解决跨模态匹配中的不匹配数据对问题,这一问题被称为“噪声对应”(noisy correspondence)。然而,现有的大多数噪声对应方法存在以下局限性:a) 自强化误差累积的问题;b) 不当处理噪声数据对。为了解决这两个问题,我们提出了一种称为“基于秩相关和记忆库半替换的噪声数据对修复框架”(Rank corrElation and noisy Pair hAlf-replacing wIth memoRy, REPAIR)的通用框架,该框架通过维护一个匹配对特征的记忆库来获益。具体而言,我们计算记忆库中的特征与目标对各模态特征之间的距离,并利用这两组距离的秩相关性来估计目标对的软对应标签。基于记忆库特征而不是相似度网络来估计软对应关系可以避免由于网络错误识别导致的误差累积。对于完全不匹配的数据对,REPAIR 会在记忆库中搜索最匹配的特征以替换某一模态的一个特征,而不是直接使用原始数据对或简单地丢弃不匹配的数据对。我们在三个跨模态数据集上进行了实验,即 Flickr30K、MSCOCO 和 CC152K,证明了我们的 REPAIR 框架在合成噪声和真实世界噪声下的有效性和鲁棒性。