2 个月前

BiCro:通过双向跨模态相似性一致性进行多模态数据的噪声对应校正

Yang, Shuo ; Xu, Zhaopan ; Wang, Kai ; You, Yang ; Yao, Hongxun ; Liu, Tongliang ; Xu, Min
BiCro:通过双向跨模态相似性一致性进行多模态数据的噪声对应校正
摘要

作为多模态学习中最基本的技术之一,跨模态匹配旨在将不同的感官模态投影到一个共享的特征空间中。为了实现这一目标,模型训练需要大量的且对齐正确的数据对。然而,与单模态数据集不同,多模态数据集的收集和精确标注要困难得多。作为一种替代方案,从互联网上收集的共现数据对(例如,图像-文本对)在该领域得到了广泛应用。不幸的是,廉价收集的数据集不可避免地包含许多不匹配的数据对,这些不匹配的数据对已被证明会对模型性能产生负面影响。为了解决这一问题,我们提出了一种称为BiCro(双向跨模态相似性一致性)的通用框架,该框架可以轻松集成到现有的跨模态匹配模型中,并提高其对抗噪声数据的鲁棒性。具体而言,BiCro旨在为噪声数据对估计软标签,以反映它们的真实对应程度。BiCro的基本思想来源于这样一个观点——以图像-文本匹配为例——相似的图像应该有相似的文本描述,反之亦然。然后,这两种相似性的 consistency 可以被重新表述为估计的软标签来训练匹配模型。我们在三个流行的跨模态匹配数据集上的实验表明,我们的方法显著提高了各种匹配模型的抗噪能力,并且明显超越了现有最先进方法的表现。

BiCro:通过双向跨模态相似性一致性进行多模态数据的噪声对应校正 | 最新论文 | HyperAI超神经