摘要
在本文中,我们研究了一个具有挑战性但尚未得到充分关注的跨模态检索问题,即部分错配对(Partially Mismatched Pairs, PMPs)。具体而言,在现实场景中,大量多媒体数据(如Conceptual Captions数据集)来源于互联网,因此不可避免地会将一些无关的跨模态样本误判为匹配对。毫无疑问,此类PMP问题会显著降低跨模态检索的性能。为应对这一挑战,我们提出了一种统一的理论框架——鲁棒跨模态学习(Robust Cross-modal Learning, RCL),该框架基于跨模态检索风险的无偏估计器,旨在赋予跨模态检索方法对PMP的鲁棒性。具体而言,我们的RCL框架引入了一种新颖的互补对比学习范式,以应对以下两个关键挑战:过拟合与欠拟合问题。一方面,我们的方法仅利用负样本信息,而这些负样本相较于正样本更少出现误标情况,从而有效避免了对PMP的过拟合。然而,此类鲁棒性策略可能引发欠拟合问题,导致模型训练更加困难。另一方面,为缓解由弱监督带来的欠拟合问题,我们提出充分利用所有可用的负样本对,以增强负样本信息中所蕴含的监督信号。此外,为进一步提升性能,我们提出最小化风险的上界,从而更加关注困难样本的学习。为验证所提方法的有效性与鲁棒性,我们在五个广泛使用的基准数据集上进行了全面实验,针对图像-文本和视频-文本检索任务,与九种先进的主流方法进行了对比。实验结果表明,所提方法在多种场景下均表现出优越的性能。相关代码已开源,地址为:https://github.com/penghu-cs/RCL。