摘要
跨模态匹配近年来受到广泛关注,被用于促进多模态数据之间的检索任务。现有方法普遍依赖于一个隐含假设:训练数据对是完全对齐的。然而,由于不可避免的数据错配(即噪声对应关系),这一理想假设在现实中几乎无法成立。噪声对应关系会错误地促使错配的数据对趋于相似,从而导致模型性能下降。尽管近期已有部分方法尝试解决该问题,但仍面临两大挑战:1)训练过程中数据划分不可靠,导致训练效率低下;2)匹配预测不稳定,易引发匹配失败。为应对上述问题,本文提出一种高效且鲁棒的不确定性引导噪声对应学习框架(Uncertainty-Guided Noisy Correspondence Learning, UGNCL),以实现对噪声具有强鲁棒性的跨模态匹配。具体而言,我们设计了一种新颖的不确定性引导划分(Uncertainty Guided Division, UGD)算法,通过有效利用数据样本所蕴含的不确定性信息,将训练数据划分为“干净”、“噪声”和“困难”三类子集。该机制能够有效缓解易识别噪声对的负面影响。同时,我们提出一种高效的可信鲁棒损失函数(Trusted Robust Loss, TRL),通过不确定性度量,对“困难”子集中数据对的软边界进行重构。该损失函数基于置信但可能存在误差的软对应标签,动态调整匹配对与非匹配对的重要性权重,即增强匹配对的贡献、抑制非匹配对的影响,从而显著降低噪声数据对模型训练的干扰,进一步提升整体匹配鲁棒性。在三个公开数据集上开展的大量实验充分验证了所提框架的优越性,结果表明其性能在多个指标上均优于当前最先进的方法。相关代码已开源,地址为:https://github.com/qxzha/UGNCL。