2 个月前

跨模态主动互补学习与自精炼对应关系

Qin, Yang ; Sun, Yuan ; Peng, Dezhong ; Zhou, Joey Tianyi ; Peng, Xi ; Hu, Peng
跨模态主动互补学习与自精炼对应关系
摘要

近年来,图像-文本匹配引起了学术界和工业界的越来越多关注,这是理解视觉和文本模态之间潜在对应关系的基础。然而,大多数现有方法隐含地假设训练对齐是准确的,而忽略了普遍存在的标注噪声(即噪声对应,Noisy Correspondence, NC),从而不可避免地导致性能下降。尽管一些方法试图解决这种噪声问题,但它们仍然面临两个挑战:过度记忆/过拟合以及在高噪声条件下对NC的不可靠校正。为了解决这两个问题,我们提出了一种广义的跨模态鲁棒互补学习框架(Cross-modal Robust Complementary Learning, CRCL),该框架通过引入一种新颖的主动互补损失(Active Complementary Loss, ACL)和高效的自精炼对应校正(Self-refining Correspondence Correction, SCC)来提高现有方法的鲁棒性。具体而言,ACL利用主动学习和互补学习损失来降低提供错误监督的风险,从而在理论上和实验上证明了其对NC的鲁棒性。SCC则通过动量校正的多次自精炼过程扩展了接收域,以校正对应关系,从而减轻误差累积并实现准确且稳定的校正。我们在三个图像-文本基准数据集(Flickr30K、MS-COCO 和 CC152K)上进行了广泛的实验,验证了我们的CRCL在合成噪声和真实世界噪声对应下的优越鲁棒性。

跨模态主动互补学习与自精炼对应关系 | 最新论文 | HyperAI超神经