HyperAIHyperAI

Command Palette

Search for a command to run...

基于噪声对应关系的跨模态匹配学习

Xi Peng Hua Wu Xinyan Xiao Wenbiao Ding Xiao Liu guocheng niu Zhenyu Huang

摘要

跨模态匹配旨在建立两种不同模态之间的对应关系,是跨模态检索、视觉与语言理解等众多任务的基础。尽管近年来已提出大量跨模态匹配方法,并取得了显著进展,但几乎所有的现有方法都隐含假设:多模态训练数据已正确对齐。然而在实际应用中,这一假设往往成本极高,甚至难以实现。基于这一观察,本文揭示并深入研究了一个潜在且具有挑战性的新方向——噪声对应(noisy correspondence),可被视为噪声标签的一种新范式。与传统噪声标签主要指类别标签错误不同,本文所指的噪声对应特指样本对之间的错配问题。为应对这一新挑战,我们提出一种面向噪声对应的学习方法,命名为噪声对应修正器(Noisy Correspondence Rectifier, NCR)。简言之,NCR利用神经网络的记忆效应,将数据划分为干净样本与噪声样本两部分,并通过一种自适应预测模型,以协同教学(co-teaching)的方式对对应关系进行修正。为验证所提方法的有效性,我们以图像-文本匹配任务作为典型案例展开实验。在Flickr30K、MS-COCO和Conceptual Captions三个公开数据集上的大量实验结果表明,NCR在处理噪声对应问题上具有显著优势。相关代码已公开,可访问:www.pengxi.me


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供