HyperAIHyperAI

Command Palette

Search for a command to run...

基于深度跨模态投影学习的图像-文本匹配

Huchuan Lu Ying Zhang

摘要

图像-文本匹配的关键在于如何准确度量视觉与文本输入之间的相似性。尽管通过双向排序损失(bi-directional ranking loss)将深度跨模态嵌入进行关联已取得显著进展,但在实际应用中,如何有效挖掘有用的三元组样本并合理选择合适的边界(margin)仍是亟待解决的挑战。本文提出了一种跨模态投影匹配(Cross-modal Projection Matching, CMPM)损失函数和一种跨模态投影分类(Cross-modal Projection Classification, CMPC)损失函数,用于学习具有区分性的图像-文本嵌入表示。CMPM损失通过最小化投影兼容性分布与基于小批量中所有正负样本定义的归一化匹配分布之间的KL散度,实现更精确的匹配建模。CMPC损失则采用改进的范数Softmax损失,对一种模态的表示向量投影到另一模态空间时进行分类,以进一步增强各类别特征的紧凑性。在多个数据集上的大量分析与实验结果表明,所提出方法在图像-文本匹配任务中具有显著优势。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供