
摘要
我们提出了一种用于跨模态检索的视觉-语义嵌入学习的新技术。受难例挖掘(hard negative mining)、结构预测中难例的使用以及排序损失函数的启发,我们在多模态嵌入常用的损失函数中引入了一个简单的改进。结合微调和增强数据的使用,这一改进显著提升了检索性能。我们通过消融研究和与现有方法的对比,在MS-COCO和Flickr30K数据集上展示了我们的方法VSE++。在MS-COCO数据集中,我们的方法在标题检索方面比最先进的方法高出8.8%,在图像检索方面高出11.3%(R@1)。
我们提出了一种用于跨模态检索的视觉-语义嵌入学习的新技术。受难例挖掘(hard negative mining)、结构预测中难例的使用以及排序损失函数的启发,我们在多模态嵌入常用的损失函数中引入了一个简单的改进。结合微调和增强数据的使用,这一改进显著提升了检索性能。我们通过消融研究和与现有方法的对比,在MS-COCO和Flickr30K数据集上展示了我们的方法VSE++。在MS-COCO数据集中,我们的方法在标题检索方面比最先进的方法高出8.8%,在图像检索方面高出11.3%(R@1)。