2 个月前
具有实例损失的双路径卷积图像-文本嵌入
Zheng, Zhedong ; Zheng, Liang ; Garrett, Michael ; Yang, Yi ; Xu, Mingliang ; Shen, Yi-Dong

摘要
匹配图像和句子需要对两者有深入的理解。在本文中,我们提出了一种新的系统,用于将图像和文本判别性地嵌入到一个共享的视觉-文本空间中。在这一领域,大多数现有工作采用排序损失(ranking loss)来拉近正样本的图像/文本对,并将负样本的对推开。然而,直接应用排序损失对于网络学习来说较为困难,因为它是从两种异构特征出发构建跨模态关系。为了解决这一问题,我们提出了实例损失(instance loss),该损失显式地考虑了模态内的数据分布。其基于一种无监督假设,即每个图像/文本组可以被视为一个类别。因此,网络可以从每个图像/文本组中学习到细粒度的信息。实验表明,实例损失为排序损失提供了更好的权重初始化,从而能够学习到更具判别性的嵌入表示。此外,现有的研究通常使用现成的特征,例如word2vec和固定的视觉特征。作为本文的一个次要贡献,我们构建了一个端到端的双路径卷积网络来学习图像和文本表示。端到端的学习使得系统可以直接从数据中进行学习,并充分利用监督信息。在两个通用检索数据集(Flickr30k和MSCOCO)上进行的实验表明,我们的方法在准确性方面与现有最先进方法相当。此外,在基于语言的人脸检索任务中,我们的方法大幅提升了现有技术水平。代码已公开发布。