
摘要
图像与句子匹配近年来取得了显著进展,但由于视觉-语义差异较大,这一任务仍然充满挑战。这种差异主要源于像素级图像表示通常缺乏与其匹配句子中的高层次语义信息。在本研究中,我们提出了一种语义增强的图像与句子匹配模型,该模型通过学习语义概念并将其按正确的语义顺序组织来改进图像表示。给定一张图像,我们首先使用多区域多标签卷积神经网络(CNN)预测其语义概念,包括物体、属性、动作等。考虑到不同顺序的语义概念会导致不同的语义含义,我们采用了一种上下文门控的句子生成方案来进行语义顺序的学习。该方案同时利用包含概念关系的图像全局上下文作为参考,并以匹配句子中的真实语义顺序作为监督。在获得改进后的图像表示后,我们使用传统的长短期记忆网络(LSTM)学习句子表示,然后联合进行图像与句子匹配及句子生成以完成模型训练。大量实验表明,我们所学习的语义概念及其顺序的有效性,在两个公开基准数据集上达到了最先进的结果。