
摘要
在本文中,我们提出了一种多模态卷积神经网络(m-CNN)用于图像与句子的匹配。我们的m-CNN提供了一个端到端的框架,通过卷积架构来利用图像表示、词语组合以及两种模态之间的匹配关系。具体而言,该模型由一个图像CNN编码图像内容,以及一个匹配CNN学习图像和句子的联合表示组成。匹配CNN将词语组合成不同的语义片段,并在不同层次上学习图像与这些组合片段之间的跨模态关系,从而充分挖掘图像与句子之间的匹配关系。实验结果表明,在双向图像和句子检索的基准数据库上,所提出的m-CNN能够有效捕捉图像与句子匹配所需的信息。特别是在Flickr30K和Microsoft COCO数据库上的双向图像和句子检索任务中,我们提出的m-CNN达到了当前最先进的性能。