
摘要
有效的图像与句子匹配依赖于如何准确测量它们的全局视觉-语义相似度。基于观察到这种全局相似度源自图像(对象)和句子(单词)实例之间多个局部相似度的复杂聚合,我们提出了一种选择性的多模态长短期记忆网络(sm-LSTM),用于实例感知的图像与句子匹配。sm-LSTM 在每个时间步包含一个多模态上下文调节注意力机制,可以有选择地关注图像和句子的一对实例,通过预测图像和句子的实例感知显著图来实现这一目标。对于选定的一对实例,其表示是根据预测的显著图获得的,然后进行比较以测量它们的局部相似度。通过在几个时间步内类似地测量多个局部相似度,sm-LSTM 依次将这些局部相似度与隐藏状态聚合,最终得到所需的全局相似度评分。广泛的实验表明,我们的模型能够很好地匹配具有复杂内容的图像和句子,并在两个公开基准数据集上取得了最先进的结果。