
摘要
我们提出了一种生成图像及其区域自然语言描述的模型。该方法利用包含图像及其句子描述的数据集来学习语言和视觉数据之间的跨模态对应关系。我们的对齐模型基于一种新颖的组合,包括在图像区域上应用的卷积神经网络(Convolutional Neural Networks)、在句子上应用的双向循环神经网络(bidirectional Recurrent Neural Networks)以及一个通过多模态嵌入将两种模态对齐的结构化目标函数。随后,我们描述了一种多模态循环神经网络架构,该架构利用推断出的对齐关系来学习生成新的图像区域描述。我们展示了我们的对齐模型在Flickr8K、Flickr30K和MSCOCO数据集上的检索实验中取得了最先进的结果。此外,我们还证明了生成的描述在完整图像和一个新的区域级注释数据集上显著优于检索基线方法。