
摘要
图像段落生成是指生成一个连贯的故事(通常是一段文字),以描述图像中的视觉内容。然而,这一问题并不简单,尤其是在需要考虑多个描述性和多样化的要点时,这种情况在真实图像中经常出现。一个合理的问题是如何从图像中提取出值得提及的这些要点/主题,并且从一个主题到另一个主题整体地、连贯地描述图像。本文提出了一种新的设计——卷积自编码器(Convolutional Auto-Encoding, CAE),该方法完全采用卷积和反卷积自编码框架对图像的区域级特征进行主题建模。此外,我们还提出了一种架构,即CAE结合长短期记忆网络(称为CAE-LSTM),创新性地将学习到的主题整合到段落生成中。技术上,CAE-LSTM利用了具有注意力机制的两级LSTM段落生成框架。段落级别的LSTM捕捉段落中句子之间的依赖关系,而句子级别的LSTM则根据每个学习到的主题生成一句话。我们在斯坦福大学的图像段落数据集上进行了广泛的实验,并报告了与现有最先进方法相比的优越结果。尤为显著的是,CAE-LSTM将CIDEr性能从20.93%提升到了25.15%。