摘要
当我们人类描述一张图片时,通常会先在脑海中隐式地构建一个“脚本”,然后依据这个脚本生成一段连贯的段落。受此启发,我们提出了一种分层场景图编码器-解码器模型(Hierarchical Scene Graph Encoder-Decoder, HSGED),赋予现代基于编码器-解码器的图像段落描述模型类似的生成能力,以生成更加连贯且具有辨识度的段落。具体而言,我们采用图像场景图作为“脚本”,不仅引入了丰富的语义知识,更重要的是融入了分层约束机制。我们设计了一种句子级场景图循环神经网络(SSG-RNN),用于生成子图级别的主题,这些主题进一步约束词级场景图循环神经网络(WSG-RNN)生成相应的句子。在SSG-RNN中,我们引入非冗余注意力机制,以提高从罕见描述子图中抽象出主题的可能性;同时,在WSG-RNN中继承注意力机制,使生成的句子能够更充分地依托所提取的主题信息,从而生成更具语义基础的句子。上述机制共同促进了生成段落的多样性与独特性。此外,我们还提出一种高效的句子级损失函数,以促使生成句子的顺序尽可能接近真实段落的顺序。我们在斯坦福图像段落数据集上对HSGED进行了验证,结果表明,该模型不仅取得了36.02的CIDEr-D新最优得分,还在多种评估指标下均生成了更加连贯且更具辨识度的段落。