2 个月前
GLAC Net:多图像提示故事生成的全局局部注意力级联网络
Taehyeong Kim; Min-Oh Heo; Seonil Son; Kyoung-Wha Park; Byoung-Tak Zhang

摘要
多图像提示的故事生成任务,例如视觉故事数据集(VIST)挑战,旨在从给定的一系列图像中生成多个连贯的句子。主要难点在于如何在整体图像的背景下生成特定于每张图像的句子。本文提出了一种深度学习网络模型——GLAC Net,该模型通过结合全局-局部(glocal)注意力机制和上下文级联机制来生成视觉故事。该模型在两个层次上应用了注意力机制,即整体编码层和图像特征层,以构建依赖于图像的句子。虽然标准的注意力配置需要大量的参数,但GLAC Net通过从编码器输出或图像特征到句子生成器之间的硬连接以非常简单的方式实现了这一点。此外,通过逐句传递(级联)前一句的信息到下一句,进一步提高了生成故事的连贯性。我们在视觉故事数据集(VIST)上评估了GLAC Net的性能,并取得了与现有最先进技术相当的竞争结果。我们的代码和预训练模型可在此处获取。