7 天前

MMT:基于多模态记忆Transformer的图像引导故事结尾生成

{Changsheng Xu, Quan Fang, Shengsheng Qian, Dizhan Xue}
摘要

作为一种特定形式的故事生成任务,图像引导的故事结尾生成(Image-guided Story Ending Generation, IgSEG)是近年来提出的一项新任务,旨在根据给定的多句故事梗概和一个与结尾相关的图像,生成一个恰当的故事结尾。与现有的图像描述任务或故事结尾生成任务不同,IgSEG的目标是生成一个既符合上下文逻辑、又与视觉内容相关联的事实性描述。然而,迄今为止,现有IgSEG方法普遍忽视了多模态信息之间的内在关联,未能对多模态特征进行有效融合。为此,本文提出一种端到端的多模态记忆Transformer框架——多模态记忆Transformer(Multimodal Memory Transformer, MMT),旨在建模并融合上下文与视觉信息,以有效捕捉IgSEG任务中的多模态依赖关系。首先,我们采用模态专用的大规模预训练编码器分别提取文本和视觉特征。其次,引入基于记忆增强的跨模态注意力网络,以学习跨模态间的关联关系,并实现细粒度的特征融合。最后,多模态Transformer解码器在多模态特征间建立注意力机制,捕获故事内部的语义依赖关系,从而生成信息丰富、合理且连贯的故事结尾。在实验部分,大量自动评估结果与人工评估结果表明,所提出的MMT框架在两个基准数据集上均显著优于当前最先进的方法,展现出优越的性能表现。

MMT:基于多模态记忆Transformer的图像引导故事结尾生成 | 最新论文 | HyperAI超神经