3 个月前
想象、推理与写作:基于图知识与关系推理的视觉叙事
{and Ruifeng Xu, Xiang Ao, Ying Shen, Chengming Li, Min Yang, Chunpu Xu}
摘要
视觉叙事是一项基于图像序列生成短篇故事的任务。与视觉字幕(visual captions)不同,视觉叙事不仅包含图像中的事实性描述,还融入了图像中并未直接呈现的想象性内容。本文提出一种新颖的“想象-推理-生成”(Imagine-Reason-Write, IRW)框架,该框架受人类创作故事逻辑的启发。首先,引入一个“想象模块”,显式地学习具有想象力的故事情节,从而提升生成故事的连贯性与合理性。其次,设计一个“推理模块”,通过关系推理方法,充分挖掘外部知识(如常识知识库)以及任务特定知识(如场景图与事件图),以增强对图像中对象间语义关系的理解。由此,能够有效捕捉图像中最具信息量的常识性与视觉关联,显著提升生成故事的多样性与信息丰富度。最后,将想象性概念与关系知识融合,基于原始图像语义生成具有人类风格的叙事内容。在标准基准数据集(VIST)上的大量实验表明,所提出的IRW框架在多项评估指标上均显著优于当前最先进的方法。