2 个月前

情境故事:基于空间增强和情节背景的一致性视觉叙事

Sixiao Zheng; Yanwei Fu
情境故事:基于空间增强和情节背景的一致性视觉叙事
摘要

视觉叙事涉及从文本故事线生成一系列连贯的画面,同时保持角色和场景的一致性。现有的自回归方法依赖于先前的画面-句子对,但在高内存使用、缓慢的生成速度和有限的上下文整合方面存在困难。为了解决这些问题,我们提出了ContextualStory,这是一种新颖的框架,旨在生成连贯的故事画面并扩展用于视觉叙事的画面。ContextualStory利用空间增强时间注意力(Spatially-Enhanced Temporal Attention)来捕捉空间和时间依赖关系,有效处理显著的角色移动。此外,我们引入了故事线上下文器(Storyline Contextualizer),以丰富故事线嵌入中的上下文信息,并引入了故事流适配器(StoryFlow Adapter),用于测量画面之间的场景变化以指导模型。在PororoSV和FlintstonesSV数据集上的大量实验表明,ContextualStory在故事可视化和延续方面显著优于现有的最先进方法。代码可在https://github.com/sixiaozheng/ContextualStory 获取。