9 天前

字符保持的连贯故事可视化

{Hong-Han Shuai, Huiao-Han Lu, Hung-Jen Chen, Zhi Rui Tam, Yun-Zhu Song}
字符保持的连贯故事可视化
摘要

故事可视化旨在生成一系列图像,以逐句叙述多句构成的故事内容。与注重生成图像(帧)之间连续性的视频生成不同,故事可视化更强调在不同故事画面之间保持角色和场景的全局一致性,这一任务极具挑战性,因为故事语句仅提供稀疏的图像生成信号。为此,我们提出一种名为角色保持型连贯故事可视化(Character-Preserving Coherent Story Visualization, CP-CSV)的新框架,以应对上述挑战。CP-CSV通过三个关键模块实现高效的故事可视化:故事与上下文编码器(用于学习故事及句子的表征)、前景-背景分割(作为辅助任务,提供维持角色与故事一致性的信息),以及前景-背景感知生成(通过融合前景-背景信息实现图像序列的生成)。此外,我们提出一种名为弗雷歇故事距离(Fréchet Story Distance, FSD)的新评估指标,用于衡量故事可视化任务的性能。大量实验结果表明,CP-CSV能够有效保留角色的细节信息,并在不同帧之间实现高度一致的视觉表现,而FSD指标相较于传统方法更准确地反映了故事可视化任务的实际性能。

字符保持的连贯故事可视化 | 最新论文 | HyperAI超神经