2 个月前

基于上下文记忆的在线文本增强故事可视化

Daechul Ahn; Daneul Kim; Gwangmo Song; Seung Hwan Kim; Honglak Lee; Dongyeop Kang; Jonghyun Choi
基于上下文记忆的在线文本增强故事可视化
摘要

故事可视化(SV)是一项具有挑战性的文本到图像生成任务,不仅需要从文本描述中渲染视觉细节,还要在多个句子之间编码长期上下文。尽管先前的研究主要集中在为每个句子生成语义相关的图像,但在给定段落中编码广泛分布的上下文以生成具有上下文说服力的图像(例如,正确的角色或适当的场景背景)仍然是一个难题。为此,我们提出了一种新颖的记忆架构,该架构基于双向Transformer框架,并结合在线文本增强技术,在训练过程中生成多个伪描述作为补充监督,以提高对推理时语言变化的泛化能力。在两个流行的SV基准数据集——Pororo-SV和Flintstones-SV上进行的大量实验表明,所提出的方法在FID、角色F1、帧准确率、BLEU-2/3和R-精度等多种指标上显著优于现有方法,且计算复杂度相似或更低。

基于上下文记忆的在线文本增强故事可视化 | 最新论文 | HyperAI超神经