2 个月前

StoryDALL-E：适应预训练文本到图像变换器以实现故事延续

Adyasha Maharana; Darryl Hannan; Mohit Bansal

摘要

近期在文本到图像合成领域的进展已经催生出具有从给定文本生成高质量可视化能力的大型预训练变压器模型。然而，这些模型并不适合诸如故事可视化等专门任务，这类任务需要根据一系列对应的字幕生成一系列图像，以形成一个连贯的叙述。此外，我们发现故事可视化任务难以适应新叙述中的未见过的情节和角色。因此，我们首先提出了一个名为“故事延续”的任务，其中生成的视觉故事基于源图像进行条件化处理，从而更好地适应包含新角色的叙述。接下来，我们通过添加特定于任务的模块来增强或“逆向适配”（retro-fit）预训练的文本到图像合成模型，具体包括：(a) 顺序图像生成；(b) 从初始帧复制相关元素。随后，我们探讨了对预训练模型进行全面微调以及基于提示的参数高效微调方法。我们在两个现有的数据集 PororoSV 和 FlintstonesSV 上评估了我们的方法 StoryDALL-E，并引入了一个新的数据集 DiDeMoSV，该数据集是从视频字幕数据集中收集而来的。此外，我们开发了一种基于生成对抗网络（GAN）的故事延续模型 StoryGANc，并将其与 StoryDALL-E 模型进行了比较，以展示我们方法的优势。结果表明，我们的逆向适配方法在故事延续任务中优于基于 GAN 的模型，并且有助于从源图像中复制视觉元素，从而提高了生成视觉故事的连贯性。最后，我们的分析表明，预训练变压器模型在理解包含多个角色的叙述时存在困难。总体而言，我们的研究展示了预训练文本到图像合成模型可以通过逆向适配方法适应复杂且资源有限的任务如故事延续。