2 个月前

使用自回归潜在扩散模型合成连贯故事

Xichen Pan; Pengda Qin; Yuhong Li; Hui Xue; Wenhu Chen
使用自回归潜在扩散模型合成连贯故事
摘要

条件扩散模型在文本到图像合成方面展示了最先进的能力。近期,大多数研究集中在生成独立的图像;然而,在实际应用中,通常需要生成一系列连贯的图像来讲述故事。在这项工作中,我们主要关注故事可视化和延续任务,并提出了一种自回归条件下的潜在扩散模型——AR-LDM,该模型基于历史描述和已生成的图像进行条件训练。此外,AR-LDM 通过适应可以推广到新角色。据我们所知,这是首次成功利用扩散模型实现连贯视觉故事合成的工作。定量结果显示,AR-LDM 在 PororoSV、FlintstonesSV 以及新引入的具有挑战性的 VIST 数据集(包含自然图像)上取得了最佳的 FID 分数。大规模的人类评估表明,AR-LDM 在质量、相关性和一致性方面表现出色。