HyperAIHyperAI

Command Palette

Search for a command to run...

使用自回归潜在扩散模型合成连贯故事

Xichen Pan Pengda Qin Yuhong Li Hui Xue Wenhua Chen

摘要

条件扩散模型在文本到图像合成方面展示了最先进的能力。近期,大多数研究集中在生成独立的图像;然而,在实际应用中,通常需要生成一系列连贯的图像来讲述故事。在这项工作中,我们主要关注故事可视化和延续任务,并提出了一种自回归条件下的潜在扩散模型——AR-LDM,该模型基于历史描述和已生成的图像进行条件训练。此外,AR-LDM 通过适应可以推广到新角色。据我们所知,这是首次成功利用扩散模型实现连贯视觉故事合成的工作。定量结果显示,AR-LDM 在 PororoSV、FlintstonesSV 以及新引入的具有挑战性的 VIST 数据集(包含自然图像)上取得了最佳的 FID 分数。大规模的人类评估表明,AR-LDM 在质量、相关性和一致性方面表现出色。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供