HyperAI超神经

摘要

条件扩散模型在文本到图像合成方面展示了最先进的能力。近期，大多数研究集中在生成独立的图像；然而，在实际应用中，通常需要生成一系列连贯的图像来讲述故事。在这项工作中，我们主要关注故事可视化和延续任务，并提出了一种自回归条件下的潜在扩散模型——AR-LDM，该模型基于历史描述和已生成的图像进行条件训练。此外，AR-LDM 通过适应可以推广到新角色。据我们所知，这是首次成功利用扩散模型实现连贯视觉故事合成的工作。定量结果显示，AR-LDM 在 PororoSV、FlintstonesSV 以及新引入的具有挑战性的 VIST 数据集（包含自然图像）上取得了最佳的 FID 分数。大规模的人类评估表明，AR-LDM 在质量、相关性和一致性方面表现出色。

摘要

Xichen Pan Pengda Qin Yuhong Li Hui Xue Wenhua Chen

摘要

用 AI 构建 AI

HyperAI Newsletters

Xichen Pan Pengda Qin Yuhong Li Hui Xue Wenhua Chen

摘要

用 AI 构建 AI

HyperAI Newsletters

Xichen Pan Pengda Qin Yuhong Li Hui Xue Wenhua Chen

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用自回归潜在扩散模型合成连贯故事

Xichen Pan Pengda Qin Yuhong Li Hui Xue Wenhua Chen

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用自回归潜在扩散模型合成连贯故事

Xichen Pan Pengda Qin Yuhong Li Hui Xue Wenhua Chen

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用自回归潜在扩散模型合成连贯故事

Xichen Pan Pengda Qin Yuhong Li Hui Xue Wenhua Chen

摘要

用 AI 构建 AI

HyperAI Newsletters