7 个月前

计算机视觉

计算机视觉

Hong-Han Shuai Huiao-Han Lu Hung-Jen Chen Zhi Rui Tam Yun-Zhu Song

摘要

故事可视化旨在生成一系列图像，以逐句叙述多句构成的故事内容。与注重生成图像（帧）之间连续性的视频生成不同，故事可视化更强调在不同故事画面之间保持角色和场景的全局一致性，这一任务极具挑战性，因为故事语句仅提供稀疏的图像生成信号。为此，我们提出一种名为角色保持型连贯故事可视化（Character-Preserving Coherent Story Visualization, CP-CSV）的新框架，以应对上述挑战。CP-CSV通过三个关键模块实现高效的故事可视化：故事与上下文编码器（用于学习故事及句子的表征）、前景-背景分割（作为辅助任务，提供维持角色与故事一致性的信息），以及前景-背景感知生成（通过融合前景-背景信息实现图像序列的生成）。此外，我们提出一种名为弗雷歇故事距离（Fréchet Story Distance, FSD）的新评估指标，用于衡量故事可视化任务的性能。大量实验结果表明，CP-CSV能够有效保留角色的细节信息，并在不同帧之间实现高度一致的视觉表现，而FSD指标相较于传统方法更准确地反映了故事可视化任务的实际性能。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

计算机视觉

Hong-Han Shuai Huiao-Han Lu Hung-Jen Chen Zhi Rui Tam Yun-Zhu Song

摘要

故事可视化旨在生成一系列图像，以逐句叙述多句构成的故事内容。与注重生成图像（帧）之间连续性的视频生成不同，故事可视化更强调在不同故事画面之间保持角色和场景的全局一致性，这一任务极具挑战性，因为故事语句仅提供稀疏的图像生成信号。为此，我们提出一种名为角色保持型连贯故事可视化（Character-Preserving Coherent Story Visualization, CP-CSV）的新框架，以应对上述挑战。CP-CSV通过三个关键模块实现高效的故事可视化：故事与上下文编码器（用于学习故事及句子的表征）、前景-背景分割（作为辅助任务，提供维持角色与故事一致性的信息），以及前景-背景感知生成（通过融合前景-背景信息实现图像序列的生成）。此外，我们提出一种名为弗雷歇故事距离（Fréchet Story Distance, FSD）的新评估指标，用于衡量故事可视化任务的性能。大量实验结果表明，CP-CSV能够有效保留角色的细节信息，并在不同帧之间实现高度一致的视觉表现，而FSD指标相较于传统方法更准确地反映了故事可视化任务的实际性能。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供