8 个月前

计算机视觉

Sixiao Zheng Yanwei Fu

摘要

视觉叙事涉及从文本故事线生成一系列连贯的画面，同时保持角色和场景的一致性。现有的自回归方法依赖于先前的画面-句子对，但在高内存使用、缓慢的生成速度和有限的上下文整合方面存在困难。为了解决这些问题，我们提出了ContextualStory，这是一种新颖的框架，旨在生成连贯的故事画面并扩展用于视觉叙事的画面。ContextualStory利用空间增强时间注意力（Spatially-Enhanced Temporal Attention）来捕捉空间和时间依赖关系，有效处理显著的角色移动。此外，我们引入了故事线上下文器（Storyline Contextualizer），以丰富故事线嵌入中的上下文信息，并引入了故事流适配器（StoryFlow Adapter），用于测量画面之间的场景变化以指导模型。在PororoSV和FlintstonesSV数据集上的大量实验表明，ContextualStory在故事可视化和延续方面显著优于现有的最先进方法。代码可在https://github.com/sixiaozheng/ContextualStory 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Sixiao Zheng Yanwei Fu

摘要

视觉叙事涉及从文本故事线生成一系列连贯的画面，同时保持角色和场景的一致性。现有的自回归方法依赖于先前的画面-句子对，但在高内存使用、缓慢的生成速度和有限的上下文整合方面存在困难。为了解决这些问题，我们提出了ContextualStory，这是一种新颖的框架，旨在生成连贯的故事画面并扩展用于视觉叙事的画面。ContextualStory利用空间增强时间注意力（Spatially-Enhanced Temporal Attention）来捕捉空间和时间依赖关系，有效处理显著的角色移动。此外，我们引入了故事线上下文器（Storyline Contextualizer），以丰富故事线嵌入中的上下文信息，并引入了故事流适配器（StoryFlow Adapter），用于测量画面之间的场景变化以指导模型。在PororoSV和FlintstonesSV数据集上的大量实验表明，ContextualStory在故事可视化和延续方面显著优于现有的最先进方法。代码可在https://github.com/sixiaozheng/ContextualStory 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供