4 个月前

多模态表征

计算机视觉

Yihao Meng Hao Ouyang Yue Yu Qiuyu Wang Wen Wang Ka Leong Cheng Hanlin Wang Yixuan Li Cheng Chen Yanhong Zeng

摘要

当前最先进的文本生成视频模型在生成孤立视频片段方面表现优异，但在构建连贯的多镜头叙事方面仍显不足，而多镜头叙事正是叙事艺术的核心。为此，我们提出 HoloCine 模型，通过整体化生成完整场景，确保从第一镜到最后一镜的全局一致性，从而弥合这一“叙事鸿沟”。该模型采用创新的窗口交叉注意力（Window Cross-Attention）机制，将文本提示精准定位至特定镜头，实现精细的导演式控制；同时引入稀疏的镜头间自注意力模式（镜头内部密集、镜头之间稀疏），在保证生成效率的同时，支持分钟级视频内容的高效生成。HoloCine 不仅在叙事连贯性方面达到新的技术前沿，更展现出令人瞩目的涌现能力：能够持续记忆角色与场景，并对电影拍摄技巧具备直观理解。本研究标志着从片段合成迈向自动化电影制作的关键转变，使端到端的电影创作成为可实现的未来愿景。项目代码已开源，访问地址：https://holo-cine.github.io/。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

多模态表征

计算机视觉

Yihao Meng Hao Ouyang Yue Yu Qiuyu Wang Wen Wang Ka Leong Cheng Hanlin Wang Yixuan Li Cheng Chen Yanhong Zeng

摘要

当前最先进的文本生成视频模型在生成孤立视频片段方面表现优异，但在构建连贯的多镜头叙事方面仍显不足，而多镜头叙事正是叙事艺术的核心。为此，我们提出 HoloCine 模型，通过整体化生成完整场景，确保从第一镜到最后一镜的全局一致性，从而弥合这一“叙事鸿沟”。该模型采用创新的窗口交叉注意力（Window Cross-Attention）机制，将文本提示精准定位至特定镜头，实现精细的导演式控制；同时引入稀疏的镜头间自注意力模式（镜头内部密集、镜头之间稀疏），在保证生成效率的同时，支持分钟级视频内容的高效生成。HoloCine 不仅在叙事连贯性方面达到新的技术前沿，更展现出令人瞩目的涌现能力：能够持续记忆角色与场景，并对电影拍摄技巧具备直观理解。本研究标志着从片段合成迈向自动化电影制作的关键转变，使端到端的电影创作成为可实现的未来愿景。项目代码已开源，访问地址：https://holo-cine.github.io/。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供