Command Palette

Search for a command to run...

9 天前

HoloCine:电影级多镜头长视频叙事的全局生成

HoloCine:电影级多镜头长视频叙事的全局生成

摘要

当前最先进的文本生成视频模型在生成孤立视频片段方面表现优异,但在构建连贯的多镜头叙事方面仍显不足,而多镜头叙事正是叙事艺术的核心。为此,我们提出 HoloCine 模型,通过整体化生成完整场景,确保从第一镜到最后一镜的全局一致性,从而弥合这一“叙事鸿沟”。该模型采用创新的窗口交叉注意力(Window Cross-Attention)机制,将文本提示精准定位至特定镜头,实现精细的导演式控制;同时引入稀疏的镜头间自注意力模式(镜头内部密集、镜头之间稀疏),在保证生成效率的同时,支持分钟级视频内容的高效生成。HoloCine 不仅在叙事连贯性方面达到新的技术前沿,更展现出令人瞩目的涌现能力:能够持续记忆角色与场景,并对电影拍摄技巧具备直观理解。本研究标志着从片段合成迈向自动化电影制作的关键转变,使端到端的电影创作成为可实现的未来愿景。项目代码已开源,访问地址:https://holo-cine.github.io/。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供