Command Palette
Search for a command to run...

摘要
当前最先进的文本生成视频模型在生成孤立视频片段方面表现优异,但在构建连贯的多镜头叙事方面仍显不足,而多镜头叙事正是叙事艺术的核心。为此,我们提出 HoloCine 模型,通过整体化生成完整场景,确保从第一镜到最后一镜的全局一致性,从而弥合这一“叙事鸿沟”。该模型采用创新的窗口交叉注意力(Window Cross-Attention)机制,将文本提示精准定位至特定镜头,实现精细的导演式控制;同时引入稀疏的镜头间自注意力模式(镜头内部密集、镜头之间稀疏),在保证生成效率的同时,支持分钟级视频内容的高效生成。HoloCine 不仅在叙事连贯性方面达到新的技术前沿,更展现出令人瞩目的涌现能力:能够持续记忆角色与场景,并对电影拍摄技巧具备直观理解。本研究标志着从片段合成迈向自动化电影制作的关键转变,使端到端的电影创作成为可实现的未来愿景。项目代码已开源,访问地址:https://holo-cine.github.io/。