HyperAIHyperAI
Back to Headlines

科学家用AI预测下一个镜头,打造电影级叙事视频生成新工具

منذ 5 أيام

近日,新加坡南洋理工大学联合香港中文大学与上海人工智能实验室,推出名为Cut2Next的新框架,标志着AI在多镜头电影级视频生成领域迈出关键一步。该研究提出“下一个镜头生成”(Next Shot Generation, NSG)范式,通过层次化多提示策略与上下文感知条件注入,实现视觉与叙事双重一致的高质量镜头序列生成,为影视剧、AIGC短剧及社交媒体内容创作提供高效、可落地的技术工具。 当前,尽管文生视频模型如Sora已能生成长达10秒的单镜头视频,但在长视频生成中仍面临显著挑战:视觉一致性(如角色、光照、色调统一)与叙事连贯性(如镜头切换逻辑、运镜节奏)难以兼顾。随着生成长度增加,模型易出现“幻觉”——即生成不符合现实或逻辑的片段,导致故事断裂。这一问题在追求艺术表达与情感传递的影视创作中尤为突出。 Cut2Next借鉴语言模型中“下一个词预测”的成功范式,将视频视为一种“镜头语言”,提出“下一个镜头预测”机制。研究团队创新性地引入上下文感知条件注入(CACI)与层次化注意力掩码(HAM),前者使模型能动态识别关键元素——从角色动作、光影风格到情绪流动;后者则通过优化Transformer注意力机制,降低长视频生成的计算复杂度,实现高效且丰富的信息捕捉。 为支撑训练,团队构建了两个新数据集:RawCuts(超20万对镜头)用于提升模型的多样性与阅片量,CuratedCuts则通过精标注培养模型的审美与叙事判断力。实验表明,Cut2Next在视觉一致性、文本保真度与电影级连续性方面均优于现有主流模型,尤其在正反打、切出镜头等经典剪辑模式中表现突出。 该技术具备广泛应用场景。在影视制作中,可快速生成故事板,辅助导演与制片人进行方案迭代;在AIGC短剧领域,可高效产出风格多样的分钟级内容;在互动游戏与具身智能中,更可生成逼真仿真数据,助力机器人理解人类行为与情感。此外,个人创作者亦可用其打造虚拟偶像直播、电商短视频等个性化内容。 研究团队负责人、南洋理工大学刘子纬副教授指出,该工作不仅是技术突破,更揭示了AI与人类创造力的深层关联。数据集构建过程本身即反映研究者的审美与价值观,未来团队将推动跨学科协作,开源模型与数据,并与影视、短剧公司合作,持续优化模型效率与实用性。 展望未来,Cut2Next有望成为连接语言、视觉与三维世界理解的桥梁,为实现多模态通用人工智能(AGI)提供关键路径。从镜头语言到世界建模,AI正逐步迈向对真实与艺术的深层理解。

Related Links