Back to Headlines

AI赋能影视创作:科学家开发镜头预测工具,实现视觉与叙事无缝衔接

5 天前

新加坡南洋理工大学联合香港中文大学、上海人工智能实验室团队,推出名为Cut2Next的新框架,首次实现基于“下一个镜头预测”(NSG)的多镜头电影级视频生成。该技术通过层次化多提示策略与上下文感知条件注入(CACI)、层次化注意力掩码(HAM)等创新机制,显著提升生成视频在视觉一致性与叙事连贯性方面的表现,标志着AI向电影级长视频创作迈进一步。 当前AI视频模型虽能生成高质量单镜头内容(如Sora 2可生成最长10秒视频),但在多镜头连续叙事方面仍存在“漂移”问题:角色、光照、风格易不一致,情节逻辑断裂,难以支撑完整故事。Cut2Next提出“镜头即语言”的新范式,将影视剧视为一种视觉语言系统,借鉴语言模型中“下一个词预测”的机制,构建“下一个镜头预测”框架,使AI能理解镜头间的逻辑关系,如正反打、切出镜头等经典剪辑模式。 为支撑训练,团队构建了两个新数据集:RawCuts(超20万对镜头,用于提升多样性)和CuratedCuts(精标注,用于培养审美与叙事能力)。实验表明,Cut2Next在视觉一致性、文本保真度与电影连贯性上均优于现有模型,有效缓解了长视频生成中的幻觉与失真问题。 该技术具备广泛应用潜力:可为影视剧前期故事板生成提供高效工具;适用于AIGC短剧创作,支持快速生成多风格、多镜头内容;还可用于互动游戏与具身智能领域,生成逼真的仿真数据,帮助机器人理解人类生活与情感场景。研究团队正与影视及短剧公司接洽,推动技术落地。 论文第一作者为南洋理工大学博士生何静雯,通讯作者为南洋理工大学刘子纬副教授与香港中文大学欧阳万里教授。刘子纬团队长期聚焦多模态生成式AI,致力于融合视频、3D/4D信息,探索AR/VR等场景中的智能理解。其研究还揭示了数据构建中隐含的研究者价值观与审美偏好,为AI创作的标准化与跨学科协作提出新思考。 未来,团队计划开源模型与数据,并推动技术向3D、4D世界建模延伸,探索AI对现实世界的深度理解,助力通用人工智能(AGI)发展。

Related Links