KI-Tool generiert konsistente Film-Szenen mit erster NSG-Technologie
新加坡南洋理工大学联合香港中文大学、上海人工智能实验室,推出名为Cut2Next的创新框架,首次实现基于“下一个镜头预测”(NSG)的电影级多镜头视频生成。该技术通过层次化多提示策略与上下文感知条件注入(CACI)、层次化注意力掩码(HAM)等机制,在保持视觉一致性(如角色、光照、色调统一)和叙事连贯性(如正反打、切出镜头等剪辑模式)的同时,显著提升长视频生成质量。与现有模型仅能生成短时单镜头视频不同,Cut2Next支持连续多镜头生成,有效缓解了长视频中常见的“叙事漂移”与“视觉幻觉”问题。研究团队构建了两个新数据集:RawCuts(超20万镜头对,用于预训练)与CuratedCuts(精标注,用于审美与风格调优),为模型训练提供高质量语料。实验表明,Cut2Next在视觉保真度、文本匹配度和电影级连贯性方面全面超越现有文生视频模型。该成果发表于arXiv,由南洋理工大学何静雯博士生为第一作者,刘子纬副教授与欧阳万里教授共同通讯。研究提出将视频视为“镜头语言”,借鉴语言模型中“下一个词预测”的范式,将AI推向具备叙事理解能力的生成阶段,为实现多模态通用人工智能(AGI)提供新路径。该技术可广泛应用于影视剧故事板生成、AIGC短剧快速迭代、社交媒体内容创作、互动游戏仿真内容生成以及具身智能领域的高仿真训练数据构建。未来,团队计划开源模型与数据,并与影视及短剧产业合作,推动技术落地。刘子纬团队还指出,数据构建本身蕴含研究者主观审美与价值判断,如何建立统一标准是未来研究重点。 业内专家评价,Cut2Next标志着AI视频生成从“单帧精美”迈向“叙事完整”的关键跃迁。其在剪辑逻辑建模与长程一致性控制上的突破,有望重塑影视前期创作流程。该研究融合计算机视觉、生成模型与艺术理论,体现了AI与创意产业深度融合的趋势。刘子纬作为MIT TR35亚太区入选者,其团队持续探索多模态生成与3D/4D世界建模,未来或推动AI向理解真实世界动态演化迈进。