交互式生成视频综述
Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, Xihui Liu
发布日期: 5/8/2025

摘要
交互式生成视频 (IGV) 已成为一项关键技术,以满足各领域对高质量交互式视频内容日益增长的需求。在本文中,我们将 IGV 定义为一种将生成功能与交互式功能相结合的技术,该功能可生成多样化的高质量视频内容,并通过控制信号和响应反馈实现用户参与。我们调查了 IGV 应用的当前状况,重点关注三个主要领域:1)游戏,其中 IGV 支持在虚拟世界中进行无限探索;2)具身人工智能,其中 IGV 充当物理感知环境合成器,用于训练代理与动态演变场景进行多模态交互;3)自动驾驶,其中 IGV 提供闭环仿真功能,用于安全关键测试和验证。为了指导未来的发展,我们提出了一个全面的框架,将理想的 IGV 系统分解为五个基本模块:生成、控制、记忆、动态和智能。此外,我们系统地分析了实现理想IGV系统各个组件的技术挑战和未来发展方向,例如实现实时生成、实现开放域控制、保持长期一致性、模拟精确物理以及集成因果推理。我们相信,这种系统性分析将有助于IGV领域的未来研究和发展,最终推动该技术走向更复杂、更实际的应用。