HyperAI超神经

具有长期空间记忆的视频世界模型

Wu, Tong ; Yang, Shuai ; Po, Ryan ; Xu, Yinghao ; Liu, Ziwei ; Lin, Dahua ; Wetzstein, Gordon
发布日期: 6/8/2025
具有长期空间记忆的视频世界模型
摘要

新兴的世界模型能够自回归地生成视频帧以响应各种控制信号,如相机移动和文本提示等。由于时间上下文窗口尺寸有限,这些模型在重新访问场景时往往难以保持场景的一致性,导致对先前生成环境的严重遗忘。受人类记忆机制的启发,我们提出了一种新的框架,通过基于几何的长期空间记忆来增强视频世界模型的长期一致性。该框架包括存储和检索长期空间记忆中信息的机制,并且我们创建了定制的数据集来训练和评估具有显式存储3D记忆机制的世界模型。评估结果显示,与相关基线相比,我们的方法在质量、一致性和上下文长度方面均有显著提升,为实现长期一致的世界生成铺平了道路。