
摘要
Yume旨在通过图像、文本或视频创建一个交互性强、逼真且动态的世界,用户可以借助外设或神经信号进行探索和控制。在本报告中,我们展示了\method的预览版本,该版本能够从输入图像生成动态世界,并通过键盘操作进行探索。为了实现高质量且交互式的视频世界生成,我们提出了一种设计精良的框架,包含四个主要组成部分:相机运动量化、视频生成架构、高级采样器以及模型加速技术。首先,我们通过键盘输入实现相机运动的量化,以确保训练的稳定性并提升用户交互体验。随后,我们引入了带有记忆模块的掩码视频扩散变换器(Masked Video Diffusion Transformer,简称MVDT),以实现无限视频的自回归生成。接下来,我们为采样器引入了无需训练的抗伪影机制(Training-free Anti-Artifact Mechanism,简称AAM)以及基于随机微分方程的时间旅行采样方法(Time Travel Sampling based on Stochastic Differential Equations,简称TTS-SDE),以提升视觉质量并实现更精准的控制。此外,我们通过对抗蒸馏与缓存机制的协同优化,探索了模型加速的方法。我们使用高质量的世界探索数据集\sekai对\method进行训练,并在多种场景和应用中取得了显著成果。所有数据、代码库及模型权重均可在 https://github.com/stdstu12/YUME 获取。Yume将每月更新,以逐步实现其最初目标。项目页面:https://stdstu12.github.io/YUME-Project/。