HyperAIHyperAI

Command Palette

Search for a command to run...

DreamX-World 1.0:一种通用的交互式世界模型

摘要

DreamX-World 1.0 是一个用于可控长程生成的通用交互式文本/图像到视频世界模型。它支持相机导航、对已观察区域的重访,以及跨照片级真实、游戏风格和风格化领域的可提示事件。我们的数据引擎融合了相机精度极高的虚幻引擎(Unreal Engine)渲染、动作丰富的游戏录屏,以及带有重建相机几何信息的真实世界视频。针对相机控制,我们提出了 E-PRoPE,这是一种射影位置编码的轻量级变体,它在保留 PRoPE 射影相机几何结构的同时,对空间降维的 tokens 应用相机感知注意力机制。我们利用因果强制、DMD 风格蒸馏以及长 rollout 训练,将双向视频生成器转化为一个仅需少数步骤的自回归世界模型。在自生成的长程上下文上进行训练使模型能够接触其自身生成的历史,从而减少了在自回归分块过程中累积的风格与色彩漂移。“记忆条件场景持久化”(Memory-Conditioned Scene Persistence)通过基于相机几何的检索机制获取早期视角,而残差回收技术则降低了条件路径对不完美记忆潜变量的敏感度。“事件指令微调”(Event Instruction Tuning)增加了可组合的事件控制能力,而强化学习对齐则在蒸馏后恢复了相机控制精度与视觉质量。借助混合精度 DiT 执行、残差复用、75% 剪枝的 VAE 解码以及异步流水线并行技术,DreamX-World 1.0 在八张 RTX 5090 GPU 上可实现高达 16 FPS 的生成速度。在五项秒基础评估中,DreamX-World 1.0 获得了 73.75 的相机控制得分与 84.76 的综合得分,在综合得分上优于 HY-WorldPlay 1.5 与 LingBot-World(二者得分分别为 80.79 和 80.45)。

一句话总结

DreamX-World 1.0 是一个通用交互式世界模型,用于可控长时视频生成,通过轻量级 E-ProPE 相机编码、因果自回归蒸馏、记忆条件场景持久化和事件指令微调,实现了 73.75 的相机控制分数和 84.76 的综合分数,优于 HY-WorldPlay 1.5(80.79)和 LingBot-World(80.45),同时在八块 RTX 5090 GPU 上运行速度可达 16 FPS。

核心贡献

  • 数据引擎整合了相机精确的 Unreal Engine 渲染、动作丰富的游戏录制以及带有恢复相机几何的真实世界视频,而 E-ProPE(一种轻量级投影位置编码)对空间降采样后的 token 施加相机感知注意力,以实现精确的相机控制。
  • 双向视频生成器通过因果强制、DMD 风格蒸馏以及在自生成上下文中进行的长 rollout 训练,被转换为少步自回归世界模型,以减少风格和色彩漂移;记忆条件场景持久化利用基于相机几何的检索和残差回收,在长时域中保持一致性。
  • 事件指令微调增加了可组合的事件控制,强化学习对齐在蒸馏后恢复了相机控制和视觉质量,推理优化包括混合精度 DiT 执行、残差复用、75% 剪枝的 VAE 解码和异步流水线并行,在八块 RTX 5090 GPU 上达到 16 FPS,获得 73.75 的相机控制分数和 84.76 的综合分数,超越 HY-WorldPlay 1.5 和 LingBot-World。

引言

作者介绍了 DreamX-World 1.0,这是一个通用交互式世界模型,旨在根据字幕、相机运动和事件等多模态控制信号生成和模拟动态 3D 环境。交互式世界模型对于具身 AI、游戏模拟和内容创作至关重要,但先前的方法存在长时视觉和几何一致性有限、控制模态之间的冲突以及缺乏可靠的自动评估等问题。DreamX-World 1.0 通过全栈设计应对这些挑战,该设计联合处理数据管理、训练、评估和推理加速,在提高交互性、可控性和效率的同时,为未来以角色为中心的原生视听扩展奠定了基础。

数据集

该数据集结合了合成视频、真实世界视频和游戏视频,用于训练具有可靠相机和动作标注的交互式世界模型。作者通过共享的标注、几何处理和质量控制流程统一这些来源。

数据集组成与来源

  • UE 生成数据: 大部分训练数据在 Unreal Engine 5 中合成,提供可控的相机和 agent 运动以及真值标注。它包括三种观察模式:第一人称(自由相机探索)、第三人称(相机跟随移动角色)和事件片段(物体交互和可见状态变化)。
  • 真实世界数据: 视频收集自 SpatialVID、RealEstate10K、Sekai 和 DL3DV。相机位姿在关键帧上通过 MegaSaM 稀疏估计,然后进行稠密化。
  • 游戏数据: 片段来自 Sekai-Game 和 OmniWorld-Game。引擎导出的位姿被转换为与 UE 和真实世界数据相同的相机坐标系。

各子集的关键细节

  • UE 第一人称: 由自由相机通过 NavMesh 向采样的目标点导航生成,航向和俯仰随机。轨迹通过碰撞检测、最短持续时间和路径长度约束以及卡住检测进行验证;接受的轨迹进行离线渲染。
  • UE 第三人称: 一个绑定骨骼的角色沿导航路径移动,跟随相机记录并实现平滑跟踪、碰撞避免和遮挡处理。角色的世界位置和朝向与相机位姿一同记录。
  • UE 事件: 捕捉物体交互和可见状态变化,共享统一的输出模式。
  • 真实世界和游戏视频: 经过与 UE 数据相同的过滤和清洗阶段。相机位姿进行插值(旋转用 SLERP,平移用线性插值)、归一化,并检查不一致的内参、平移突变、快速旋转、垂直抖动和无效朝向。

过滤和标注流程

  • 基本过滤: 移除时长或帧率不足、过多叠加文字、黑边或视觉变化有限(通过首尾帧的 CLIP 嵌入余弦相似度衡量)的片段。
  • 几何相机位姿清洗: 稠密化稀疏的真实世界位姿,归一化轨迹,并剔除存在几何异常的轨迹。
  • 字幕和属性标记: 每个片段获得一个描述场景、主体、动作和时间变化的全局字幕。保留的片段被标记美学质量、运动强度、场景类别、视觉风格、主体类型和运动类别(3D 表示静态场景加相机运动,4D 表示场景中同时有相机和物体运动)。这些标记用于进一步过滤和训练。
  • 事件指令数据: 从清洗后的池中,选取具有可见状态变化的片段,并用结构化事件描述进行标注。分层字幕策略将整体全局描述与密集的、时间对齐的实体级事件记录(实体引用、事件谓词、空间锚点、时间区间)配对。数据集混合了单对象和可组合事件,以教授原子和组合指令的 grounding。

数据使用方式

  • 组合数据集作为交互式世界模型的训练材料。作者未公开确切混合比例,但 UE 生成部分占很大份额,并辅以真实世界和游戏视频。
  • UE 数据中逐帧的真值标注(离散动作向量,类似键盘控制信号:WASD 用于平移,IJKL 用于旋转,加上相机位姿)使得动作条件动力学的监督学习成为可能。第三人称片段还提供角色的世界位置和朝向,用于相机和 agent 运动的联合推理。
  • 事件指令子集用于事件指令微调,模型在此学习遵循结构化的、对原子和组合变化进行 grounding 的事件描述。

处理细节

  • UE 片段通过两阶段流程生成:在线轨迹发现和验证,然后使用 Unreal Engine 的 Movie Render Queue 进行离线渲染。渲染分布在多个 GPU 上,具有检查点续传和自动故障恢复功能,并存储位姿、动作和元数据。
  • 真实世界和游戏视频被对齐到同一坐标系,并经过三阶段质量控制流程。未明确提及裁剪策略;过滤侧重于去除低质量或静态片段,元数据构建包括分层字幕和属性标记。

方法

作者提出了 DreamX-World 1.0,一个从 Wan2.2 初始化的通用交互式世界模型。该系统旨在支持相机控制生成、长时场景持久化和实时流式传输。整体框架集成了多源数据系统、渐进式训练流程和优化的推理引擎。

如下图所示:

训练数据由具有精确相机几何的 Unreal Engine 轨迹、动作丰富的游戏录像以及带有恢复相机位姿的真实世界视频构建而成。数据流程包括使用第一人称和第三人称自由相机引擎进行探索和轨迹收集,随后进行验证和离线渲染,以生成带有位姿和元数据的高质量片段。

参考框架图:

为了实现高效的 6-DoF 相机控制,作者引入了 E-PRoPE(高效投影位置编码)。标准 PROPE 定义了一个由投影子矩阵和旋转子矩阵组成的逐 token 矩阵: DsPRoPE=[DsProj00DsRoPE].D _ { s } ^ { P R o P E } = \left[ \begin{array} { l l } { D _ { s } ^ { P r o j } } & { 0 } \\ { 0 } & { D _ { s } ^ { R o P E } } \end{array} \right] .DsPRoPE=[DsProj00DsRoPE]. 将其应用于完整的 token 集计算开销很大。E-PRoPE 沿空间维度对输入 token 进行下采样,在仅使用投影子矩阵 DsProjD_{s}^{Proj}DsProj 的低维空间中计算自注意力,然后对输出进行上采样,以添加到原始 DiT 注意力输出中。这种设计在保持轨迹跟随性能的同时,显著降低了推理延迟。

如下图所示:

为了解决相机重访位置时的场景不一致问题,采用了记忆条件阶段。模型使用基于几何的检索,根据相机位姿和视图重叠度选择与目标视图高度相关的非局部记忆帧。这些记忆帧与近期历史帧和目标帧一起打包送入 DiT 自注意力流。为了缓解训练和推理之间差距引起的曝光偏差,作者应用了一种错误注入策略,即扰动条件 token,同时保持目标 latent 干净。

参考框架图:

对于长时流式生成,双向模型被蒸馏为少步自回归生成器。作者利用分布匹配蒸馏(DMD)和因果强制。E-PRoPE 自回归学生模型在从长视频中采样的局部时间窗口上,从双向 E-PRoPE 教师模型蒸馏而来。这一过程使模型能够从生成的历史中进行流式生成,同时保持视觉质量和相机可控性。

如下图所示:

最后,为了在蒸馏后恢复视觉质量并加强相机跟随,应用了强化学习阶段。模型生成长时 rollout,并采样短片段由视频质量和相机控制奖励模型进行评估。融合奖励驱动保守更新,确保模型保留少步接口的效率,同时提高输出保真度。事件指令微调也被集成,以通过文本条件支持结构化的多实体事件控制。推理流程进一步利用混合精度 DiT 执行、残差复用、剪枝 VAE 解码和异步流水线并行加速生成,达到实时流式速度。

实验

评估从基础 5 秒片段、扩展的 30 秒 rollout 以及一种新颖的基于重访的记忆协议(当相机返回早期位置时探测场景持久性)来评估 DreamX-World 1.0。定性来看,该模型在多样化的照片级真实、游戏风格和风格化领域中生成平滑、时间连贯且视觉保真度高的序列。与 HY-WorldPlay 1.5 和 LingBot-World 相比,DreamX-World 1.0 在短片段上实现了最佳的相机可控性和综合分数,在长时域中保持卓越的成像质量和抗伪影能力,并在像素、感知、语义和地点识别层面展现出更强的记忆一致性,表明其基于强制的架构和记忆条件设计有效减少了漂移并保留了场景内容。

作者通过生成视频上的重访协议评估记忆一致性,以衡量模型对先前访问区域的记忆能力。DreamX-World-1.0-5B 在像素级、感知级、语义级和地点识别指标上均取得了最高增益,展示了在不同抽象层次上更强的记忆保持能力。HY-WorldPlay 1.5 在几何结构匹配和时间平滑度上领先,而 LingBot-World 在所有重访指标上增益较低。DreamX-World-1.0-5B 在像素级保真度、感知一致性、语义身份和地点识别方面优于竞品模型。HY-WorldPlay 1.5 在几何结构匹配和时间平滑度上得分最佳。LingBot-World 在所有评估的记忆一致性指标上表现增益最低。

作者将标准 PRoPE 相机条件与轻量级变体 E-PRoPE 进行了比较。结果表明,E-PRoPE 显著降低了延迟,同时保持了与原始方法几乎相同的相机控制性能。此外,轻量级变体在过渡检测和运动平滑度等视觉质量指标上有所提升,尽管原始方法在动态程度上保持轻微优势。E-PRoPE 的延迟远低于 PRoPE,验证了其作为计算高效变体的设计。两种方法的相机控制分数高度可比,表明轻量级设计保留了轨迹跟随能力。E-PRoPE 变体在过渡检测、时间稳定性和运动平滑度等视觉质量指标上优于基线。

作者在长时生成 rollout 上评估了 DreamX-World-1.0-5B 与 HY-WorldPlay 1.5 和 LingBot-World。结果显示,DreamX-World-1.0-5B 取得了最高的综合分数,尽管参数量少于竞品模型,仍展示了卓越的成像质量和伪影检测能力。虽然其他模型在相机控制和运动平滑度等特定领域表现更好,但所提模型在长时域中保持了更高的视觉保真度。DreamX-World-1.0-5B 在长时 rollout 中实现了最佳综合性能和成像质量。该模型展现了卓越的伪影检测能力,表明在延长生成周期内具有稳健的视觉保真度。参数规模更大的竞品模型在相机控制和运动平滑度等特定指标上领先,但在整体长时一致性上有所不足。

作者将他们的模型与代表性的开源世界模型在基础指标上进行了评估,包括相机可控性和视觉质量。结果显示,所提方法取得了最高的相机控制分数和最佳综合分数,同时在视觉质量维度上保持有竞争力的表现。所提模型在综合分数和相机可控性上优于更大的竞品模型。该方法在不同评估维度上保持了有竞争力的视觉质量指标,如过渡检测和闪烁减少。尽管参数量更少,该模型在伪影检测和动态运动生成方面优于最大的基线模型。

作者将 DreamX-World 1.0 的事件控制和交互能力与多个现有世界模型进行了比较。结果显示,DreamX-World 1.0 是唯一完全支持所有评估维度的模型,包括可提示事件、对象级事件、区域引导事件、多实体组合和对象间交互。相比之下,竞品模型仅部分支持区域引导和多实体任务,且完全缺乏对象间交互。DreamX-World 1.0 在所有五个评估的事件和交互类别中实现了完全支持。LingBot-World 和 HY-WorldPlay 1.5 等竞品模型在区域引导事件和多实体组合方面表现出部分能力。Matrix-Game 3.0 和 Yume-1.5 缺乏对大多数高级事件控制和交互功能的支持。

实验评估了 DreamX-World 模型在重访场景下的记忆一致性、相机条件效率、长时生成、基础可控性和视觉质量以及事件交互能力。DreamX-World-1.0-5B 始终取得最高的综合性能,展现出强大的记忆保持能力、卓越的长时视觉保真度和稳健的伪影检测能力,尽管其参数量较小;而轻量级 E-PRoPE 相机变体在保持轨迹跟随的同时显著降低了延迟。DreamX-World 1.0 是唯一完全支持所有五个评估的事件和交互类别(包括对象间交互)的模型,而竞品模型仅提供部分功能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供