4 小时前

Jisu Nam Yicong Hong Chun-Hao Paul Huang Feng Liu JoungBin Lee Jiyoung Kim Siyoon Jin Yunsung Lee Jaeyoon Jung Suhwan Choi

摘要

视频扩散 Transformer（Video Diffusion Transformers）的最新进展使得交互式游戏世界模型成为可能，用户得以在扩展的时间跨度内探索生成的环境。然而，现有方法在精确的动作控制与长时程的三维一致性方面仍面临挑战。大多数 prior 工作将用户动作视为抽象的条件信号，忽视了动作与三维世界之间根本的几何耦合关系：即动作会引发相对相机运动，这些运动在三维世界中累积形成全局相机位姿。本文提出将相机位姿作为统一的几何表示，以协同实现即时动作控制与长时程三维一致性。首先，我们定义了一个基于物理的连续动作空间，并在李代数（Lie algebra）中表示用户输入，从而推导出精确的六自由度（6-DoF）相机位姿；随后，通过相机嵌入器（camera embedder）将这些位姿注入生成模型，以确保动作对齐的准确性。其次，我们利用全局相机位姿作为空间索引，检索相关的历史观测数据，从而在长时程导航过程中实现对特定位置的几何一致重访。为支持本研究，我们构建了一个大规模数据集，包含 3000 分钟真实人类游戏录像，并标注了相机轨迹与文本描述。大量实验表明，我们的方法在动作可控性、长时程视觉质量以及三维空间一致性方面，显著优于当前最先进的交互式游戏世界模型。

一句话总结

来自 KAIST、Adobe Research 和 MAUM AI 的研究人员推出了 WorldCam，这是一个基础模型，通过将用户输入映射为基于李代数的相机位姿，统一了精确的动作控制与长时程 3D 一致性。该模型通过一种新颖的位姿索引记忆检索系统，在交互式游戏场景中超越了现有方法。

主要贡献

本文提出了一种基于物理的连续动作空间，利用李代数将用户输入转化为精确的 6-DoF 相机位姿，并通过相机嵌入器将其注入视频扩散 Transformer，以确保动作对齐的准确性。
提出了一种检索机制，利用全局相机位姿作为空间索引来检索相关的过往观测数据，从而在长时程导航中实现对地点的几何一致性重访。
作者发布了一个大规模数据集，包含 3,000 分钟标注了相机轨迹和文本描述的真实人类游戏画面，以支持交互式游戏世界模型的训练与评估。

引言

基于视频扩散 Transformer 构建的交互式游戏世界模型旨在生成可玩环境，但在精确动作控制和长时程 3D 一致性方面仍面临挑战。以往的方法通常将用户输入视为抽象信号，或依赖简化的线性近似，无法捕捉 3D 空间中动作与相机运动之间复杂的几何耦合关系。作者提出了 WorldCam，这是一个将相机位姿确立为统一几何表示的框架，能够同时实现即时动作控制和长期空间一致性。其实现方式是利用李代数将用户输入转化为精确的 6-DoF 位姿，并利用这些位姿检索过往观测数据，以实现对地点的几何连贯重访。此外，团队通过发布 WorldCam-50h 解决了数据稀缺问题，这是一个包含真实人类游戏画面、并标注了相机轨迹和文本描述的大规模数据集。

数据集

数据集构成与来源：作者推出了 WorldCam-50h，这是一个旨在捕捉真实动作动态的大规模人类游戏视频数据集。数据来源于三款游戏：《反恐精英》（Counter-Strike，闭源授权），以及《Xonotic》和《Unvanquished》（分别基于 CC BY-SA 2.5 和 GPL v3 开源授权）。该数据集专注于静态环境中的单人探索，以确保可复现性和视觉多样性。
各子集的关键细节：该数据集包含每款游戏超过 100 个视频，每个视频平均时长为 8 分钟，每款游戏产生约 17 小时的素材。参与者被指示执行多样化的行为，如导航、快速相机移动和重访地点。总收集量约为 50 小时的游戏画面。
模型使用与训练策略：作者利用整个数据集来训练基础游戏世界模型。与以往丢弃文本引导的工作不同，该方法利用详细的字幕来在训练过程中保持帧质量和场景风格。
处理与元数据构建：
- 字幕生成：每个训练视频片段都使用 Qwen2.5-VL-7B 生成的详细文本描述进行标注。这些提示词侧重于全局布局、视觉主题和周围环境条件。
- 相机标注：使用 ViPE 提取每一分钟片段的全局相机位姿信息，包括内参和外参。
- 过滤：为确保数据质量，作者应用了过滤步骤，移除了具有不切实际的大平移量的相机位姿估计。

方法

作者提出了 WorldCam，这是一个交互式 3D 世界模型，旨在自回归地生成视频序列，在准确跟随用户动作的同时保持长期空间一致性。该系统以初始 RGB 观测、文本提示和用户动作序列作为输入，以生成未来帧。

参考下方的框架图，该系统架构集成了动作到相机的映射、相机控制生成以及位姿锚定的记忆机制。

核心生成骨干是一个预训练的视频扩散 Transformer (DiT)，具体为 Wan-2.1-T2V。给定输入视频 $V$ ，VAE 编码器将其映射为潜在序列 $\mathbf{z}_0$ 。DiT 学习预测速度场，利用流匹配目标将噪声潜在变量 $\mathbf{z}_t$ 传输至干净潜在变量 $\mathbf{z}_0$ ：

L_{\mathrm{FM}} = \mathbb{E}_{\mathbf{z}_0, c_{\mathrm{text}}, t} \Big[ \big\| v_{\theta}(\mathbf{z}_t, c_{\mathrm{text}}, t) - \frac{\mathbf{z}_0 - \mathbf{z}_t}{1 - t} \big\|_2^2 \Big].

为了实现对相机运动的精确控制，作者在李代数 $\mathfrak{se}(3)$ 中定义了动作空间。用户动作表示为旋量向量 $A_i = [\mathbf{v}_i; \boldsymbol{\omega}_i] \in \mathbb{R}^6$ ，包含线速度和角速度。这些向量通过矩阵指数映射转换为相对相机位姿 $\Delta P_i \in SE(3)$ ：

\Delta P_i = \exp(\hat{A}_i) = \left[ \begin{array}{ll} \Delta R_i & \Delta t_i \\ \mathbf{0}^\top & 1 \end{array} \right],

其中 $\hat{A}_i$ 是旋量的 $4 \times 4$ 矩阵表示。该公式在 $SE(3)$ 流形上联合集成了线速度和角速度，避免了去耦线性近似中存在的几何不一致性。

推导出的相机位姿随后用于条件化生成模型。位姿被转换为普吕克嵌入 (Plücker embeddings) $\hat{P} \in \mathbb{R}^{F \times 6}$ ，以提供显式的视图依赖几何信息。一个由两个 MLP 层组成的轻量级相机嵌入模块 $c_{\phi}$ 处理这些嵌入。为了与时间压缩的潜在序列对齐，每个潜在帧拼接 $r$ 个连续的普吕克嵌入。生成的相机嵌入在每一个自注意力层之后添加到 DiT 特征 $\mathbf{d}$ 中：

\mathbf{d} \gets \mathbf{d} + c_{\phi}(\hat{\mathbf{p}}).

为了在长时程中保持 3D 一致性，系统采用了一个位姿锚定的长期记忆池 $\mathcal{M}$ 。该池存储先前生成的潜在变量及其全局相机位姿。全局位姿 $P_i^{\mathrm{global}}$ 通过累积相对位姿计算得出。在生成过程中，使用分层检索策略来查找相关上下文。首先，系统根据与当前位置的平移距离选择前 $K$ 个候选项。然后，从中进一步选择 $L$ 个条目，其观察方向与当前方向最对齐，通过相对旋转矩阵的迹来衡量。这些检索到的潜在变量与当前输入序列拼接，其关联位姿经过重新对齐并注入 DiT，以强制空间连贯性。

最后，模型利用渐进式自回归推理策略。渐进式逐帧噪声调度为每个去噪窗口内的潜在帧分配单调递增的噪声水平。这在早期帧中提供了低噪声锚点，同时保持未来帧处于较高噪声水平以便修正。在推理过程中，完成所有去噪阶段后，潜在序列向前移动，最早的一帧被剔除，并追加一个新的纯噪声潜在变量。此外，还引入了注意力汇 (attention sink) 机制，以稳定注意力并在长序列生成中保持帧保真度。

实验

与最先进的交互式游戏和相机控制模型的对比验证表明，所提出的方法在长时程序列中实现了更优越的动作可控性、视觉质量和 3D 一致性，而基线模型则存在视觉漂移、控制粗糙或无法保持几何连贯性的问题。
定性分析证实，该模型忠实地遵循复杂的用户输入，并在重访先前见过的地点时保持一致的 3D 场景结构，而以往的方法往往无法在短生成窗口之外保持几何结构。
消融实验表明，基于李代数的动作到相机映射比线性近似提供了更精确的运动控制，并且增加长期记忆潜在变量以及注意力汇显著增强了 3D 一致性并减少了长时程误差漂移。
人类评估和定量指标共同验证，该方法在所有关键方面均优于现有基线，确立了其作为交互式 3D 世界建模的稳健解决方案。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 小时前

Jisu Nam Yicong Hong Chun-Hao Paul Huang Feng Liu JoungBin Lee Jiyoung Kim Siyoon Jin Yunsung Lee Jaeyoon Jung Suhwan Choi

摘要

一句话总结

主要贡献

本文提出了一种基于物理的连续动作空间，利用李代数将用户输入转化为精确的 6-DoF 相机位姿，并通过相机嵌入器将其注入视频扩散 Transformer，以确保动作对齐的准确性。
提出了一种检索机制，利用全局相机位姿作为空间索引来检索相关的过往观测数据，从而在长时程导航中实现对地点的几何一致性重访。
作者发布了一个大规模数据集，包含 3,000 分钟标注了相机轨迹和文本描述的真实人类游戏画面，以支持交互式游戏世界模型的训练与评估。

引言

数据集

数据集构成与来源：作者推出了 WorldCam-50h，这是一个旨在捕捉真实动作动态的大规模人类游戏视频数据集。数据来源于三款游戏：《反恐精英》（Counter-Strike，闭源授权），以及《Xonotic》和《Unvanquished》（分别基于 CC BY-SA 2.5 和 GPL v3 开源授权）。该数据集专注于静态环境中的单人探索，以确保可复现性和视觉多样性。
各子集的关键细节：该数据集包含每款游戏超过 100 个视频，每个视频平均时长为 8 分钟，每款游戏产生约 17 小时的素材。参与者被指示执行多样化的行为，如导航、快速相机移动和重访地点。总收集量约为 50 小时的游戏画面。
模型使用与训练策略：作者利用整个数据集来训练基础游戏世界模型。与以往丢弃文本引导的工作不同，该方法利用详细的字幕来在训练过程中保持帧质量和场景风格。
处理与元数据构建：
- 字幕生成：每个训练视频片段都使用 Qwen2.5-VL-7B 生成的详细文本描述进行标注。这些提示词侧重于全局布局、视觉主题和周围环境条件。
- 相机标注：使用 ViPE 提取每一分钟片段的全局相机位姿信息，包括内参和外参。
- 过滤：为确保数据质量，作者应用了过滤步骤，移除了具有不切实际的大平移量的相机位姿估计。

方法

参考下方的框架图，该系统架构集成了动作到相机的映射、相机控制生成以及位姿锚定的记忆机制。

L_{\mathrm{FM}} = \mathbb{E}_{\mathbf{z}_0, c_{\mathrm{text}}, t} \Big[ \big\| v_{\theta}(\mathbf{z}_t, c_{\mathrm{text}}, t) - \frac{\mathbf{z}_0 - \mathbf{z}_t}{1 - t} \big\|_2^2 \Big].

\Delta P_i = \exp(\hat{A}_i) = \left[ \begin{array}{ll} \Delta R_i & \Delta t_i \\ \mathbf{0}^\top & 1 \end{array} \right],

其中 $\hat{A}_i$ 是旋量的 $4 \times 4$ 矩阵表示。该公式在 $SE(3)$ 流形上联合集成了线速度和角速度，避免了去耦线性近似中存在的几何不一致性。

\mathbf{d} \gets \mathbf{d} + c_{\phi}(\hat{\mathbf{p}}).

实验

与最先进的交互式游戏和相机控制模型的对比验证表明，所提出的方法在长时程序列中实现了更优越的动作可控性、视觉质量和 3D 一致性，而基线模型则存在视觉漂移、控制粗糙或无法保持几何连贯性的问题。
定性分析证实，该模型忠实地遵循复杂的用户输入，并在重访先前见过的地点时保持一致的 3D 场景结构，而以往的方法往往无法在短生成窗口之外保持几何结构。
消融实验表明，基于李代数的动作到相机映射比线性近似提供了更精确的运动控制，并且增加长期记忆潜在变量以及注意力汇显著增强了 3D 一致性并减少了长时程误差漂移。
人类评估和定量指标共同验证，该方法在所有关键方面均优于现有基线，确立了其作为交互式 3D 世界建模的稳健解决方案。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

WorldCam：以相机姿态为统一几何表示的交互式自回归3D游戏世界

Jisu Nam Yicong Hong Chun-Hao Paul Huang Feng Liu JoungBin Lee Jiyoung Kim Siyoon Jin Yunsung Lee Jaeyoon Jung Suhwan Choi2 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

WorldCam：以相机姿态为统一几何表示的交互式自回归3D游戏世界

Jisu Nam Yicong Hong Chun-Hao Paul Huang Feng Liu JoungBin Lee Jiyoung Kim Siyoon Jin Yunsung Lee Jaeyoon Jung Suhwan Choi2 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

WorldCam：以相机姿态为统一几何表示的交互式自回归3D游戏世界

Jisu Nam Yicong Hong Chun-Hao Paul Huang Feng Liu JoungBin Lee Jiyoung Kim Siyoon Jin Yunsung Lee Jaeyoon Jung Suhwan Choi2 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Jisu Nam Yicong Hong Chun-Hao Paul Huang Feng Liu JoungBin Lee Jiyoung Kim Siyoon Jin Yunsung Lee Jaeyoon Jung Suhwan Choi

Jisu Nam Yicong Hong Chun-Hao Paul Huang Feng Liu JoungBin Lee Jiyoung Kim Siyoon Jin Yunsung Lee Jaeyoon Jung Suhwan Choi

Jisu Nam Yicong Hong Chun-Hao Paul Huang Feng Liu JoungBin Lee Jiyoung Kim Siyoon Jin Yunsung Lee Jaeyoon Jung Suhwan Choi