HyperAIHyperAI

Command Palette

Search for a command to run...

Gamma-World:超越双玩家的生成式多 Agent 世界建模

Fangfu Liu Kai He Tianchang Shen Tianshi Cao Sanja Fidler Yueqi Duan Jun Gao Igor Gilitschenski Zian Wang Xuanchi Ren

摘要

用于交互式视频生成的世界模型主要集中于单agent场景,其中未来观测值由单一控制信号生成。然而,许多生成环境需要多agent交互:多个玩家、机器人或具身agent在共享空间内同时行动。将世界模型扩展至此类场景需要一种严谨的多agent设计:agent应保持独立可控、置换对称,并支持高效推理,同时维持跨时间与视角的一致性。在本文中,我们提出了用于交互式模拟的生成式多agent世界模型。该模型引入了单纯形旋转Agent编码(Simplex Rotary Agent Encoding),这是3D RoPE的一种无参数扩展,将agent表示为旋转角度空间中正单纯形的顶点。这使得每个agent具有独特的相位,同时使所有agent具有置换等价性,从而实现了可扩展的agent身份标识,而无需学习每个槽位的身份或固定的agent排序。为避免agent间密集的全对全注意力机制,我们进一步提出了稀疏中心注意力机制(Sparse Hub Attention),其中可学习的中心token在agent间协调token交互,将跨agent注意力成本从关于agent数量的二次方降低至线性。为实现实时推演,我们将全上下文扩散教师模型蒸馏为因果学生模型,该模型利用KV缓存按顺序生成时间块,从而实现24 FPS的动作响应式生成。在多人虚拟环境中的实验表明,与基于槽位和密集注意力的基线相比,我们的模型提升了视频保真度、动作可控性以及agent间一致性,同时无需额外训练即可从两名玩家泛化至四名玩家。

一句话总结

Gamma-World 是一种生成式多Agent世界模型,采用单纯形旋转Agent编码(Simplex Rotary Agent Encoding)建立置换对称的身份标识,并利用稀疏中心注意力(Sparse Hub Attention)将跨Agent计算复杂度从二次方降低至线性,从而在无需额外训练的情况下,支持两到四名玩家的同时实时、动作响应式视频生成,显著提升保真度、可控性及Agent间的一致性。

核心贡献

  • 提出 γ\gammaγ-World,一种配备单纯形旋转Agent编码(Simplex Rotary Agent Encoding)的生成式多Agent世界模型。该无参数扩展方案将3D RoPE映射至旋转角度空间中正单纯形的顶点,在保持置换对称性的同时分配不同的相位,且无需固定顺序或基于槽位的学习身份。
  • 提出稀疏中心注意力(Sparse Hub Attention),一种跨Agent通信机制,通过可学习的hub tokens路由交互。该架构将跨Agent注意力的计算复杂度相对于Agent数量从二次方降低至线性。
  • 在多人虚拟环境中评估 γ\gammaγ-World,证明其相较于基于槽位和密集注意力的基线方法,在视频保真度、动作可控性及Agent间一致性方面均有提升。该框架将全上下文扩散教师模型蒸馏为带有KV缓存的因果学生模型,以实现24 FPS的实时、动作响应式生成,并在无需额外训练的情况下实现从两到四名玩家的良好泛化。

引言

可控多Agent世界建模的需求日益增长,这对于逼真的多人游戏生成、交互式仿真和具身AI至关重要。先前的视频世界模型大多仍局限于单Agent系统,而现有的多Agent方法在可扩展性和结构对称性方面面临挑战。这些方法依赖密集联合注意力,随着Agent数量增加会导致二次方计算成本;同时使用学习到的身份嵌入,这会破坏置换对称性并将模型锁定在固定的玩家阵容中。为突破这些瓶颈,研究提出 γ\gammaγ-World,一种支持交互式多Agent仿真的可扩展生成框架。该框架采用单纯形旋转Agent编码,这是一种无参数方法,将Agent放置在旋转角度空间中距离相等的位置,从而在保持不同身份的同时维持置换对称性。此外,框架还实现了稀疏中心注意力,通过可学习的hub tokens路由跨Agent通信,将计算复杂度从二次方降低至线性。通过将双向教师模型蒸馏为带有KV缓存的因果学生模型,研究实现了实时24 FPS的自回归推演,并展示了在无需额外训练的情况下从两到四名玩家的无缝扩展能力。

数据集

  • 数据集构成与来源: 研究构建了一个涵盖两个领域的配对视频与动作数据集:类Minecraft游戏环境与机器人操作任务。每个样本将视频片段与明确的单Agent动作轨迹进行对齐。
  • 子集详情与动作格式: 游戏子集每帧存储25维动作向量,包含23个离散的玩家控制字段(用于物品栏、快捷栏选择、移动、物品操作和鼠标交互),以及2个连续字段用于水平与垂直相机运动。机器人子集每帧使用10维连续向量,记录3D末端执行器位置、6D姿态和机械爪开合值。左侧与右侧机器人Agent共享此格式,为每个机器人生成一条时间对齐的序列。
  • 模型使用与训练集成: 在模型训练期间,这些动作轨迹被用作显式的条件信号。动作与视频数据逐帧同步,并作为独立的单Agent流提供以指导生成。
  • 其他处理细节: 所提供的节选未说明数据集规模、过滤规则、训练集划分、混合比例、裁剪策略或元数据构建方法。文档内容仅专注于动作向量格式及其与视频帧的时间对齐。

方法

研究采用基于Transformer的潜在视频扩散框架,该框架针对自回归生成进行了适配,并基于DiT架构构建。模型处理同步的多Agent输入,其中PPP个Agent的观测与动作被切分为token并编码至共享潜在空间。输入表示结构化为 Z0RP×T×H×W×Cz\mathbf{Z}_0 \in \mathbb{R}^{P \times T \times H \times W \times C_z}Z0RP×T×H×W×Cz,在单Agent潜在表示中引入了显式的Agent轴。训练期间,模型以初始观测和单Agent动作序列为条件,联合预测所有Agent的未来潜在观测,确保时间与Agent视角的一致性。推理时,首次观测被编码为上下文,而未来latent tokens从噪声初始化,并在单Agent动作序列的引导下逐块去噪。

动作条件控制通过共享的动作编码器 faf_afa 实现,该编码器将每个Agent的动作序列 a1:Tp\mathbf{a}_{1:T}^pa1:Tp 映射为隐藏动作特征 utpRD\mathbf{u}_t^p \in \mathbb{R}^DutpRD。该特征被投影至层特定的动作偏置 βItp\boldsymbol{\beta}_{\mathcal{I}_t}^pβItp,并广播至对应Agent与帧的所有spatial tokens,使模型能够在不破坏置换对称性的前提下融入动作信息。模型进一步通过修改3D旋转位置编码(RoPE)以纳入Agent身份,引入包含Agent轴 ppp 的4D旋转算子 R4D(t,p,h,w)\mathbf{R}_{\text{4D}}(t, p, h, w)R4D(t,p,h,w)

为解决在不强制固定顺序的前提下表示Agent身份的挑战,研究提出单纯形旋转Agent编码。该方法将Agent表示为旋转角度空间中正单纯形的顶点,确保所有Agent等距且可互换。对于包含 PVP \leq VPV 个活跃Agent的批次,单射映射 π\piπ 将Agent分配至大小为 VVV 的固定单纯形池中的顶点。Agent带旋转角度定义为 θp=αsπ(p)\theta_p = \alpha \, s_{\pi(p)}θp=αsπ(p),其中 sπ(p)s_{\pi(p)}sπ(p) 为选定的单纯形顶点。该编码无需参数、具备置换对称性,并通过从同一池中选取更多未使用顶点来支持向更多Agent扩展。

为降低密集跨Agent注意力带来的计算成本,研究引入稀疏中心注意力(SHA)。该机制使用少量可学习的hub tokens来中介Agent间的信息流。Agent tokens仅关注来自同一Agent流及hub tokens的信息,而hub tokens则关注所有Agent及其他hub tokens。不同Agent流之间的直接注意力被掩码遮蔽,强制实施两跳通信路径:Agent → hub → Agent。序列组织为 PTLPTLPTL 个Agent tokens后接 TKTKTK 个hub tokens,每个潜在帧包含 KKK 个hub tokens。中心辐射拓扑由掩码 Mhub(i,j)=1[ρ(i)=ρ(j)ρ(i)=hubρ(j)=hub]\mathcal{M}_{\text{hub}}(i, j) = \mathbf{1}[\rho(i) = \rho(j) \vee \rho(i) = \text{hub} \vee \rho(j) = \text{hub}]Mhub(i,j)=1[ρ(i)=ρ(j)ρ(i)=hubρ(j)=hub] 定义,其中 ρ(i)\rho(i)ρ(i) 表示token iii 的身份。针对因果自回归生成,该拓扑与块因果掩码 M(i,j)=1[b(j)b(i)]Mhub(i,j)\mathcal{M}(i, j) = \mathbf{1}[b(j) \leq b(i)] \cdot \mathcal{M}_{\text{hub}}(i, j)M(i,j)=1[b(j)b(i)]Mhub(i,j) 组合,其中 b(i)b(i)b(i) 为token iii 的时间块索引。这使得每块注意力成本从 O(P2n2L2)O(P^2 n^2 L^2)O(P2n2L2) 降低至 O(PnL(nL+nK))+O(nK(PnL+nK))O(P n L (n L + n K)) + O(n K (P n L + n K))O(PnL(nL+nK))+O(nK(PnL+nK)),在固定块大小 nnn、空间长度 LLL 和hub tokens数量 KKK 的情况下,关于 PPP 呈线性关系。

为支持实时推演,训练过程分为三个阶段。首先,训练双向教师模型以实现高质量的条件去噪,充分利用完整的时间与跨Agent视野。其次,使用Diffusion Forcing公式训练因果学生模型,将块因果注意力与稀疏中心注意力掩码相结合。该因果学生模型作为完整的多步扩散模型进行训练,为蒸馏提供稳定的起点。最后,应用条件自强制蒸馏过程,将多步因果学生模型蒸馏为少步生成器。蒸馏采用带推演感知的分布匹配蒸馏(DMD),鼓励少步学生模型在其自身生成的历史序列上保持质量。模型采用条件蒸馏进行训练,确保初始观测与动作控制得以保留。推理时,蒸馏后的学生模型根据初始观测与最新的单Agent动作块逐块生成时间序列,以24 FPS流式输出推演结果。系统为每个Agent流维护KV缓存,并为hub tokens维护共享缓存,以在流式传输期间保持稀疏中心注意力拓扑。

实验

通过在同步的多Agent Minecraft场景与真实世界双机臂机器人任务中的评估,实验验证了将Agent表示为通过共享通信中心耦合的独立且可互换实体,相较于现有基线方法,能显著提升跨视角一致性与生成保真度。定性演示表明,在未修改架构的情况下将Agent数量从两扩展至四时,模型仍能维持同步交互、稳健的物体定位及协调的动态特性。效率分析进一步证实,随着Agent数量增加,稀疏中心注意力机制大幅降低了计算开销,使实际实时推理成为可能。最终,该框架成功将耦合的多Agent动态特性从虚拟仿真泛化至物理环境,为交互式世界建模奠定了可扩展的基础。

研究开展消融实验,以评估多Agent世界模型中不同架构设计选择的影响,重点关注输入组织、Agent身份编码与跨Agent交互。结果表明,结合基于序列的输入组织、单纯形Agent编码与稀疏中心注意力可在多项质量指标上取得最佳性能。完整模型在FVD、FID和LPIPS指标上取得最低值,表明视觉质量与一致性得到改善,同时PSNR和SSIM指标更高,说明感知与像素级保真度更佳。采用序列拼接、单纯形Agent编码与稀疏中心注意力的完整模型在视觉质量与一致性上优于所有其他架构变体。单纯形旋转Agent编码相较于学习到的视角嵌入,能够启用独立且可互换的Agent身份。稀疏中心注意力在Agent数量增加时降低计算量与延迟,从而实现高效的跨Agent交互。

研究将 γ\gammaγ-World 方法与两种基线在跨Agent世界建模任务中进行对比,评估其在记忆、定位、移动、建造与一致性等多项任务中的表现。结果显示,γ\gammaγ-World 在所有类别中均优于基线方法,展现出更优的视觉质量与Agent间一致性。该框架将Agent视为独立且可互换的实体,并采用高效的共享交互路径,这一设计促成了其卓越的性能与可扩展性。γ\gammaγ-World 在记忆、定位、移动、建造与一致性等多项评估任务中均取得优于基线的表现。该方法在帧拼接与Solaris方法上表现更佳,印证了其在Agent身份编码与稀疏跨Agent交互设计上的有效性。结果表明,γ\gammaγ-World 能够保持出色的视觉质量与一致性,尤其在需要记忆与跨视角连贯性的场景中。

研究展示了一项对比模型不同训练阶段的消融实验,涵盖双向教师、因果学生与蒸馏变体。结果表明,双向教师模型在多项指标上取得最佳性能,而蒸馏模型在保持适合流式推理的因果结构的同时,恢复了教师模型的大部分质量。因果变体因受限于有限的时序上下文而表现下降。双向教师模型在所有评估指标上均表现最佳。蒸馏模型在支持流式推理的同时恢复了双向教师模型的大部分质量。因果变体因无法充分获取未来上下文而表现有所下滑。

{"summary": "研究开展消融实验,以评估稀疏中心注意力中hub tokens数量对生成质量的影响。结果表明,增加hub tokens数量可在多数指标上带来提升,表明更大的中心容量能够增强模型总结与传达多Agent交互的能力。然而,在较高的hub tokens数量下收益逐渐递减,说明通信容量与效率之间存在权衡。", "highlights": ["增加hub tokens数量可在多项指标上改善生成质量,但较高数量下收益递减。", "更大的中心容量能够更有效地总结多Agent交互,从而提升感知与像素级质量。", "研究表明,hub tokens数量是平衡通信容量与模型效率的关键设计参数。"]}

研究通过一系列消融实验与对比基准评估了多Agent世界模型,以检验架构设计、训练策略与超参数配置。结果证明,结合基于序列的输入组织、单纯形Agent编码与稀疏中心注意力可优化视觉质量与跨Agent一致性,在多样化仿真任务中显著优于现有基线方法。训练阶段对比进一步表明,尽管双向教师模型能达到峰值性能,但蒸馏变体在成功保留该质量的同时实现了高效的流式推理。最后,对注意力机制的分析凸显了通信容量与计算效率之间的明确权衡,共同验证了该框架稳健且可扩展的设计。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供