Command Palette
Search for a command to run...
AnchorWorld:基于视角演化定制的具身自我中心世界仿真
AnchorWorld:基于视角演化定制的具身自我中心世界仿真
摘要
尽管交互世界建模是一个关键的前沿领域,但其在满足实际场景所需的多功能可控性方面仍缺乏深入探索。为弥补这一空白,我们提出了AnchorWorld框架,该框架通过增强交互完整性与灵活的世界定制机制,推动了自我中心模拟的发展。首先,我们将3D人体运动作为主要的交互模态。为弥补自我中心视角中超出视野或被截断的身体部位,我们引入了一种辅助训练监督信号,该信号融合了与agent的第一人称感知解耦的外部视角。该机制使模型能够观测agent相对于环境的全身空间位置,从而促进人与世界交互更稳健的空间锚定。此外,我们提出了一种简单而有效的机制,用于定制自演化世界。该机制通过在统一的世界坐标系中定义锚点视图,并结合规定局部场景动态演化的文本描述来实现。实验结果表明,AnchorWorld显著优于当前最先进的基线方法,而消融实验则验证了我们核心设计的有效性。值得注意的是,我们的定制方案展现出优异的时空几何一致性,并严格遵循预设的演化动力学规律。
一句话总结
AnchorWorld 是一个自我中心世界模拟框架,它通过 3D 人体运动交互和辅助的外部视角监督来增强空间定位,以弥补截断的身体部位;同时,其基于视角的演化定制机制将锚点坐标与文本描述相结合,生成具有时空几何一致性的场景,该场景优于最先进基线,并严格遵循规定的演化动力学。
核心贡献
- 本研究定义了可定制世界的人体交互自我中心模拟,并提出了 AnchorWorld,这是一个用于在自演化环境中进行人体运动驱动探索的统一框架。
- 该方法利用 3D 人体运动作为主要交互模态,并应用带有外部视角的辅助训练监督,以解决第一人称视角中身体部位截断的问题。
- 与文本演化提示词配对的姿态关联锚点视角引导局部场景定制,同时在自我中心、合成 Unreal Engine 及真实世界场景中的广泛评估验证了精确的动作控制、稳健的空间一致性以及可控的动态演化。
引言
交互式世界模型对于虚拟现实和具身智能等第一人称应用至关重要,因为它们必须将人体运动转化为连贯的视觉体验,同时保持可定制的环境状态。先前的方法通常依赖文本提示词或相机轨迹等抽象控制手段,无法捕捉真正的具身交互。即使是最近结合全身运动的方法,在自我中心视频生成方面仍面临挑战,因为第一人称视角会遮挡身体,导致运动监督稀疏且对齐较弱。此外,现有模型通过初始帧或全局提示词隐式定义场景,难以在精确的 3D 位置指定、保留或演化局部视觉状态。为弥补这些不足,作者提出了 AnchorWorld,这是一个结合混合视角人体动作条件控制与姿态关联锚点视角的统一框架。该架构使模型能够从外部视角学习运动动力学,同时允许用户明确定义并引导局部场景元素的外观与演化。通过渐进式训练策略,该框架在合成与真实世界场景中实现了精确的自我中心动作控制、稳健的空间一致性以及可控的动态世界演化。
方法
作者利用基于流匹配的 DiT 视频生成模型(实例化为 Wan [46]),以具身人体运动和锚点视角为条件合成自我中心视频。该框架通过接收两个主要控制信号运行:源自 SMPL-X 参数化人体模型的连续人体动作序列,表示为 M∈Rf×k×6,其中 f 为帧数,k 为关节数;以及由初始自我中心视角和一组局部锚点视角定义的可定制世界规范。每个锚点视角包含一张 RGB 图像、一个 6 自由度视角姿态,以及描述局部场景时间变化的演化提示词。整体架构通过一系列条件控制机制整合这些输入,以生成连贯且可控的自我中心视频输出。 
为实现自我中心领域的稳健动作控制,作者引入了一种结合第三人称视角(TPV)和第一人称视角(FPV)数据的混合视角训练方法。该方法利用提供全身运动和交互线索的 TPV 视频,解决了第一人称视角中监督稀疏且不完整的问题。动作条件控制采用基于投影的方式制定,使模型能够将 3D 人体运动投影到任意视角下的 2D 视觉观测中。模型首先在大规模 TPV 视频上进行预训练,以获取投影知识和人景交互先验,随后通过将相机参数与 FPV 数据中的人体头部视角对齐,适配至自我中心模拟。该设计增强了模型执行精确人体动作控制的能力,并培养了更强的空间姿态感知力。 
动作条件控制通过空间姿态注意力机制实现。运动编码器将输入运动序列 M 投影为潜在嵌入 zm∈Rf′×k×d,其中 d 为模型的隐藏维度;相机编码器将相机姿态序列 C∈Rf×3×4 处理为 zc∈Rf′×1×d。这些嵌入沿空间维度与视频 tokens zv(t) 拼接,形成统一序列 T=[zv(t);zm;zc]∈Rf′×(h⋅w+k+1)×d。该序列随后由空间自注意力块处理,其中 Truncate 算子丢弃辅助姿态 tokens,仅保留更新后的视频特征。该机制使模型能够利用运动与视频 tokens 之间的逐帧对应关系,实现动作与视角信息的有效融合。 
针对可演化世界定制,框架采用一组锚点视角,每个视角提供三种类型的局部世界先验:用于视觉外观的 RGB 图像、用于空间定位的 3D 姿态,以及用于时间状态演化的演化提示词。为在保留预训练视频模型生成能力的同时融入锚点视角图像先验,采用了上下文条件控制策略。锚点视角的图像被编码为潜在 tokens zs∈Rfs×h⋅w×d,并沿帧维度与视频潜在 tokens zv(t)∈Rf′×h⋅w×d 拼接。该设计使锚点视角能够在上下文中引导世界合成,而无需修改架构。模型进一步采用 3D RoPE,通过在位置嵌入空间中为锚点视角分配不同的帧轴位置来区分它们。 
为实现定制内容的空间定位,相机姿态被编码为嵌入 zpose∈R(f′+fs)×1×d,并在空间上进行广播以匹配潜在分辨率,得到 zpose∈R(f′+fs)×h⋅w×d。在自注意力层之前,这些姿态嵌入被添加到视觉 tokens 中,使模型能够区分位于不同位置的锚点视角,并将生成的自我中心轨迹与正确的局部约束关联起来。针对动态世界定制,每个锚点视角与一个指定其时间场景变化的局部演化描述 ti 配对。这些描述通过交叉注意力注入,利用预训练视频模型的语义先验。为保留动态指令的局部性,注意力掩码限制了文本提示词与视觉 tokens 之间的交互,确保文本提示词 tj 仅与生成的视频 tokens 及对应的锚点视角 tokens zs(j) 交互。这种掩码交叉注意力实现了特定锚点的文本控制,使局部场景状态能够随时间演化,同时减少不同锚点视角间的干扰。
该模型采用渐进式多阶段策略进行训练,逐步赋予其自我中心人体动作控制与可演化锚点视角定制能力。第一阶段和第二阶段专注于混合视角动作控制训练,其中第一阶段在大规模第三人称视频上训练模型,以学习从外部视角进行动作条件控制生成,第二阶段通过将相机轨迹与角色头部姿态对齐,使模型适配第一人称视频。第三阶段和第四阶段专注于可演化锚点视角定制训练。第三阶段在静态场景上训练模型,学习姿态感知的锚点视角条件控制以实现一致的自我中心漫游,第四阶段混入带有演化描述的动态数据,以建模文本驱动的局部状态变化。这种分阶段方法确保模型学习有效整合动作与世界先验,从而实现连贯且可控的自我中心视频合成。
实验
评估涵盖多个测试集上的静态与动态自我中心场景,验证了模型在人体动作控制、空间场景一致性及提示词驱动动态演化方面的能力。对比分析表明,所提方法在运动精度和空间感知方面显著优于现有基线,同时在分布外数据及真实世界片段上保持了稳健的泛化能力。消融实验进一步证实,多阶段训练流程、基于投影的控制机制以及锚点视角条件控制对于精确的姿态感知和成功推断未见场景动力学至关重要。
{"summary": "作者在不同测试场景(包括静态和动态场景)下将其方法与多个基线进行比较,证明了其在场景一致性、相机精度和文本对齐方面具有优越性能,同时保持了具有竞争力的视觉质量。结果凸显了其基于投影的控制和多阶段训练方法的有效性,特别是在处理复杂的自我中心交互和动态场景演化方面。", "highlights": ["与基线相比,所提方法在所有测试场景中均实现了最佳的性能,包括场景一致性、相机精度和文本对齐。", "该方法在动态场景中表现出强大的泛化能力,在处理演化动作时,运动控制和视觉质量均有提升。", "消融实验证实了关键设计选择(包括基于投影的控制和多阶段训练)对于稳健的场景理解和姿态感知生成的重要性。"]}
作者提出了一种用于视频生成的多阶段训练框架,每个阶段专注于逐步更复杂的任务,如外部视角运动、自我中心运动、静态场景一致性及动态场景演化。训练过程在各阶段使用不同的数据规模和设置,但优化器与硬件资源保持一致。框架依次经历四个阶段,每个阶段具有明确的目标与数据需求,从外部视角运动开始,以动态场景演化结束。训练数据规模从第一阶段到第三阶段逐渐减少,而第四阶段则结合使用前一阶段的数据。所有阶段均保持相同的优化器、硬件资源和学习率,仅迭代次数有所不同。
作者进行了消融实验,以评估不同设计策略对运动精度的影响,重点关注关节位置、3D 姿态注意力及交叉注意力融合。结果表明,该方法在 WA-MPJPE 和 PA-MPJPE 指标上均取得了最低误差,表明其运动精度优于其他替代方法。所提方法在运动精度指标上优于其他方法,取得了最低的误差值。仅使用关节位置与 3D 姿态注意力的方法显示出更高的误差值,表明其运动控制精度较低。交叉注意力融合与上下文帧拼接同样表现出较高误差,说明其在运动精度方面相较于所提方法存在局限。
作者评估了锚点视角数量对场景一致性指标的影响,观察到增加锚点视角数量通常能在大多数指标上提升性能。结果表明,使用三个锚点视角在大多数情况下能取得最佳性能,尤其在匹配像素级细节和语义一致性方面,同时在某些质量指标上获得最高分。随着锚点视角数量增加,性能随之提升,其中三个视角在大多数指标上表现最佳。使用三个锚点视角在匹配像素级细节和语义一致性方面取得最高分。该方法在视觉质量和一致性方面表现强劲,尤其是在增加锚点视角数量时。
{"summary": "作者通过消融实验评估了不同设计选择对其方法在动作控制、场景一致性及文本对齐方面性能的影响。结果表明,移除关键组件(如第一阶段训练、基于投影的控制、锚点视角姿态或锚点视角 RoPE)会导致性能显著下降,尤其是在场景一致性和相机精度方面。完整方法在所有指标上均取得最佳结果,证明了多阶段训练与空间感知机制的有效性。", "highlights": ["移除第一阶段训练或基于投影的控制会显著降低场景一致性和相机精度。", "省略锚点视角姿态或锚点视角 RoPE 会导致场景一致性和相机精度性能下降。", "完整方法在静态与动态场景评估中均优于所有消融变体,展现出更优的文本对齐与视觉质量。"]}
作者在不同静态与动态场景下评估了其多阶段视频生成框架,验证了其在处理复杂自我中心交互的同时,维持场景一致性、相机精度与文本对齐的能力。消融实验证实,关键设计要素(包括基于投影的控制、锚点视角定位及渐进式训练阶段)对于稳健的空间理解与精确的运动追踪至关重要。定性评估进一步表明,该方法在视觉保真度和动态场景演化方面持续优于基线方法,且使用适量锚点视角时可获得最佳一致性。综合来看,这些实验确立了所提架构能够在多样化的视频条件下,有效平衡细粒度运动控制与连贯的场景生成。