HyperAIHyperAI

Command Palette

Search for a command to run...

ExoActor:作为可泛化交互人形控制的偏中心视频生成

Yanghao Zhou Jingyu Ma Yibo Peng Zhenguo Sun Yu Bai Börje F. Karlsson

摘要

尽管人形机器人控制系统近年来取得了显著进展,但构建能够体现机器人与其周围环境及任务相关物体之间流畅交互行为的模型,仍是一个根本性挑战。这一难题源于需要大规模地同时捕捉空间上下文、时间动态、机器人动作以及任务意图,而这与传统监督学习方法极不匹配。为此,我们提出了 ExoActor,这是一种新型框架,旨在利用大规模视频生成模型的泛化能力来解决这一问题。ExoActor 的核心洞察在于:使用第三人称视频生成作为建模交互动态的统一接口。给定任务指令和场景上下文,ExoActor 能够合成合理的执行过程,这些过程隐式编码了机器人与环境及物体之间的协调交互。随后,通过一个估计人类运动并通过通用运动控制器执行该运动的流程,将这些视频输出转化为可执行的人形机器人行为,从而生成受任务条件驱动的行为序列。为了验证所提出的框架,我们将其实现为一个端到端系统,并展示了其在无需额外收集真实世界数据的情况下,对新场景的泛化能力。最后,我们讨论了当前实现的局限性,并概述了未来有前景的研究方向,阐明了 ExoActor 如何提供一种可扩展的方法来建模富含交互的人形机器人行为,这或许为生成式模型推动通用型人形智能的发展开辟了一条新途径。

一句话总结

作者提出了 ExoActor 框架,该框架利用外中心视频生成作为统一接口,隐式编码机器人、环境与物体之间的协同交互,并通过人体运动估计与通用运动控制器将合成的执行视频转换为可执行的人形机器人行为,从而在无需额外实地数据采集的情况下,展示向新场景的泛化能力。

核心贡献

  • ExoActor 是一个端到端框架,利用大规模视频生成模型来捕捉人形机器人、环境与物体之间的空间、时间以及任务驱动的动态关系。
  • 该方法采用第三人称视频生成作为统一接口,合成隐式编码协同交互的执行过程,随后通过结合人体运动估计与通用运动控制器的流水线将其转换为可执行行为。
  • 该系统在无需额外实地数据采集的情况下,展现出对新场景的泛化能力。

引言

为实现通用智能,人形机器人必须在非结构化环境中执行流畅且富含交互的行为。先前的方法难以在大规模上联合建模空间上下文、时间动态与任务意图,通常依赖成本高昂的实地数据采集、特定领域的微调或精心策划的演示,这些演示在受控环境之外往往无法泛化。为突破这些瓶颈,作者利用大规模第三人称视频生成作为统一接口,以建模复杂的交互动态。其 ExoActor 框架根据任务指令与场景上下文合成合理的执行视频,随后通过统一运动估计与跟踪流水线将这些虚拟演示转换为可执行的整体行为。该设计将高层交互规划与底层控制解耦,使人形系统能够在无需额外实地数据采集的情况下适应新场景。

数据集

  • 数据集构成与来源:提供的节选未说明数据集的构成或数据来源。
  • 各子集关键细节:未提供关于子集规模、来源或过滤规则的信息。
  • 模型使用与训练配置:节选未描述作者如何划分数据、设置混合比例或进行训练前处理。
  • 处理与元数据构建:未提及任何裁剪策略、元数据构建步骤或其他预处理细节。

方法

ExoActor 框架作为一个统一流水线运行,通过利用第三人称视频生成作为中间表示,将高层任务指令转换为可执行的人形机器人行为。整体系统分为三个主要阶段:视频生成、运动估计与运动执行。如图所示,该流程始于机器人在环境中的初始第三人称观测以及任务指令。该信息首先经过任务到动作的分解模块处理,将抽象目标转换为按时间顺序排列的原子动作序列,为后续阶段提供结构化规划。分解后的动作链与初始观测相结合,形成具有场景与任务感知的描述,用于指导视频生成过程。

请参考框架图以了解信息在系统中的流转过程。下一阶段涉及将机器人中心的观测转换为人机兼容的表示,这一步对于克服机器人与视频生成模型中以人为先验的表征之间的具身不匹配至关重要。如图3所示的机器人到人类具身转换,将机器人转换为人形主体,同时严格保留原始场景布局、摄像机视角、身体姿态、朝向、比例及机器人身体比例。该转换确保输入视频生成模型的数据与其学习到的数据分布保持一致,从而提升时间一致性,减少视觉伪影,并提高运动估计精度。该转换通过基于提示词的图片编辑接口实现,该接口对姿态、朝向与场景保留施加了必要的约束。

完成具身转换后,系统生成一系列第三人称动作视频,这些视频既符合任务要求,又与目标机器人的具身约束相兼容。此过程通过结构化提示词模板实现,该模板显式编码了场景约束、运动需求与任务执行细节。提示词将初始观测与增强后的动作描述作为输入,并将其组织为镜头、场景、动作、执行与最终状态等结构化字段。这些字段作为显式约束,强制固定摄像机视角,保留场景几何结构,并鼓励自然、符合物理规律且与机器人特性匹配的运动模式,从而减少幻觉现象并提升时间一致性。使用的视频生成模型为 Kling,因其具备卓越的稳定性和一致性。

生成的视频随后输入至具有交互感知能力的整体运动估计模块,以恢复人类动作主体的三维运动学轨迹。该阶段旨在弥合像素级视频合成与结构化机器人控制之间的差距。作者采用基于扩散模型的 GENMO 执行整体运动估计,将运动估计构建为约束生成过程。该模型不采用直接姿态回归,而是利用视频特征与二维关键点作为条件信号,生成时间一致且符合物理规律的三维运动序列。估计的运动使用 SMPL 参数进行表示,包含关节旋转与全局位置,模型对部分遮挡帧执行时序补全,生成平滑且物理一致的运动序列。这种具有交互感知的运动作为生成视频的结构化表示,为下游机器人执行指令提供了可靠的接口。

为捕捉物体交互所需的细粒度操作,系统逐帧将 WiLoR 应用于生成的第三人称视频,以估计双手姿态。如图5所示的手部运动估计,以原始视频帧率跟踪左右手姿态,每帧视频产生一次预测。每只手被分配一个离散交互状态,分别对应张开、半开与闭合抓取状态。平滑后的手部姿态与交互状态与整体运动同步,并按帧映射至机器人末端执行器指令。最终的交互感知运动表示结合了全局身体运动、双手姿态与离散操作状态,提供完整的运动轨迹。

流水线的最后阶段为通用运动跟踪部署,在此阶段估计的运动被转换为物理一致且动态可行的控制策略。系统采用 SONIC 作为运动跟踪控制器,该控制器以当前机器人状态与参考运动的时间窗口作为输入。通过利用 SONIC 的扩展架构,系统有效对视频生成模型输出的“虚拟”演示进行“物理过滤”,在无需任务特定奖励工程的情况下确保动态稳定性与风格保真度。对于手部运动部署,估计的手部状态被映射至宇树 Dex3-1 兼容的 7 自由度关节目标,并通过队列输入接口与 SMPL 身体轨迹一同流式传输至机器人。这使得机器人能够以符合物理规律的方式执行生成的行为。

实验

该框架通过涵盖基础导航到细粒度多步操作的真实世界零样本任务进行评估,验证了其将视频驱动提示词转换为稳定整体人形机器人行为的能力。定性分析表明,尽管系统能够可靠地执行复杂的运动与交互序列,但在视频生成保真度、遮挡下的运动估计以及物体操作期间的高度精确对齐方面存在固有局限。消融实验进一步表明,跳过中间动作重映射可保留关键的空间精度,具有任务感知的摄像机视角能优化性能,而选择特定的生成与估计模型能在物理合理性与计算效率之间取得最稳健的权衡。

作者通过一系列旨在评估其在递增难度任务中生成与执行富含交互的人形机器人行为能力的真实世界实验,对 ExoActor 进行了评估。系统性能从计算效率及各模块所需时间方面进行分析,重点考察视频生成、运动估计与任务分解。系统整体性能受视频生成与运动估计所需时间的影响,其中手部运动估计是最耗时的模块。与其他模块相比,任务分解与提示词构建相对较快,表明高层任务规划的处理效率较高。视频生成与整体运动估计每段视频所需时间更长,表明这些阶段具有更高的计算需求。

作者通过一系列真实世界实验对 ExoActor 进行评估,旨在验证其在难度递增的任务中生成与执行复杂人形交互的能力。性能分析表明,尽管高层任务规划仍保持计算高效,但手部运动估计是主要的处理瓶颈。最终结果表明,生成详细视频序列与整体运动需要显著更多的资源,凸显了行为复杂度与系统效率之间的明确权衡。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供