HyperAIHyperAI

Command Palette

Search for a command to run...

在野外学习潜在动作世界模型

Quentin Garrido Tushar Nagarajan Basile Terver Nicolas Ballas Yann LeCun Michael Rabbat

Abstract

能够在真实世界中进行推理与规划的智能体,需要具备预测自身行为后果的能力。尽管世界模型具备这种能力,但它们通常依赖于带有动作标签的数据,而这类标签在大规模数据上获取往往十分困难。这一挑战促使研究者探索从视频中仅学习潜在动作空间的隐式动作模型。本文致力于在真实场景视频(in-the-wild videos)上构建潜在动作世界模型,拓展了以往主要聚焦于简单机器人仿真、视频游戏或操作数据的研究范畴。尽管这一设定使我们能够捕捉更丰富的动作模式,但也带来了由视频多样性引发的新挑战,例如环境噪声干扰,以及不同视频之间缺乏统一的具身性(common embodiment)。为应对部分挑战,本文探讨了动作应具备的若干性质,分析了相关网络架构设计的选择及其评估方法。我们发现,连续但受约束的潜在动作空间能够有效捕捉真实场景视频中动作的复杂性,而传统的向量量化(vector quantization)方法则难以胜任这一任务。例如,我们观察到由智能体(如人类进入房间)引起的环境变化,能够在不同视频之间实现跨视频迁移,这凸显了所学动作对真实场景视频特性的适应能力。在缺乏统一具身性的前提下,我们主要学习到的潜在动作呈现出相对于摄像头的空间局部化特性。尽管如此,我们仍成功训练了一个控制器,能够将已知动作映射为潜在动作,从而将潜在动作作为通用接口,使我们的世界模型在规划任务上的表现与基于动作条件的基线方法相当。本研究的分析与实验为将潜在动作模型扩展至真实世界奠定了重要基础,推动了该方向向现实应用的迈进。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供