Command Palette

Search for a command to run...

20 天前

空间强制:面向视觉-语言-动作模型的隐式空间表征对齐

Fuhao Li Wenxuan Song Han Zhao Jingbo Wang Pengxiang Ding Donglin Wang Long Zeng Haoang Li

空间强制:面向视觉-语言-动作模型的隐式空间表征对齐

摘要

视觉-语言-动作(Vision-Language-Action, VLA)模型近年来展现出强大潜力,能够使机器人理解语言指令并执行精确操作。然而,大多数VLA模型基于仅在二维(2D)数据上预训练的视觉-语言模型构建,缺乏准确的空间感知能力,从而限制了其在三维(3D)物理世界中的实际应用。现有解决方案尝试引入显式的3D传感器输入(如深度图或点云),但这些方法受限于传感器噪声、硬件异构性以及现有数据集中深度信息覆盖不全等问题。另一种通过2D图像估计3D线索的方法,同样受限于深度估计器性能有限的瓶颈。为此,我们提出空间强制(Spatial Forcing, SF),一种简单而高效的对齐策略。该策略无需依赖显式的3D输入或深度估计器,即可隐式地促使VLA模型发展出空间理解能力。SF通过将VLA模型中间层的视觉嵌入与预训练3D基础模型生成的几何表示进行对齐,实现空间信息的融合。通过在中间层强制对齐,SF引导VLA模型编码更丰富的空间表征,从而显著提升动作执行的精度。在仿真环境与真实世界场景中的大量实验表明,SF取得了当前最优性能,超越了所有基于2D和3D输入的VLA模型。此外,SF还能将训练速度提升最高达3.8倍,并在多种机器人任务中显著提高数据利用效率。项目主页详见:https://spatial-forcing.github.io/

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供