Command Palette
Search for a command to run...
Dinura Dissanayake Ahmed Heakl Omkar Thawakar Noor Ahsan et al

摘要
在物理世界中运行的具身智能体必须做出不仅有效、而且安全、空间上连贯且基于上下文的决策。尽管近年来大型多模态模型(LMMs)在视觉理解与语言生成方面展现出令人瞩目的能力,但其在真实具身任务中进行结构化推理的能力仍鲜有深入探索。本文旨在探究基础模型在具身环境中的逐步推理能力究竟如何。为此,我们提出了基础模型具身推理(Foundation Model Embodied Reasoning, FoMER)基准,用于评估大型多模态模型在复杂具身决策场景下的推理能力。该基准涵盖一系列多样化任务,要求智能体能够解读多模态感知信息,推理物理约束与安全性问题,并以自然语言生成有效的下一步动作。本工作主要贡献包括:(i)一个大规模、精心构建的具身推理任务集合;(ii)一种新颖的评估框架,能够将感知定位与动作推理解耦;(iii)在该设置下对多个领先LMMs的实证分析。我们的基准包含超过1100个样本,覆盖10项任务与8种具身形态,涉及三种不同类型的机器人。实验结果揭示了LMMs在具身推理方面的潜力与当前局限,指出了未来机器人智能研究中的关键挑战与机遇。相关数据与代码将公开发布,供学术界使用。