Command Palette
Search for a command to run...

摘要
具身能力(Embodied capabilities)指智能体感知、理解并与其所处物理世界进行交互的一系列基础能力。尽管多模态大语言模型(MLLMs)在作为具身智能体方面展现出巨大潜力,但对其具身能力的全面、系统性评估仍鲜有涉及,现有基准测试主要聚焦于特定领域,如规划或空间理解。为弥补这一空白,我们提出了BEAR——一个全面且细粒度的基准测试,用于评估MLLMs在原子级具身能力上的表现。BEAR涵盖6个类别、14个领域的4,469个交错排列的图像-视频-文本条目,任务范围从底层的指物操作、轨迹理解、空间推理,延伸至高层的规划任务。对20个代表性MLLMs的广泛评估结果显示,这些模型在各类具身能力上均存在持续性的局限。为应对这一不足,我们提出了BEAR-Agent——一种融合预训练视觉模型的多模态可对话智能体,旨在增强MLLM在感知、三维理解与规划方面的能力。该框架显著提升了MLLM在BEAR基准测试中多样化具身能力的表现,相较于GPT-5,在绝对性能上提升了9.12%,相对提升达17.5%。此外,我们的实验表明,提升MLLM的具身能力可有效促进其在仿真环境中的具身任务表现。项目主页:https://bear-official66.github.io/