Command Palette
Search for a command to run...
*该数据集支持在线使用,点击此处跳转。
FoMER Bench 是由穆罕默德·本·扎耶德人工智能大学联合林雪平大学、澳大利亚国立大学于 2025 年发布的一个基础模型具身推理(FoMER)基准,相关论文成果为「How Good are Foundation Models in Step-by-Step Embodied Reasoning?」,旨在评估 LMM 在复杂具身决策场景中的推理能力。
该数据集包含超过 1,100 条样本,覆盖 10 种任务与 8 个具身推理的详细分步推理,涵盖 3 种不同的机器人类型和多种机器人模式,能够评估 LLM 在各种任务上的能力,例如下一步动作预测、动作可供性、物理常识、时间推理、工具使用和操作、风险评估以及机器人导航。数据包括多项选择题 (MCQ) 、判断题 (TF) 和开放式问题。每条样本都配有输入观察(视频或图像帧 + 文本提示)、多个候选动作,以及对应的逐步推理链(step-by-step reasoning traces)。