Command Palette

Search for a command to run...

FoMER Bench 多模态评测数据集

日期

24 天前

机构

Australian National University
Linköping University
Mohamed bin Zayed University of Artificial Intelligence

论文链接

2509.15293

许可协议

Apache 2.0

加入 Discord 社区

*该数据集支持在线使用,点击此处跳转

FoMER Bench 是由穆罕默德·本·扎耶德人工智能大学联合林雪平大学、澳大利亚国立大学于 2025 年发布的一个基础模型具身推理(FoMER)基准,相关论文成果为「How Good are Foundation Models in Step-by-Step Embodied Reasoning?」,旨在评估 LMM 在复杂具身决策场景中的推理能力。

该数据集包含超过 1,100 条样本,覆盖 10 种任务与 8 个具身推理的详细分步推理,涵盖 3 种不同的机器人类型和多种机器人模式,能够评估 LLM 在各种任务上的能力,例如下一步动作预测、动作可供性、物理常识、时间推理、工具使用和操作、风险评估以及机器人导航。数据包括多项选择题 (MCQ) 、判断题 (TF) 和开放式问题。每条样本都配有输入观察(视频或图像帧 + 文本提示)、多个候选动作,以及对应的逐步推理链(step-by-step reasoning traces)。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供