HyperAI

使用此数据集在 Discord 上讨论

日期

3 个月前

许可证

Apache 2.0

标签

World Model Bench（简称 WM Bench）是世界上第一个用于评估世界模型和具身人工智能系统认知能力的基准，旨在超越传统的图像和视频质量评估，专注于模型的认知能力。该数据集围绕世界模型能力评估构建，涵盖感知、认知与具身三大核心维度，细分为环境理解、实体识别与分类、基于预测的推理等 10 类任务，并设计 100 个多样化场景，用于系统性评估模型在复杂环境中的认知与决策能力。

数据字段:

id：样本唯一标识
cat：任务类别标签
scene_context：场景上下文输入
PREDICT：预测输出，标识危险与安全方向
MOTION：动作输出，描述动作情感

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

Command Palette

World Model Bench 世界模型基准数据集

数据字段:

用 AI 构建 AI

HyperAI Newsletters

Command Palette

World Model Bench 世界模型基准数据集

数据字段:

相关数据集

MDPBench 多语言文档解析基准数据集

Stroke Risk 中风风险数据集

Spam Email Detection 垃圾邮件检测数据集

Simple Voice Questions 简单语音问题数据集

CHOCLO 拉丁美州文化基准数据集

COCO-2017-Vietnamese 越南语图像检测数据集

DRACO 跨领域深度研究基准数据集

Historical Pandemic & Epidemic 全球历史疫情数据集

Open-RL 推理问题数据集

Adverse Drug Reaction 模拟药物不良反应数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

CL-bench 上下文学习评估基准数据集

RoVid-X 机器人视频生成数据集

Sonar Signal 水下声呐信号数据集

Delhi Pollution AQI 德里空气质量数据集

Diabetes Mexico 墨西哥糖尿病数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

World Model Bench 世界模型基准数据集

数据字段:

相关数据集

MDPBench 多语言文档解析基准数据集

Stroke Risk 中风风险数据集

Spam Email Detection 垃圾邮件检测数据集

Simple Voice Questions 简单语音问题数据集

CHOCLO 拉丁美州文化基准数据集

COCO-2017-Vietnamese 越南语图像检测数据集

DRACO 跨领域深度研究基准数据集

Historical Pandemic & Epidemic 全球历史疫情数据集

Open-RL 推理问题数据集

Adverse Drug Reaction 模拟药物不良反应数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

CL-bench 上下文学习评估基准数据集

RoVid-X 机器人视频生成数据集

Sonar Signal 水下声呐信号数据集

Delhi Pollution AQI 德里空气质量数据集

Diabetes Mexico 墨西哥糖尿病数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MDPBench 多语言文档解析基准数据集

Stroke Risk 中风风险数据集

Spam Email Detection 垃圾邮件检测数据集

Simple Voice Questions 简单语音问题数据集

CHOCLO 拉丁美州文化基准数据集

COCO-2017-Vietnamese 越南语图像检测数据集

DRACO 跨领域深度研究基准数据集

Historical Pandemic & Epidemic 全球历史疫情数据集

Open-RL 推理问题数据集

Adverse Drug Reaction 模拟药物不良反应数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

CL-bench 上下文学习评估基准数据集

RoVid-X 机器人视频生成数据集

Sonar Signal 水下声呐信号数据集

Delhi Pollution AQI 德里空气质量数据集

Diabetes Mexico 墨西哥糖尿病数据集

相关数据集

MDPBench 多语言文档解析基准数据集

Stroke Risk 中风风险数据集

Spam Email Detection 垃圾邮件检测数据集

Simple Voice Questions 简单语音问题数据集

CHOCLO 拉丁美州文化基准数据集

COCO-2017-Vietnamese 越南语图像检测数据集

DRACO 跨领域深度研究基准数据集

Historical Pandemic & Epidemic 全球历史疫情数据集

Open-RL 推理问题数据集

Adverse Drug Reaction 模拟药物不良反应数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

CL-bench 上下文学习评估基准数据集

RoVid-X 机器人视频生成数据集