@article{zhang2025phystoolbench, title={PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs}, author={Zhang, Zixin and Chen, Kanghao and Lin, Xingwang and Jiang, Lutao and Zheng, Xu and Lyu, Yuanhuiyi and Guo, Litao and Li, Yinchuan and Chen, Ying-Cong}, journal={arXiv preprint arXiv:2510.09507}, year={2025} }

日期

7 个月前

大小

1.56 GB

数据集组织

论文 URL

标签

PhysToolBench 是由香港科技大学（广州）联合香港科技大学、北京航空航天大学等机构于 2025 年发布的一个视觉 – 语言问答（VQA）数据集，相关论文成果为「PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs」，旨在评估多模态大语言模型（MLLMs）对物理工具的识别、理解与创造能力。该数据集包含超过 1,000 条图像-文本对，覆盖日常生活、工业、户外活动与专业环境等多种场景，并依据任务难度设置为易、中、难三个等级，其任务结构如下：

工具创造（Tool Creation）
工具识别（Tool Recognition）
工具理解（Tool Understanding）
数据集示例

Citation

@article{zhang2025phystoolbench,
title={PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs},
author={Zhang, Zixin and Chen, Kanghao and Lin, Xingwang and Jiang, Lutao and Zheng, Xu and Lyu, Yuanhuiyi and Guo, Litao and Li, Yinchuan and Chen, Ying-Cong},
journal={arXiv preprint arXiv:2510.09507},
year={2025}
}

PhysToolBench.torrent

做种 2正在下载 0已完成 7总下载量 90

PhysToolBench/
- README.md
  1.64 KB
- README.txt
  3.28 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

7 个月前

大小

1.56 GB

数据集组织

论文 URL

标签

工具创造（Tool Creation）
工具识别（Tool Recognition）
工具理解（Tool Understanding）
数据集示例

Citation

@article{zhang2025phystoolbench,
title={PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs},
author={Zhang, Zixin and Chen, Kanghao and Lin, Xingwang and Jiang, Lutao and Zheng, Xu and Lyu, Yuanhuiyi and Guo, Litao and Li, Yinchuan and Chen, Ying-Cong},
journal={arXiv preprint arXiv:2510.09507},
year={2025}
}

PhysToolBench.torrent

做种 2正在下载 0已完成 7总下载量 90

PhysToolBench/
- README.md
  1.64 KB
- README.txt
  3.28 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

MAKIEVAL 多语言文化知识评估数据集

3 小时前

RHELM 长程记忆评估数据集

1 天前

SAM 3D Artist Objects 3D 物体重建数据集

1 小时内

ChartNet 图表理解多模态数据集

18 天前

EAVSD 电商广告视频分镜数据集

18 天前

SMOL 多语言翻译平行数据集

19 天前

chi-bench 医疗智能体基准评测数据集

6 天前

ViMU 视频隐喻理解数据集

19 天前

MemLens 多模态长上下文基准数据集

19 天前

VisCoR-55K 视觉推理数据集

1 个月前

AgentTrove 智能体交互轨迹数据集

1 个月前

Claw-Eval 真实世界评测基准数据集

1 个月前

QCalEval 量子校准图表理解数据集

2 个月前

RSRCC 遥感区域变化理解基准数据集

1 天前

BRIGHT 灾害建筑评估数据集

1 天前

OmniParsingBench 多模态解析能力评估数据集

1 天前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

PhysToolBench 物理工具任务数据集

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

PhysToolBench 物理工具任务数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

RHELM 长程记忆评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

ChartNet 图表理解多模态数据集

EAVSD 电商广告视频分镜数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

VisCoR-55K 视觉推理数据集

AgentTrove 智能体交互轨迹数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

BRIGHT 灾害建筑评估数据集

OmniParsingBench 多模态解析能力评估数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

PhysToolBench 物理工具任务数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

RHELM 长程记忆评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

ChartNet 图表理解多模态数据集

EAVSD 电商广告视频分镜数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

VisCoR-55K 视觉推理数据集

AgentTrove 智能体交互轨迹数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

BRIGHT 灾害建筑评估数据集

OmniParsingBench 多模态解析能力评估数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MAKIEVAL 多语言文化知识评估数据集

RHELM 长程记忆评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

ChartNet 图表理解多模态数据集

EAVSD 电商广告视频分镜数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

VisCoR-55K 视觉推理数据集

AgentTrove 智能体交互轨迹数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

BRIGHT 灾害建筑评估数据集

OmniParsingBench 多模态解析能力评估数据集

相关数据集

MAKIEVAL 多语言文化知识评估数据集

RHELM 长程记忆评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

ChartNet 图表理解多模态数据集

EAVSD 电商广告视频分镜数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

VisCoR-55K 视觉推理数据集

AgentTrove 智能体交互轨迹数据集

Claw-Eval 真实世界评测基准数据集

QCalEval 量子校准图表理解数据集