Command Palette
Search for a command to run...
PhysToolBench 是由香港科技大学(广州)联合香港科技大学、北京航空航天大学等机构于 2025 年发布的一个视觉 – 语言问答(VQA)数据集,相关论文成果为「PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs」,旨在评估多模态大语言模型(MLLMs)对物理工具的识别、理解与创造能力。
该数据集包含超过 1,000 条图像-文本对,覆盖日常生活、工业、户外活动与专业环境等多种场景,并依据任务难度设置为易、中、难三个等级,其任务结构如下:
- 工具创造(Tool Creation)
- 工具识别(Tool Recognition)
- 工具理解(Tool Understanding)
