@misc{chen2024gmaimmbenchcomprehensivemultimodalevaluation, title={GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI}, author={Pengcheng Chen and Jin Ye and Guoan Wang and Yanjun Li and Zhongying Deng and Wei Li and Tianbin Li and Haodong Duan and Ziyan Huang and Yanzhou Su and Benyou Wang and Shaoting Zhang and Bin Fu and Jianfei Cai and Bohan Zhuang and Eric J Seibel and Junjun He and Yu Qiao}, year={2024}, eprint={2408.03361}, archivePrefix={arXiv}, primaryClass={eess.IV}, url={https://arxiv.org/abs/2408.03361}, }

日期

2 年前

大小

35.72 GB

数据集组织

论文 URL

arxiv.org

标签

多模态

GMAI-MMBench 是一个为推动通用医疗人工智能领域发展而设计的多模态评估基准，由来自上海人工智能实验室、华盛顿大学、莫纳什大学、华东师范大学、剑桥大学、上海交通大学、香港中文大学（深圳）、深圳市大数据研究院和中国科学院深圳先进技术研究院 9 个机构于 2024 年联合推出，相关论文成果为「GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI」。它通过提供全面和细致的评估，帮助研究者和开发者深入了解大型视觉语言模型 (LVLMs) 在医疗领域的应用效果，并识别技术短板。这个基准测试覆盖了广泛的数据集，包含 284 个不同来源的数据集，涉及 38 种医学图像模态和 18 个临床相关任务，覆盖了 18 个不同的医学部门，并在 4 种不同的感知粒度上进行了评估，从而从多个维度对 LVLMs 的性能进行考量。 GMAI-MMBench 的一个显著特点是其对多感知粒度的评估，它不仅关注于图像整体级别的评估，还深入到区域级别，提供了更为细致和全面的评估视角。此外，由于数据集主要来源于医院并由专业医生进行标注，GMAI-MMBench 的评估任务更贴近真实的临床场景，具有高度的临床相关性。这种相关性使得基准测试的结果对于实际医疗应用具有指导意义。 GMAI-MMBench 还允许用户自定义评估任务，通过实现词汇树结构，用户可以根据自己的需求来定义评估任务，这为医学 AI 研究和应用提供了灵活性。研究团队通过评估 50 个 LVLMs，包括一些先进的 GPT-4o 模型，发现即使是最先进的模型在处理医疗专业问题上也仅达到了 52% 的准确率，这表明当前的 LVLMs 在医疗领域的应用上还有很大的提升空间。 GMAI-MMBench 的开发为评估和提升 LVLMs 在医疗领域的应用提供了宝贵的资源，同时也揭示了当前技术面临的挑战，为未来的研究指明了方向。

Citation

@misc{chen2024gmaimmbenchcomprehensivemultimodalevaluation,
title={GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI},
author={Pengcheng Chen and Jin Ye and Guoan Wang and Yanjun Li and Zhongying Deng and Wei Li and Tianbin Li and Haodong Duan and Ziyan Huang and Yanzhou Su and Benyou Wang and Shaoting Zhang and Bin Fu and Jianfei Cai and Bohan Zhuang and Eric J Seibel and Junjun He and Yu Qiao},
year={2024},
eprint={2408.03361},
archivePrefix={arXiv},
primaryClass={eess.IV},
url={https://arxiv.org/abs/2408.03361},
}

GMAI-MMBench.torrent

做种 0正在下载 3已完成 429总下载量 766

GMAI-MMBench/
- README.md
  2.89 KB
- README.txt
  5.77 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

2 年前

大小

35.72 GB

数据集组织

论文 URL

arxiv.org

标签

多模态

Citation

@misc{chen2024gmaimmbenchcomprehensivemultimodalevaluation,
title={GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI},
author={Pengcheng Chen and Jin Ye and Guoan Wang and Yanjun Li and Zhongying Deng and Wei Li and Tianbin Li and Haodong Duan and Ziyan Huang and Yanzhou Su and Benyou Wang and Shaoting Zhang and Bin Fu and Jianfei Cai and Bohan Zhuang and Eric J Seibel and Junjun He and Yu Qiao},
year={2024},
eprint={2408.03361},
archivePrefix={arXiv},
primaryClass={eess.IV},
url={https://arxiv.org/abs/2408.03361},
}

GMAI-MMBench.torrent

做种 0正在下载 3已完成 429总下载量 766

GMAI-MMBench/
- README.md
  2.89 KB
- README.txt
  5.77 KB

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

GMAI-MMBench 医疗多模态评估基准数据集

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GMAI-MMBench 医疗多模态评估基准数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

Noisy Medical Document 含噪医疗文档图像数据集

ChartNet 图表理解多模态数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Medical Waste 医疗废弃物检测数据集

RSRCC 遥感区域变化理解基准数据集

ParseBench 文档解析能力评测数据集

BRIGHT 灾害建筑评估数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GMAI-MMBench 医疗多模态评估基准数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

Noisy Medical Document 含噪医疗文档图像数据集

ChartNet 图表理解多模态数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Medical Waste 医疗废弃物检测数据集

RSRCC 遥感区域变化理解基准数据集

ParseBench 文档解析能力评测数据集

BRIGHT 灾害建筑评估数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

Noisy Medical Document 含噪医疗文档图像数据集

ChartNet 图表理解多模态数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Medical Waste 医疗废弃物检测数据集

RSRCC 遥感区域变化理解基准数据集

ParseBench 文档解析能力评测数据集

BRIGHT 灾害建筑评估数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

Noisy Medical Document 含噪医疗文档图像数据集

ChartNet 图表理解多模态数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

MathNet 多模态数学基准推理数据集