Command Palette
Search for a command to run...
PubMedVision 医疗多模态评估数据集
PubMedVision 是由深圳大数据研究院联合香港中文大学(深圳)、国家医疗健康大数据研究院(深圳)于 2024 年发布的一个用于医学多模态能力评估的数据集,相关论文成果为「HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale」,旨在为多模态大语言模型(MLLMs)在医疗视觉 – 文本理解任务方面提供标准化测试资源,以检验它们在医学领域的视觉知识融合与推理性能。 该数据集共包含约 130 万条医学视觉问答(VQA)样本,其中 647,031 条为对齐型 VQA,另有 647,031 条为指令微调 VQA 。 数据基于 914,960 张经过严格筛选的医学图像及其上下文文本(如标题与文中引用)构建,涵盖多种医学成像模态与解剖区域。每条样本由医学论文中的图像及说明性文字组成,并借助多模态大语言模型(如 GPT-4V)生成对应的图像描述、问题与答案。

Citation
@misc{chen2024huatuogptvisioninjectingmedicalvisual,
title={HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale},
author={Junying Chen and Ruyi Ouyang and Anningzhe Gao and Shunian Chen and Guiming Hardy Chen and Xidong Wang and Ruifei Zhang and Zhenyang Cai and Ke Ji and Guangjun Yu and Xiang Wan and Benyou Wang},
year={2024},
eprint={2406.19280},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2406.19280},
}