Command Palette
Search for a command to run...
PubMedVision 是由深圳大数据研究院联合香港中文大学(深圳)、国家医疗健康大数据研究院(深圳)于 2024 年发布的一个用于医学多模态能力评估的数据集,相关论文成果为「HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale」,旨在为多模态大语言模型(MLLMs)在医疗视觉 – 文本理解任务方面提供标准化测试资源,以检验它们在医学领域的视觉知识融合与推理性能。
该数据集共包含约 130 万条医学视觉问答(VQA)样本,其中 647,031 条为对齐型 VQA,另有 647,031 条为指令微调 VQA 。 数据基于 914,960 张经过严格筛选的医学图像及其上下文文本(如标题与文中引用)构建,涵盖多种医学成像模态与解剖区域。每条样本由医学论文中的图像及说明性文字组成,并借助多模态大语言模型(如 GPT-4V)生成对应的图像描述、问题与答案。
