HyperAI超神经

VL-Health 医疗推理生成数据集

下载帮助

VL-Health 是浙江大学联合中国电子科技大学等团队,于 2025 年发布的首个面向医疗多模态理解与生成的综合数据集,相关论文成果为:「HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation」。

该数据集整合了 76.5 万理解任务样本和 78.3 万生成任务样本,覆盖 11 种医学模态(包括 CT 、 MRI 、 X 光、 OCT 等)和多类疾病场景(从肺部疾病到脑部肿瘤)。

理解任务:

VL-Health 融合了 VQA-RAD(放射学问题)、 SLAKE(语义标注知识增强)、 PathVQA(病理学问答)等专业数据集,并补充 LLaVA-Med 、 PubMedVision 等大规模多模态数据,确保模型学习从基础影像识别到复杂病理推理的全链条能力。

生成任务:

生成任务则主要聚焦以下 4 个方向:

  • 模态转换:基于 SynthRAD2023 的 CT-MRI 配对数据,训练模型的模态间转换能力;
  • 超分辨率:利用 IXI 数据集的高分辨率脑部 MRI,提升图像细节重建精度;
  • 文本-图像生成:基于 MIMIC-CXR 的 X 光图像与报告,实现从文本描述到图像的生成;
  • 图像重建:改编 LLaVA-558k 数据集,训练模型的图像编码-解码能力。

数据集分类