VL-Health 是浙江大学联合中国电子科技大学等团队,于 2025 年发布的首个面向医疗多模态理解与生成的综合数据集,相关论文成果为:「HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation」。
该数据集整合了 76.5 万理解任务样本和 78.3 万生成任务样本,覆盖 11 种医学模态(包括 CT 、 MRI 、 X 光、 OCT 等)和多类疾病场景(从肺部疾病到脑部肿瘤)。
理解任务:
VL-Health 融合了 VQA-RAD(放射学问题)、 SLAKE(语义标注知识增强)、 PathVQA(病理学问答)等专业数据集,并补充 LLaVA-Med 、 PubMedVision 等大规模多模态数据,确保模型学习从基础影像识别到复杂病理推理的全链条能力。
生成任务:
生成任务则主要聚焦以下 4 个方向:
- 模态转换:基于 SynthRAD2023 的 CT-MRI 配对数据,训练模型的模态间转换能力;
- 超分辨率:利用 IXI 数据集的高分辨率脑部 MRI,提升图像细节重建精度;
- 文本-图像生成:基于 MIMIC-CXR 的 X 光图像与报告,实现从文本描述到图像的生成;
- 图像重建:改编 LLaVA-558k 数据集,训练模型的图像编码-解码能力。

数据集分类