Command Palette
Search for a command to run...
数据集汇总丨从医疗影像/临床数据,到细胞图谱/医学问答,10 大数据集覆盖多类疾病场景

在 AI 加速向医疗领域渗透的当下,高质量数据集正逐渐成为驱动模型性能提升与应用落地的核心基础。从医学影像识别到临床决策支持,再到生物机制解析,数据的类型、规模与标注精度,直接决定了模型能力的上限与应用边界。
从整体发展趋势来看,医疗数据集正呈现出多模态与精细化并行演进的特征。一方面,以 X 光、 CT 、 MRI 等为代表的医学影像数据仍是主流,这类数据结构规范、标注清晰,适用于计算机视觉模型的训练与评估;另一方面,涵盖临床指标、疾病风险预测、药物反应乃至单细胞测序等更复杂的数据类型正在快速增长,推动 AI 从「图像识别」走向更深层次的辅助诊疗与生命科学研究。
本文选取的 10 个医疗相关数据集,正是这一趋势的一个切面,覆盖了不同疾病场景与研究方向,既包括围绕特定疾病的影像或临床数据,也涉及更前沿的生物信息学与药物相关研究。
通过对这些数据集的系统梳理,可以更清晰地看到,标准化与结构化数据依然是模型训练与评测的基础,而跨模态、多来源数据的融合能力,正在成为影响模型性能与泛化能力的关键因素。围绕这些数据资源的深入分析,也有助于进一步理解当前医疗 AI 的发展重点与演进方向。
长期以来,HyperAI 持续汇聚并整理多领域数据集资源,不仅在医疗领域提供了覆盖医学影像、临床数据、生物信息学等多个方向优质开源数据集,同时还面向具身智能、自动驾驶、 OCR 、多模态理解、智能问答等诸多任务/领域,为全球研究者与开发者提供统一的数据发现与使用入口。
更多优质数据集:
Historical Pandemic & Epidemic 全球历史疫情数据集
* 在线使用:
Historical Pandemic and Epidemic Dataset 是一个涵盖全球历史上重大疫情事件的数据集,旨在提供一个分析准备好的资源。数据集包含自公元 165 年安东尼瘟疫到 2023 年新冠肺炎和猴痘的 50 个主要疫情事件,涵盖所有时代、地区和病原体类型。
Lung Cancer Clinical 肺癌临床数据集
* 在线使用:
Lung Cancer Clinical 是一个包含 1,500 条患者记录的临床数据集,数据时间跨度为 2015 至 2025 年,涵盖了世界卫生组织(WHO)所有 6 个区域的 60 个国家。
数据集提供了有关肺癌的详细临床、人口统计、生活方式、遗传和诊断信息。数据来源于 WHO 事实表和全球癌症研究统计(GLOBOCAN 2020),适用于探索性数据分析(EDA)、机器学习分类、生存分析、地理趋势分析和公共卫生研究。
Adverse Drug Reaction 模拟药物不良反应数据集
* 在线使用:
该数据集用于模仿药物不良反应(ADR)的药物警戒报告,旨在支持药物安全监测方面的研究、机器学习实验和算法开发。其中个案安全报告(ICSRs)是基于真实世界的药物警戒系统(如 FDA FAERS 、 EMA EudraVigilance)启发人工生成的。
该数据集特别强调严重 ADR 的稀有性和不平衡性:大多数报告属于轻微反应,而严重和致命的结果则较为罕见(严重/致命总计约占 4–5%),这反映了后市场监控中常见的报告不足和严重性分布偏差。
Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集
* 在线使用:
该数据集包含 7,930 个单细胞的转录组表达数据,涵盖三种不同生物学状态:健康免疫基线、液体肿瘤(髓样白血病)以及实体肿瘤微环境(黑色素瘤),旨在构建一个跨队列整合的单细胞分析基准,为算法性能评估与方法学对比、多队列批次效应校正(Batch Correction)、免疫耗竭状态分析、跨肿瘤类型生物标志物挖掘提供基准。
THINGS-fMRI 功能磁共振成像数据集
* 在线使用:
THINGS-fMRI 是由美国国立卫生研究院(NIH)国家心理健康研究所、德国马克斯·普朗克学会人类认知与脑科学研究所联合吉森大学医学院等机构发布的一个面向物体认知研究的高密度功能性磁共振成像(fMRI)数据集,旨在系统刻画人脑对现实世界物体的视觉与语义表征。
该数据集隶属于 THINGS-data,其包含 1,854 个物体概念和 26,107 张经过人工筛选与标注的自然场景物体图像。在 fMRI 实验中,受试者在扫描过程中观看来自 THINGS 图像库的物体图片,同时记录全脑 BOLD 信号,用于分析物体在大脑中的空间表征分布。
3 名受试者分别完成 12 个扫描会话,共观看 8,740 张独特图像,覆盖 720 类物体。图像以快速连续方式呈现,受试者保持中央注视,并通过异常图像检测任务确保注意力参与,其中部分图像在不同会话中重复呈现,以支持表征稳定性与可重复性分析。
除任务态功能数据外,数据集还提供丰富的结构与辅助扫描信息,包括高分辨率 T1/T2 结构像、血管成像(TOF 、 T2*)、场图、功能定位实验、视网膜拓扑定位数据以及静息态功能连接数据,为多层次脑功能建模提供支持。
THINGS-MEG 脑磁图数据集
* 在线使用:
THINGS-MEG 是由美国国立卫生研究院(NIH)国家心理健康研究所、德国马克斯·普朗克学会人类认知与脑科学研究所联合吉森大学医学院等机构发布的一个面向物体认知研究的脑磁图(MEG)数据集,记录了受试者观看物体图像时的毫秒级脑电磁活动,用于分析物体加工过程的时间动态。
该数据集隶属于 THINGS-data,在 MEG 实验中,参与者观看了 THINGS 图像的一个代表性子集。实验共分为 12 个独立会话(受试者 N=4),包含 22,448 张独特图像,覆盖全部 1,854 个物体类别。图像以快速连续方式呈现(平均间隔约 1.5±0.2 秒),要求参与者始终保持中央注视。
THINGS-EEG 脑电图数据集
* 在线使用:
THINGS-EEG 是由美国国立卫生研究院(NIH)国家心理健康研究所、德国马克斯·普朗克学会人类认知与脑科学研究所联合吉森大学医学院等机构发布的一个面向物体认知研究的脑电图数据集,记录了 50 名受试者在观看物体图像时的脑电活动(EEG),用于分析物体加工的时间动态与认知表征。
该数据集隶属于 THINGS-data,在实验中,参与者观看来自 THINGS 图像库的代表性刺激子集,共包含 22,248 张图像,覆盖 1,854 个物体概念。图像以快速串行视觉呈现(RSVP)方式展示,参与者需要保持中央注视。部分图像重复呈现,用于分析神经表征的稳定性。
Health & Lifestyle 健康生活方式数据集
* 在线使用:
Health & Lifestyle 是于 2025 年发布的一个有关健康生活方式数据集,旨在探索生活方式因素与个体健康状况之间的关系,为健康预测建模、聚类分析和数据挖掘提供实验基础。
该数据集共包含 100,000 条个体记录,以 CSV 表格的形式提供,涵盖了从人口统计学特征到健康状态与生活习惯的多维度信息。数据不涉及任何真实个人信息,所有数值均为人工合成,同时在统计特性上保持与真实分布的一致性。
MedQA 医学文本问答数据集
* 在线使用:
由麻省理工大学和华中科技大学的研究团队开源的 MedQA,是一个面向医学领域的问答数据集,模拟了美国医疗执照考试(USMLE))的风格。
该数据集从专业医学考试中收集,涵盖英语、简体中文和繁体中文,分别包含 12,723 、 34,251 和 14,123 个问题,旨在评估模型对医学知识的理解和应用能力。除了问题数据外,还收集并发布了一个大规模的医学教科书语料库,阅读理解模型可以从中获取回答问题的必要知识。数据集分为训练集、开发集和测试集,分别用于模型训练、验证和测试。
JMED 中文真实医疗数据数据集
* 在线使用:
https://hyper.ai/datasets/20490
JMED 数据集是一个基于真实世界医疗数据分布的新型数据集,由 Citrus Team 于 2025 年构建。
该数据集源自京东健康互联网医院的匿名医患对话,经过过滤以保留遵循标准化诊断工作流程的咨询。初始版本包含 1k 份高质量临床记录,涵盖所有年龄段(0-90 岁)和多个专业。每个问题包括 21 个回答选项,其中有一个「以上都不是」选项。这种设计大大增加了区分正确答案的复杂性和难度,从而提供了更严格的评估框架。
与现有的医学 QA 数据集相比,JMED 具有三个主要优势:首先,它更准确地反映了患者症状描述的模糊性和真实场景中临床诊断的动态性质。其次,扩展的回答选项需要增强的推理能力,以便在众多干扰因素中识别正确答案。此外,利用京东大医院的大量会诊数据,可以持续生成符合真实患者分布特征的数据。








