HyperAIHyperAI

Command Palette

Search for a command to run...

OpenTME:来自 TCGA 的 AI 驱动 H&E 肿瘤微环境谱系的开源数据集

摘要

肿瘤微环境(TME)在癌症进展、治疗反应及患者预后中发挥着核心作用,然而,基于常规苏木精-伊红(H&E)染色组织病理学影像进行大规模、一致且定量的 TME 表征仍然匮乏。我们推出了 OpenTME,这是一个开源数据集,包含从癌症基因组图谱(TCGA)中5种癌症类型(膀胱癌、乳腺癌、结直肠癌、肝癌和肺癌)的3,634张 H&E 染色全切片图像(WSI)中预计算的 TME 特征谱。所有输出结果均通过 Atlas H&E-TME 生成,这是一款基于 Atlas 系列病理基础模型构建的 AI 驱动应用程序,能够执行组织质控、组织分割、细胞检测与分类以及空间邻域分析,从而在细胞级别分辨率下为每张切片生成超过4,500项定量读数。OpenTME 可在 Hugging Face 平台上获取,供非商业学术研究使用。我们将持续扩展 OpenTME,并预期其将成为生物标志物发现、空间生物学研究以及开发用于 TME 分析的计算方法的重要资源。

一句话总结

为解决来自常规H&E染色组织病理学的大规模、一致且定量的肿瘤微环境特征描述稀缺的问题,本文介绍OpenTME,一个由3634张H&E染色全切片图像预计算TME特征构成的开放获取数据集,涵盖来自癌症基因组图谱(TCGA)的五种癌症类型(膀胱癌、乳腺癌、结直肠癌、肝癌和肺癌)。该数据集使用Atlas H&E-TME生成,这是一个基于Atlas病理基础模型家族构建的AI驱动应用程序,可执行组织质量控制、组织分割、细胞检测与分类以及空间邻域分析,在细胞级分辨率下为每张切片产出超过4500个定量指标,并在Hugging Face上以非商业学术研究用途提供,旨在支持生物标志物发现、空间生物学研究以及用于TME分析的计算方法开发。

核心贡献

  • OpenTME是一个由预计算的肿瘤微环境特征构成的开放获取数据集,这些特征来自3634张H&E染色全切片图像,涵盖五种癌症类型(膀胱癌、乳腺癌、结直肠癌、肝癌和肺癌),取自癌症基因组图谱(TCGA),在细胞级分辨率下为每张切片提供超过4500个定量指标。
  • 这些特征使用Atlas H&E-TME生成,这是一个基于Atlas病理基础模型家族构建的AI驱动应用程序,可执行组织质量控制、组织分割、细胞检测与分类以及空间邻域分析。
  • 该数据集在Hugging Face上以非商业学术研究用途提供,预计将作为生物标志物发现、空间生物学研究以及TME分析计算方法开发的资源。

引言

常规H&E染色组织学切片所捕获的肿瘤微环境(TME)包含关键的预后与预测信息,然而,从这些图像中系统化地提取TME特征一直受到人工标注瓶颈和有限可重复性的阻碍。尽管癌症基因组图谱(TCGA)提供了丰富的数字化H&E切片,但公开可用的大规模AI衍生TME特征一直缺失,这迫使研究人员要么重新运行成本高昂的推理管线,要么依赖小规模标注。作者引入OpenTME来填补这一空白,它是一个从TCGA H&E全切片图像计算得出的AI驱动TME特征的开放数据集,为研究社区提供了即用型标准化特征,可加速计算病理学研究并实现稳健的基准测试。

数据集

作者介绍OpenTME,一个从常规H&E染色全切片图像衍生的即用型定量肿瘤微环境特征数据集。它汇集了AI驱动的Atlas H&E-TME管线的预计算结果,该管线对每张切片施加组织质量控制、组织分割、细胞检测与分类以及空间邻域分析。

  • 数据来源: 经NCI基因组数据共享平台获取的、来自癌症基因组图谱(TCGA)的诊断用福尔马林固定石蜡包埋(FFPE)切片。
  • 癌症类型与项目: 涵盖八个TCGA项目中的五种适应症:膀胱癌、乳腺癌、结直肠癌、肝癌和肺癌。
  • 最终数据集大小: 3634张切片,从最初的3686张切片中排除了52张。排除原因:49张因缺少分辨率元数据或文件损坏、2张非H&E染色(1张IHC,1张Masson三色染色)、1张切片因组织完全失焦而未通过质量控制。
  • 每张切片包含的内容:
    • 超过4500个CSV格式的定量指标,按癌症类型归入切片级表格。这些特征涵盖:
      • 组织QC指标(每个QC区域的面积和相对覆盖度)
      • 组织分割指标(七种组织类型的面积、计数、圆度、偏心率等)
      • 细胞指标(九种细胞类型的计数、百分比、密度、细胞核形态,既有切片级别的,也有按组织区室分层统计的)
      • 邻域指标(空间共现统计、比值、20 µm和40 µm半径内的密度)
    • 叠加组织QC、组织分割和细胞分类预测可视化结果的缩略图。
  • 数据集使用方式: 本文提供OpenTME作为下游研究资源,无需用户运行AI推理。TME Studio(一套交互式marimo笔记本)随数据集附带教程、免疫浸润示例分类、Kaplan–Meier生存分析及可视化内容。作者旨在将其用于生物标志物发现、空间生物学研究以及新的计算病理学方法开发。由于该数据集包含的是聚合后的切片级特征而非原始图像,故不涉及训练集划分或混合比例。
  • 额外处理说明: 所有特征均由Atlas H&E-TME应用程序生成,该程序运行组织质量控制、七种组织类型分割、九种细胞类型检测与分类以及空间邻域分析。不使用图像块级裁剪;特征在切片层面聚合。需要空间解析输出(细胞坐标、多边形几何数据)的研究人员可通过Atlas H&E-TME研究获取计划申请。
  • 访问与限制: 该数据集在Hugging Face上以门控访问模式提供,用于非商业学术研究。禁止训练模型以复现Atlas H&E-TME能力,用户须遵守TCGA数据使用政策。

方法

作者利用Atlas H&E-TME应用程序内的多阶段计算管线处理全切片图像(WSI),提取详细的肿瘤微环境特征。该管线由三个顺序运行的深度学习模型组成:组织质量控制、组织分割与细胞分类。

如下图所示:

流程始于组织QC模型,该模型评估输入的WSI以识别有效组织区域、过滤伪影并排除失焦区域或标记。此步骤确保下游分析仅在高质量组织数据上进行。在质控步骤之后,组织分割模型将有效组织划分为不同的组织学区室。该模型将区域分类为癌、间质、血液、上皮组织和坏死等类别。

最后,细胞分类模型在已分割的组织上运行,识别并分类肿瘤微环境内的单个细胞。该模型能区分多种细胞类型,包括癌细胞、内皮细胞、上皮细胞、成纤维细胞、粒细胞、淋巴细胞、巨噬细胞和浆细胞。通过将这三个模型串联,该应用程序生成了全面的切片级组织与细胞指标以及邻域指标,从而实现了对组织架构的细粒度分析。

实验

评估设置包括将Atlas H&E-TME应用程序——一个用于H&E切片中单细胞肿瘤微环境特征描述的四阶段AI管线——与来自多源数据集和多种扫描仪类型(涵盖五种癌症适应症)的、经委员会认证的病理学家标注进行对比验证。验证结果证实,该系统能够可靠地执行组织质量控制、七种组织类别分割、细胞检测与九种类型分类,并生成细胞密度和邻域共现统计等空间指标。总体结果显示,该系统对每种支持癌症的侵袭性形态学亚型覆盖率至少达到90%,凸显了模型在临床研究中用于全面空间特征描述的泛化性和实际效用。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供