HyperAIHyperAI

Command Palette

Search for a command to run...

用于检测皮肤癌的卷积神经网络

20 小时 RTX 5090 算力资源,仅 $1 (原价 $7)
跳转至 Notebook

摘要

一句话总结

针对可能干扰既往癌症标志物研究的组织来源偏差,本研究开发了三种卷积神经网络架构(1D-CNN、2D-Vanilla-CNN 和 2D-Hybrid-CNN),将来自 10,340 个 TCGA 肿瘤样本和 731 个配对正常样本的非结构化基因表达数据分类为 33 种癌症类型和正常组织,准确率达到 93.9%-95.0%。同时,通过对 1D-CNN 模型进行引导式显著性分析,识别出 2,090 个与已知特征一致的癌症标志物。

核心贡献

  • 开发了三种卷积神经网络架构(1D-CNN、2D-Vanilla-CNN 和 2D-Hybrid-CNN),用于将非结构化基因表达输入数据分类为 33 种癌症类型或正常组织类别。
  • 将引导式显著性解释技术应用于 1D-CNN 模型,识别出 2,090 个癌症标志物基因,这些基因表现出与其对应肿瘤类型一致的差异表达模式。
  • 在包含 10,340 个肿瘤样本和 731 个配对正常样本的合并 TCGA 数据集上进行系统评估,在缓解组织来源偏差的同时,实现了 across 34 个类别 93.9% 至 95.0% 的分类准确率。

引言

研究人员利用深度学习技术,应对从高维基因表达数据中实现精准癌症分类与生物标志物发现的关键需求。尽管以往的机器学习方法已实现较高的诊断准确率,但通常忽略了组织来源的混杂影响,这会掩盖真正癌症特异性标志物的识别,并限制功能解释。此外,既往研究缺乏对不同神经网络架构如何影响预测性能的系统性比较。为克服这些局限,研究人员设计了轻量级卷积神经网络,能够同时区分癌变组织与正常组织,并对特定肿瘤类型进行分类。研究还引入了一种新颖的解释框架,用于隔离组织特异性效应,从而可靠地提取具有生物学意义的生物标志物,以供未来临床验证。

数据集

  • 数据集组成与来源: 研究直接采用文章内附的独立数据集,主要来源于癌症基因组图谱(TCGA)。该集合涵盖广泛的恶性肿瘤,包括肾上腺皮质癌、膀胱尿路上皮癌、乳腺浸润性癌、胶质母细胞瘤、肺腺癌,以及多种其他实体瘤和血液系统肿瘤。

  • 各子集关键细节: 提供的摘录未明确说明具体子集规模、过滤阈值或类别分布详情。研究仅指出完整的补充数据集已直接嵌入出版物中。

  • 数据使用方式: 该数据集作为本研究深度学习与卷积神经网络分析的基础资源。研究直接利用该数据生成文章结论,未依赖外部数据存储库或第三方划分。

  • 处理与元数据构建: 提供的部分未明确列出图像裁剪策略、标准化流程或元数据构建步骤。研究确认所有数据收集、分析与解释工作均独立于所列资助机构开展,确保整个工作流程的处理过程无偏。

方法

研究采用一套包含三种不同卷积神经网络(CNN)架构的模型,旨在解决从高维基因表达数据预测癌症类型所面临的独特挑战。整体框架基于以下前提构建:基因表达数据本质上是非结构化的,因此必须对传统 CNN 设计进行调整,以在不依赖预定义基因排序的情况下提取有效模式。鉴于基因组学研究通常样本量有限,过拟合成为关键隐患,模型构建重点兼顾了简洁性与鲁棒性。

第一种模型称为 1D-CNN,将基因表达谱视为一维向量。如图下图所示,包含 7,100 个基因的输入向量经过一个包含 32 个滤波器的 1D 卷积层处理,每个滤波器的核长度与步长匹配,以捕捉全局特征模式而非局部依赖关系。该设计避免了相邻基因表达之间存在顺序相关性的假设。卷积输出经过一个 2x1 窗口的最大池化层,随后进行展平操作,并输入包含 128 个神经元的全连接(FC)层,最终通过 softmax 预测层输出 33 种癌症类型和一个正常类别。

第二种模型称为 2D-Vanilla-CNN,将基因表达向量转换为二维矩阵(具体为 100x71 的网格),以符合标准 CNN 输入格式。输入随后经过一个使用 32 个 10x10 核、步长为 2x2 的 2D 卷积层处理,接着是一个 2x2 窗口的最大池化层。输出展平后,输入与 1D-CNN 相同的全连接层和 softmax 层。该架构遵循传统的计算机视觉方法,将二维结构视为类图像表示,尽管未对基因排列施加特定的生物学顺序。

第三种模型为 2D-Hybrid-CNN,将二维输入结构与受 ResNet 并行塔结构启发的 1D 卷积操作相结合。如图下图所示,该模型在 100x71 输入矩阵上应用两个独立的 1D 卷积核,一个沿行垂直滑动,另一个沿列水平滑动。这两个并行卷积的输出经过拼接后,依次通过最大池化层、展平步骤以及相同的全连接层和 softmax 层。这种混合方法旨在高效捕捉行向与列向特征,同时相较于完整的 2D CNN 保持更简化的参数结构。

此外,研究复现了先前文献中的 2D-3Layer-CNN 模型作为对比基线。该模型由三个级联的 CNN 模块组成,每个模块包含批归一化、激活函数和最大池化,随后连接两个全连接层和一个 softmax 层。所有模型的设计均优先考虑计算效率与泛化能力,特别是通过最小化可训练参数数量来应对基因组数据可用性受限的挑战。

实验

在大规模基因表达数据集上训练了三种卷积神经网络架构,以评估其在癌症类型与亚型分类中的能力。实验设置验证了这些模型能够实现稳健收敛与高准确率,同时内在捕获了组织来源特征。通过引入正常组织对照,成功解耦了组织来源特征以隔离癌症特异性信号。可解释性分析进一步表明,网络能有效识别具有显著表达谱的生物学相关标志物基因,这些基因与已知肿瘤通路相一致,并揭示了区分组织学相似恶性肿瘤的固有挑战。总体而言,这些发现证实了深度学习方法能够提供可靠的诊断预测,同时为癌症基因组学提供透明且基于机制的见解。

研究利用基因表达数据评估了三种 CNN 模型在癌症类型预测中的性能,比较了仅使用肿瘤样本训练与额外加入正常样本训练的效果。结果表明,所有模型均快速收敛并保持低损失与轻微过拟合。加入正常样本会略微降低整体准确率,但提升了模型鲁棒性。1D-CNN 模型实现了高分类准确率,并揭示了误分类模式,尤其在亲缘关系较近的癌症类型中更为明显。仅使用肿瘤样本训练时,所有三个模型均在 10 个 epoch 内收敛至低损失,且无过拟合迹象。在训练中加入正常样本会略微降低整体准确率,但改善了模型鲁棒性并减少了对组织来源的偏差。1D-CNN 模型对大多数癌症类型展现出高精确率与召回率,但在肾癌与肺癌等亲缘关系较近的类型中存在显著误分类。

下表展示了针对 1D-CNN 模型的超参数组合网格搜索,说明不同配置如何影响训练与测试性能。结果表明,模型性能随超参数设置产生显著变化,尤其在测试得分与损失方面。部分配置实现了更低的测试损失与更稳定的性能。不同的超参数设置导致测试得分和损失等性能指标出现显著差异。密集层大小为 128 且核大小为 32 的配置显示出更低的测试损失与更高的稳定性。模型性能对密集层大小与核大小的组合较为敏感,某些设置会带来更高的测试得分与更低的损失值。

研究训练了一个 1D-CNN 模型以预测乳腺癌亚型,包括基底样型、HER2 型、管腔 A 型和管腔 B 型,同时包含正常乳腺组织。该模型对大多数亚型实现了高精确率与召回率,其中基底样型与管腔 A 型表现尤为突出,而正常类别的召回率较低。所有亚型的整体平均精确率较高,表明分类有效。模型对基底样型与管腔 A 型亚型取得了高精确率与召回率,其中基底样型的精确率最高。与其他亚型相比,正常类别的召回率显著较低,表明其分类性能较弱。所有乳腺癌亚型的整体平均精确率较高,反映出模型具备强劲性能。

下表展示了针对 1D-CNN 模型的超参数组合网格搜索,评估了不同的密集层大小、滤波器数量、核维度与步长。结果表明,密集层大小为 128、32 个滤波器、(10, 10) 核与 (2, 2) 步长的配置实现了最低的训练损失与测试损失,在测试设置中表现最优。1D-CNN 模型的最优超参数配置带来了最低的训练损失与测试损失。将密集层大小从 128 增加至 512 导致大多数参数组合的训练损失与测试损失升高。(10, 10) 核与 (2, 2) 步长的组合相较于其他核与步长组合,始终产生更低的测试损失。

下表展示了四种深度学习模型的性能指标,包括训练与测试损失、准确率以及训练时间。2D-Vanilla-CNN 模型表现出最高的训练准确率与最低的训练损失,而 1D-CNN 与 2D-Hybrid-CNN 模型的测试性能相近。2D-3Layer-CNN 模型的训练时间最长,且测试准确率明显低于其他模型。在对比模型中,2D-Vanilla-CNN 模型实现了最高的训练准确率与最低的训练损失。1D-CNN 与 2D-Hybrid-CNN 模型展现出可比的测试准确率,其中 2D-Hybrid-CNN 略高。2D-3Layer-CNN 模型具有最长的训练时间与最低的测试准确率。

实验在基因表达数据上评估了多种 CNN 架构以分类癌症类型与亚型,比较了仅使用肿瘤样本训练的模型与加入正常组织增强的模型,并系统优化了网络超参数。结果表明,所有架构均以稳定的训练快速收敛。加入正常样本会略微降低峰值准确率,但显著增强了鲁棒性并缓解了组织来源偏差。1D-CNN 在不同类别中始终展现出强大的泛化能力,尽管偶尔会混淆生物学特征相似的亚型;而更深的 2D 配置通常需要更长的训练时间,且未能改善泛化性能。最终,研究结果验证了适中的网络深度结合平衡的训练数据能够生成最可靠且高效的基因组分类器。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供