
摘要
肺癌在英国癌症死亡中占21%,而五年生存率在很大程度上取决于癌症被发现时的阶段。最近的研究表明,人工智能方法能够从常规扫描中准确且早期诊断肺癌。然而,这些证据尚未转化为临床实践,其中一个障碍是缺乏可解释的模型。本研究探讨了变分自编码器(VAEs)这一生成式人工智能模型在肺癌病灶中的应用。所提出的模型是在LIDC-IDRI公开数据集中的3D CT扫描提取的病灶上进行训练的。通过聚类分析探索了由VAEs生成的2D切片的潜在向量表示,以验证其质量,并将其用于多层感知机(MLP)分类模型进行肺癌诊断,最佳模型达到了AUC 0.98和93.1%的准确率。聚类分析显示,VAE潜在空间能够根据有意义的特征组件(包括肿瘤大小、形状、患者信息和恶性类别)将恶性与良性病灶的数据集分开。我们还进行了标准高斯变分自编码器(GVAE)与较新的狄利克雷变分自编码器(DirVAE)之间的比较分析,后者用狄利克雷分布替换了先验分布,以促进更具解释性的潜在空间并实现解耦合特征表示。最后,我们展示了潜在空间遍历对应于临床上有意义的特征变化的潜力。