人工智能在肺部健康中的应用:基于多个CT扫描数据集的检测与诊断模型基准测试

肺癌仍是全球范围内导致癌症死亡的首要原因,而通过低剂量计算机断层扫描(LDCT)实现早期筛查已显示出显著降低死亡率的潜力。随着人工智能(AI)在医学影像领域的日益融合,开发和评估稳健的AI模型亟需大规模、高质量标注的数据集支持。本研究介绍了杜克大学肺癌筛查(Duke Lung Cancer Screening, DLCS)数据集的实用价值,该数据集是目前规模最大、公开可获取的LDCT数据集,包含超过2,000例扫描图像和3,000个经专家验证的肺结节。我们基于DLCS数据集,在内部及外部多个基准数据集(包括LUNA16、LUNA25和NLST-3D+)上对深度学习模型在三维肺结节检测与肺癌分类任务中的性能进行了系统性评估。在结节检测方面,我们构建了两个基于MONAI框架的RetinaNet模型(DLCSDmD和LUNA16-mD),并采用竞赛性能指标(Competition Performance Metric, CPM)进行评估。在分类任务中,我们对比了五种模型,包括当前最先进的预训练模型(Genesis、Med3D)、一种自监督基础模型(FMCB)、一个随机初始化的ResNet50,以及我们提出的新型“战略预热++”(Strategic Warm-Start++,SWS++)模型。SWS++模型利用检测流程中筛选出的候选区域切片,对分类主干网络进行预训练,从而实现任务相关的特征学习,有效提升模型泛化能力。实验结果表明,所提出的模型展现出优异的泛化性能,其中SWS++在多个数据集上的表现与现有基础模型相当或更优(AUC值范围为0.71至0.90)。所有代码、模型及数据均已公开发布,旨在促进研究的可复现性与跨机构协作。本研究建立了一个标准化的肺癌AI研究基准资源,为未来模型开发、验证及临床转化提供有力支持。