2 个月前
虚拟影像试验提高了人工智能系统在COVID-19影像诊断中的透明度和可靠性
Tushar, Fakrul Islam ; Dahal, Lavsen ; Sotoudeh-Paima, Saman ; Abadi, Ehsan ; Segars, W. Paul ; Samei, Ehsan ; Lo, Joseph Y.

摘要
人工智能(AI)模型在医学影像中的可信度,尤其是在COVID-19疫情期间,因可重复性问题和模糊的临床见解而受到挑战。为了解决这些问题,我们提出了一种虚拟影像试验(Virtual Imaging Trials, VIT)框架,利用临床数据集和模拟数据集来评估AI系统。本研究重点探讨了使用卷积神经网络(Convolutional Neural Networks, CNNs)通过计算机断层扫描(Computed Tomography, CT)和胸部X光片(Chest Radiography, CXR)进行COVID-19诊断的方法。我们开发并测试了多种AI模型,包括3D ResNet类和2D EfficientNetv2架构,在不同的数据集中进行了验证。我们的评估指标包括曲线下面积(Area Under the Curve, AUC)。为了评估性能差异,我们采用了统计分析方法,如DeLong方法计算AUC置信区间。研究结果表明,VIT提供了一个稳健的平台,用于客观评估AI系统的性能,揭示了数据集特征、患者因素和成像物理对AI效能的重要影响。值得注意的是,训练于最多样化数据集的模型在外部分组测试中表现出最高的性能,CT的AUC值范围为0.73至0.76,CXR的AUC值范围为0.70至0.73。内部分组测试则获得了更高的AUC值(CT为0.77至0.85,CXR为0.77至1.0),这突显了在外部验证过程中性能显著下降的问题,强调了多样化和全面的训练及测试数据的重要性。这种方法增强了模型的透明度和可靠性,提供了关于驱动AI性能的因素的细致见解,并弥合了实验环境与临床应用之间的差距。本研究强调了VIT在提高医学影像中AI系统的可重复性和临床相关性方面的潜力。