收集 301 医院 451 名老年冠心病患者数据,湖北麻城人民医院推出机器学习模型,准确预测患者一年内死亡率

特色图像

据 2017 年糖尿病患病调查,我国老年人糖尿病患者高达 7813 万人。结合多项大型人群研究发现,糖代谢异常与心血管病存在高度「共病」关系,即糖尿病患者往往会伴有冠心病等并发症,而后者已然成为糖尿病患者死亡的一大主因——约有 75% 的糖尿病患者死于冠心病。然而,目前关于冠心病合并糖尿病或糖耐量受损患者生存危险因素的相关研究寥寥可数。

|备注:糖耐量受损 (IGT) 是一种由正常血糖向糖尿病过渡的异常糖代谢状态,属于糖尿病前期,可能进一步发展为糖尿病 (diabetes mellitus, DM) 。

为了突破这一现状,中国湖北省麻城市人民医院的研究人员,开创性地对比了逻辑回归模型 (LR) 和 3 种机器学习模型,成功预测出中国老年冠心病合并糖尿病或糖耐量受损患者一年内死亡率,帮助医学界及时识别有短期死亡风险的患者,从而及早预警和治疗。

目前该研究已发布在《Cardiovascular Diabetology》期刊上,标题为「Machine learning-based models to predict one-year mortality among Chinese older patients with coronary artery disease combined with impaired glucose tolerance or diabetes mellitus」。

图 1:该研究成果已发表在《Cardiovascular Diabetology》

论文地址:

https://cardiab.biomedcentral.com/articles/10.1186/s12933-023-01854-z

实验过程 

数据集:收集 301 医院 451 名老年冠心病患者数据 

本研究分析了 2007 年 10 月至 2011 年 7 月期间,中国人民解放军总医院老年心脏病科收治的 974 名老年冠心病患者。其中,研究人员按照两个条件进一步筛选,分别为:

1. 年龄超过 60 岁;

2. 患有糖耐量受损 (IGT) 或糖尿病 (DM) 。

最终生成的数据集中包含 451 名患者,并按 7 : 3 的比例随机分为训练集 (n = 308) 及测试集 (n = 143) 。训练集用于训练和优化逻辑回归模型和 3 种机器学习模型,测试集则用于测试模型预测性能。数据集筛选流程如下:

图 2:概述入选患者和研究设计流程图

模型开发:选定 4 大模型进行横向对比 

本项研究中,研究人员开发了逻辑回归模型和 3 种机器学习模型,分别为梯度提升机模型 (GBM) 、随机森林模型 (RF) 和决策树模型 (DT) 来建立预测模型,并根据布里尔分数 (Brier Score) 、 AUC (Area Under the Curve) 、校准曲线 (calibration curve) 和决策曲线 (decision curve) 几个指标,来评估预测效果。

Brier Score:衡量算法预测出的概率和真实结果的差异的一种方式。其取值范围为 0 到 1,分数越高则预测结果越差,校准程度越低。

图 3: 布里尔分数计算公式

AUC:指曲线下面积。在统计学和机器学习中,AUC 常用于评估二分类模型的性能。其取值范围在 0 到 1,数值越接近 1,则表示模型性能越好;数值越接近 0.5,则表示模型预测能力较弱。

 对 3 个机器学习模型进行特征筛选及参数调优 

同时,研究人员对开发的机器学习模型进行了特征筛选和参数调优。首先,他们采用 LASSO (least absolute shrinkage and selection operator) 算法结合 10 倍交叉验证筛选出与一年死亡率显著相关的 7 个特征,作为模型输入,这 7 个特征分别为血红蛋白、 HDL- C 、白蛋白、血肌酐、 NT-proBNP 、 CHF 和他汀类药物。然后,他们通过随机超参数搜索,使用 5 倍交叉验证和自举法 (bootstrap) 来寻找最佳参数组合,获取最佳曲线下面积 (AUC) 。

图 4:超参数调优过程

A:所有变量的最小绝对收缩与选择算子 (LASSO) 系数曲线

B:最佳参数组合

C:临床特征之间的相关系数

由图 4,所有相关系数均低于 0.80,表明不存在严重的共线性。用上述 7 个临床特征训练逻辑回归模型和 3 个机器学习预测模型。经过模型训练和优化,每个模型的最优超参数如下表所示:

表 1:各模型的最优超参数

实验结果 

从各个模型的整体性能来看:

* 逻辑回归模型 (LR) 的 Brier 分数为 0.116

*  梯度提升机模型 (GBM) 的 Brier 分数为 0.114

*  决策树模型 (DT) 的 Brier 分数为 0.143

*  随机森林模型 (RF) 的 Brier 分数为 0.126

下图为各个模型的分析结果:

图 5: 各模型的 AUC 、校准曲线、决策曲线、 SHAP 值

D:各个模型整体性能

E:各个模型校准曲线

F:各个模型决策曲线

G:SHAP 值热力图

H:基于 SHAP 的特征重要性分析

根据图 5,可得出以下结论:

1. LR 、 GBM 、 DT 和 RF 模型的 AUC 分别为 0.827 、 0.836 、 0.760 和 0.829 。

2. 校准曲线表明,所有模型都具有良好的校准效果。其中,GBM 模型效果最佳。

3. 决策曲线分析表明,GBM 模型和 LR 模型均有良好的临床实用性。

4.   基于 GBM 模型,研究人员进一步分析了整个人群中显著临床特征的重要性。通过分析个体 SHAP 值和平均 SHAP 值均发现与一年死亡率相关的前 3 个特征分别是 NT-proBNP 、白蛋白和他汀类药物。

| SHAPE: Shaley Additive exPlanation, 特征贡献度。研究人员通过分析 SHAP 值,可以获得对于预测结果的解释,了解各个特征如何影响模型的预测,进而更好地理解和解释模型的行为。

综上,研究人员提出,过往研究中的模型虽然预测性能很高,但由于变量太多,不太适合在临床上应用。而本研究中,研究人员成功使用 7 个特征开发出预测一年死亡率的模型,结果显示,GBM 模型 AUC 高达 0.836,Brier 分数为 0.116,预测性能整体最佳。

值得注意的是,为了进一步方便临床应用,研究人员还设计了一个在线应用程序,只需要医生填写患者参数,就能预测一年内的死亡概率,这样一来,医生可以通过对高风险患者及早采取有利措施,提高患者生存概率。

AI 医疗领域前景光明,但不应盲目乐观 

随着 AI 语音交互、计算机视觉和认知计算、深度学习等技术的逐渐成熟,AI 医疗领域的应用场景日益丰富,涉及医学影像、虚拟助手、药物研发、健康管理、病历/文献分析以及疾病预测管理等多个方向。

据中国信通院《2020 人工智能医疗产业发展蓝皮书》,国内 AI 医疗领域虽然起步较晚,但市场需求旺盛,未来发展前景广阔。其中,值得关注的有,截至 2019 年末,全国 65 岁及以上老年人口占比已达 12.6%,意味着中国已正式步入老龄化社会。由此,慢性病发病率也在逐年增加。

在此背景下,以本研究为代表的疾病预测相关成果应运而生,能够有效帮助医生及病人更好地进行健康管理。然而,另一方面,也需看到就市场整体情况来看,AI 相关技术在医院仍未得到规模化应用,医院的付费意愿并不强烈,而这与用户的使用与付费习惯、医保政策等配套基础设施以及临床应用场景的高复杂度等原因有重要联系。所以,对于 AI 医疗领域来说,也仍然还有很长的路要走。

参考链接:

[1] https://doi.org/10.5334/gh.934

[2] https://doi.org/10.1111/1753-0407.13175

[3] https://doi.org/10.1007/s001250051352

[4] https://doi.org/10.1186/1475-2840-5-15

[5]https://rs.yiigle.com/CN112148202107/1328929.htm

[6]http://www.caict.ac.cn/kxyj/qwfb/ztbg/202009/P020200910495521359097.pdf