湖北省馬城人民病院は、301 の病院で冠状動脈性心疾患の高齢患者 451 人からデータを収集し、患者の 1 年以内の死亡率を正確に予測する機械学習モデルを立ち上げました。

特色图像

2017年の糖尿病有病率調査によると、我が国には7,813万人もの糖尿病高齢者がいます。多くの大規模な集団研究では、異常なグルコース代謝と心血管疾患の間に高度の「併存症」関係があることが判明しています。つまり、糖尿病患者は冠状動脈性心疾患などの合併症を伴うことが多く、後者は冠状動脈性心疾患などの合併症を伴うことが多いのです。糖尿病患者の主な死因となっており、約 75% の糖尿病患者が冠状動脈性心疾患により死亡しています。しかし、現在、糖尿病または耐糖能障害を伴う冠状動脈性心疾患患者の生存危険因子に関する関連研究はわずかしかありません。

|備考:耐糖能異常 (IGT) は、正常血糖から糖尿病に移行する異常な糖代謝状態であり、糖尿病前症であり、さらに糖尿病 (DM) に発展する可能性があります。

この現状を打破するために、中国湖北省馬城人民病院の研究者らは、ロジスティック回帰モデル(LR)と3つの機械学習モデルを開発し、糖尿病や耐糖能異常を伴う冠状動脈性心疾患を患う中国の高齢者患者の予測に成功した。 1 年以内の死亡率は、医療界が短期死亡のリスクがある患者を迅速に特定するのに役立ち、早期の警告と治療が可能になります。

この研究は、「耐糖能障害または糖尿病を合併した冠動脈疾患を持つ中国の高齢患者の1年死亡率を予測するための機械学習ベースのモデル」と題して、Cardiovascular Diabetology誌に掲載された。

図1:研究結果は「Cardiovascular Diabetology」に掲載されました

用紙のアドレス:

https://cardiab.biomedcentral.com/articles/10.1186/s12933-023-01854-z

実験プロセス 

データセット: 301 の病院で冠状動脈性心疾患の高齢患者 451 人から収集したデータ 

この研究は、2007年10月から2011年7月までに中国人民解放軍総合病院の老人心臓病科に入院した冠状動脈性心疾患の高齢患者974人を分析した。で、研究者らはさらに2つの条件に基づいてスクリーニングを行った。彼らです:

1. 60歳以上の高齢者。

2. 耐糖能異常(IGT)または糖尿病(DM)を患っている。

最終的に生成されたデータ セットには 451 人の患者が含まれており、7:3 の比率でトレーニング セット (n = 308) とテスト セット (n = 143) にランダムに分割されました。トレーニング セットはロジスティック回帰モデルと 3 つの機械学習モデルのトレーニングと最適化に使用され、テスト セットはモデルの予測パフォーマンスをテストするために使用されます。データセットのフィルタリングプロセスは次のとおりです。

図 2: 患者登録と研究デザインの概要を示すフローチャート。

モデル開発:主要4モデルを選択して水平比較 

この研究では、研究者はロジスティック回帰モデルと 3 つの機械学習モデルを開発しました。勾配ブースティング マシン モデル (GBM)、ランダム フォレスト モデル (RF)、およびデシジョン ツリー モデル (DT) の予測モデルをそれぞれ確立します。そして、予測効果は、ブリエスコア、AUC(Area Under the Curve)、検量線、決定曲線などのいくつかの指標に基づいて評価されます。

ブライアースコア:アルゴリズムによって予測された確率と実際の結果との差を測定する方法。値の範囲は 0 ~ 1 です。スコアが高いほど、予測結果は悪くなり、キャリブレーションの程度は低くなります。

図3:ブリル率の計算式

AUC:曲線の下の領域を指します。統計と機械学習では、AUC はバイナリ分類モデルのパフォーマンスを評価するためによく使用されます。値の範囲は 0 ~ 1 です。値が 1 に近づくほどモデルのパフォーマンスが向上し、値が 0.5 に近づくほどモデルの予測能力が低くなります。

 3 つの機械学習モデルで機能スクリーニングとパラメーター調整を実行します。 

同時に、研究者らは開発した機械学習モデルの特徴スクリーニングとパラメータ調整を実施しました。まず、LASSO (最小絶対収縮および選択演算子) アルゴリズムと 10 分割交差検証を組み合わせて、モデル入力として 1 年死亡率に大きく関連する 7 つの特徴を選別しました。これらの 7 つの特徴は、ヘモグロビン、HDL-C でした。 、白血球、血清クレアチニン、NT-proBNP、CHF、スタチン。次に、5 分割相互検証とブートストラップを使用して最適なパラメーターの組み合わせを見つけ、ランダムなハイパーパラメーター検索を通じて最適な曲線下面積 (AUC) を取得しました。

図 4: ハイパーパラメータ調整プロセス

答え:すべての変数の最小絶対収縮および選択演算子 (LASSO) 係数曲線

B:最適なパラメータの組み合わせ

子:臨床的特徴間の相関係数

図 4 から、すべての相関係数は 0.80 未満であり、重大な共線性がないことが示されています。上記の 7 つの臨床特徴を使用して、ロジスティック回帰モデルと 3 つの機械学習予測モデルをトレーニングしました。モデルのトレーニングと最適化後の各モデルの最適なハイパーパラメーターを次の表に示します。

表 1: 各モデルの最適なハイパーパラメータ

実験結果 

各モデルの全体的なパフォーマンスから判断すると、次のようになります。

* ロジスティック回帰モデルの Brier スコア (LR) は 0.116 です。

* 勾配ブースティング マシン モデル (GBM) の Brier スコアは 0.114 です

* デシジョン ツリー モデル (DT) の Brier スコアは 0.143 です。

* ランダム フォレスト モデル (RF) の Brier スコアは 0.126 です。

各モデルの解析結果を次の図に示します。

図5:各モデルのAUC、検量線、決定曲線、SHAP値

D:各モデルの総合性能

E:各モデルの検量線

ファ:各モデルの決定曲線

G:SHAP値ヒートマップ

ひ:SHAPに基づく特徴重要度分析

図 5 によれば、次の結論が導き出されます。

1. LR、GBM、DT、RF モデルの AUC は、それぞれ 0.827、0.836、0.760、0.829 です。

2. 校正曲線は、すべてのモデルが良好な校正効果を持っていることを示しています。その中でもGBMモデルが最も効果的です。

3. 決定曲線分析により、GBM モデルと LR モデルの両方が良好な臨床的実用性を備えていることが示されました。

4. GBM モデルに基づいて、研究者らは集団全体における重要な臨床的特徴の重要性をさらに分析しました。個人のSHAP値と平均SHAP値の両方を分析したところ、1年死亡率に関連する上位3つの特性はNT-proBNP、アルブミン、スタチンであることが判明しました。

| 形状: Shaley Additive の説明、機能の貢献。 SHAP 値を分析することで、研究者は予測結果の説明を取得し、各特徴がモデルの予測にどのような影響を与えるかを理解し、モデルの動作をよりよく理解して説明することができます。

要約すると、研究者らは、以前の研究のモデルは高い予測性能を持っているものの、変数が多すぎるため臨床応用には適していない、と提案しました。この研究では、研究者たちは 7 つの特徴を使用して 1 年後の死亡率を予測するモデルを開発することに成功しました。結果は、GBM モデルの AUC が 0.836 と高く、ブライアー スコアが 0.116 で、全体的な予測パフォーマンスが最高であることを示しています。

臨床応用をさらに容易にするために、研究者らは、医師が1年以内の死亡確率を予測するために患者パラメータを入力するだけで済むオンラインアプリケーションも設計したことは注目に値する。 -患者の生存確率を高めるための有利な措置。

AI医療分野には明るい未来がありますが、楽観視してはいけません 

AI 音声インタラクション、コンピュータ ビジョン、コグニティブ コンピューティング、ディープ ラーニング、その他のテクノロジが徐々に成熟するにつれて、AI 医療分野のアプリケーション シナリオはますます豊富になってきています。これには、医療画像、仮想アシスタント、医薬品の研究開発、健康管理、医療記録/文書分析、疾病予測管理などの多方向が含まれます。

中国情報通信技術院の「2020年人工知能医療産業発展青書」によると、国内のAI医療分野は遅れてスタートしたものの、市場の需要は高く、今後の発展の見通しは広い。中でも注目すべきは、2019年末時点で65歳以上の人口に占める割合が12.6%に達しており、中国が本格的に高齢化社会に突入したことを意味する。その結果、慢性疾患の発生率も年々増加しています。

これに関連して、この研究に代表される疾患予測関連の結果が明らかになり、医師や患者の健康管理を効果的に支援できるようになりました。しかしその一方で、市場全体の状況から見ると、AI関連技術はまだ病院に大規模に適用されておらず、病院の支払い意欲も強くないことにも関係していることにも注意が必要である。ユーザーの使用方法や支払い習慣、医療保険契約など。インフラストラクチャをサポートしていることと、臨床アプリケーションのシナリオが非常に複雑であることが重要な理由です。したがって、AI医療分野への道のりはまだ長いです。

参考リンク:

[1] https://doi.org/10.5334/gh.934

[2] https://doi.org/10.1111/1753-0407.13175

[3] https://doi.org/10.1007/s001250051352

[4] https://doi.org/10.1186/1475-2840-5-15

[5]https://rs.yiigle.com/CN112148202107/1328929.htm

[6]http://www.caict.ac.cn/kxyj/qwfb/ztbg/202009/P020200910495521359097.pdf