En Collectant Des Données Auprès De 451 Patients Âgés Atteints De Maladie Coronarienne À L'hôpital 301, L'hôpital Populaire De Hubei Macheng a Lancé Un Modèle D'apprentissage Automatique Pour Prédire Avec Précision Le Taux De Mortalité Des Patients Dans Un Délai D'un An.

Selon l’enquête sur le diabète de 2017, le nombre de personnes âgées atteintes de diabète dans mon pays a atteint 78,13 millions. En combinant un certain nombre d'études de population à grande échelle, il a été constaté que le métabolisme anormal du glucose et les maladies cardiovasculaires ont un degré élevé de relation de « comorbidité », c'est-à-dire que les patients diabétiques présentent souvent des complications telles que les maladies coronariennes, et ces dernières sont devenues une cause majeure de décès chez les patients diabétiques - environ 75% des patients diabétiques sont décédés d'une maladie coronarienne. Cependant,Actuellement, il n’existe que peu d’études sur les facteurs de risque de survie chez les patients atteints de maladie coronarienne et de diabète ou d’intolérance au glucose.
|Remarques :L’intolérance au glucose (IGT) est un état anormal du métabolisme du glucose qui passe d’une glycémie normale au diabète. Il s’agit d’un état de prédiabète qui peut évoluer vers un diabète sucré (DS).
Afin de briser cette situation, des chercheurs de l'hôpital populaire de la ville de Macheng, province du Hubei, en Chine, ont été les premiers à comparer le modèle de régression logistique (LR) et trois modèles d'apprentissage automatique, prédisant avec succès le taux de mortalité à un an des patients chinois âgés atteints d'une maladie coronarienne associée à un diabète ou à une intolérance au glucose, aidant la communauté médicale à identifier rapidement les patients à risque de décès à court terme, fournissant ainsi une alerte et un traitement précoces.
L'étude a été publiée dans la revue Cardiovascular Diabetology, intitulée « Modèles basés sur l'apprentissage automatique pour prédire la mortalité à un an chez les patients chinois âgés atteints d'une maladie coronarienne associée à une intolérance au glucose ou à un diabète sucré ».

Figure 1 : Ce résultat de recherche a été publié dans Cardiovascular Diabetology
Adresse du document :
https://cardiab.biomedcentral.com/articles/10.1186/s12933-023-01854-z
Procédures expérimentales
Ensemble de données : Données de 451 patients âgés atteints de maladie coronarienne provenant de 301 hôpitaux
Cette étude a analysé 974 patients âgés atteints de cardiopathie congénitale admis au département de cardiologie gériatrique de l'hôpital général PLA entre octobre 2007 et juillet 2011.Les chercheurs ont ensuite procédé à un examen approfondi selon deux critères :Ils sont:
1. Âgé de plus de 60 ans;
2. Souffrant d’intolérance au glucose (IGT) ou de diabète sucré (DS).
L'ensemble de données final contenait 451 patients, qui ont été répartis aléatoirement en un ensemble d'entraînement (n = 308) et un ensemble de test (n = 143) dans un rapport de 7:3.L'ensemble d'entraînement est utilisé pour former et optimiser le modèle de régression logistique et trois modèles d'apprentissage automatique, et l'ensemble de test est utilisé pour tester les performances de prédiction du modèle. Le processus de sélection des ensembles de données est le suivant :

Figure 2 : Organigramme décrivant la sélection des patients et la conception de l'étude
Développement de modèles : sélectionner 4 modèles majeurs pour une comparaison horizontale
Dans cette étude, les chercheurs ont développé un modèle de régression logistique et trois modèles d’apprentissage automatique.Les modèles de prédiction sont établis pour le modèle de machine à gradient boosting (GBM), le modèle de forêt aléatoire (RF) et le modèle d'arbre de décision (DT).L'effet de prédiction est évalué sur la base de plusieurs indicateurs tels que le score de Brier, l'AUC (aire sous la courbe), la courbe d'étalonnage et la courbe de décision.
Score du Brier :Une façon de mesurer la différence entre la probabilité prédite par l’algorithme et le résultat réel. Sa plage de valeurs est comprise entre 0 et 1, les scores les plus élevés indiquant des prédictions plus mauvaises et un étalonnage plus faible.

Figure 3 : Formule de calcul du score de Brill
ASC :Désigne la zone sous la courbe. En statistiques et en apprentissage automatique, l’AUC est souvent utilisée pour évaluer les performances des modèles de classification binaire. Sa plage de valeurs s'étend de 0 à 1. Plus la valeur est proche de 1, meilleures sont les performances du modèle ; plus la valeur est proche de 0,5, plus la capacité de prédiction du modèle est faible.
Sélection des fonctionnalités et réglage des paramètres pour 3 modèles d'apprentissage automatique
Dans le même temps, les chercheurs ont effectué un filtrage des caractéristiques et un réglage des paramètres sur le modèle d’apprentissage automatique développé.Tout d’abord, ils ont utilisé l’algorithme LASSO (opérateur de sélection et de rétrécissement absolu le plus faible) combiné à une validation croisée en 10 étapes pour éliminer sept caractéristiques qui étaient significativement corrélées à la mortalité à un an comme entrées du modèle. Ces sept caractéristiques étaient l’hémoglobine, le HDL-C, l’albumine, la créatinine sanguine, le NT-proBNP, l’ICC et les statines. Ils ont ensuite effectué une recherche d'hyperparamètres aléatoires en utilisant une validation croisée en 5 étapes et un bootstrap pour trouver la meilleure combinaison de paramètres et obtenir la meilleure zone sous la courbe (AUC).

Figure 4 : Processus de réglage des hyperparamètres
UN:Courbe des coefficients de l'opérateur de sélection et de rétrécissement absolu minimal (LASSO)
B:La meilleure combinaison de paramètres
C:Coefficients de corrélation entre les caractéristiques cliniques
D’après la figure 4, tous les coefficients de corrélation sont inférieurs à 0,80, ce qui indique qu’il n’y a pas de colinéarité sérieuse.Les 7 caractéristiques cliniques ci-dessus ont été utilisées pour former le modèle de régression logistique et 3 modèles de prédiction d’apprentissage automatique.Après la formation et l'optimisation du modèle, les hyperparamètres optimaux pour chaque modèle sont présentés dans le tableau suivant :

Tableau 1 : Hyperparamètres optimaux pour chaque modèle
Résultats expérimentaux
D'après les performances globales de chaque modèle :
* Le score de Brier du modèle de régression logistique (LR) est de 0,116
* Le score Brier du modèle Gradient Boosting Machine (GBM) est de 0,114
* Le score de Brier du modèle d'arbre de décision (DT) est de 0,143
* Le score de Brier du modèle Random Forest (RF) est de 0,126
La figure suivante montre les résultats de l’analyse de chaque modèle :

Figure 5 : AUC, courbe d'étalonnage, courbe de décision et valeur SHAP de chaque modèle
D:Performances globales de chaque modèle
E:Courbes d'étalonnage pour chaque modèle
F:Courbes de décision pour chaque modèle
G:Carte thermique des valeurs SHAP
H:Analyse de l'importance des fonctionnalités basée sur SHAP
Selon la figure 5, les conclusions suivantes peuvent être tirées :
1. Les AUC des modèles LR, GBM, DT et RF sont respectivement de 0,827, 0,836, 0,760 et 0,829.
2. Les courbes d’étalonnage montrent que tous les modèles ont de bons effets d’étalonnage. Parmi eux, le modèle GBM a le meilleur effet.
3. L’analyse de la courbe de décision a montré que le modèle GBM et le modèle LR présentaient tous deux une bonne praticabilité clinique.
4. Sur la base du modèle GBM, les chercheurs ont analysé plus en détail l’importance des caractéristiques cliniques significatives dans l’ensemble de la population. En analysant les valeurs SHAP individuelles et moyennes, il a été constaté que les trois principales caractéristiques associées à la mortalité à un an étaient le NT-proBNP, l'albumine et les statines.
| FORME: Explication de Shaley Additive, contribution aux fonctionnalités. En analysant la valeur SHAP, les chercheurs peuvent obtenir des explications sur les résultats de prédiction et comprendre comment chaque caractéristique affecte les prédictions du modèle, permettant ainsi de mieux comprendre et expliquer le comportement du modèle.
En résumé, les chercheurs ont suggéré que même si les modèles des études précédentes avaient une performance prédictive élevée, ils n’étaient pas adaptés à une application clinique en raison d’un trop grand nombre de variables. Dans cette étude, les chercheurs ont utilisé avec succès sept caractéristiques pour développer un modèle permettant de prédire la mortalité à un an.Les résultats montrent que le modèle GBM a une AUC allant jusqu'à 0,836 et un score de Brier de 0,116, avec les meilleures performances de prédiction globales.
Il convient de noter que pour faciliter davantage les applications cliniques, les chercheurs ont également conçu une application en ligne qui demande uniquement aux médecins de remplir les paramètres du patient pour prédire la probabilité de décès dans un délai d'un an. De cette façon, les médecins peuvent prendre des mesures favorables aux patients à haut risque le plus tôt possible afin d’augmenter la probabilité de survie du patient.
L’IA dans le domaine médical a un brillant avenir, mais nous ne devons pas être aveuglément optimistes
Avec la maturité progressive de l’interaction vocale de l’IA, de la vision par ordinateur, de l’informatique cognitive, de l’apprentissage en profondeur et d’autres technologies, les scénarios d’application de l’IA dans le domaine médical deviennent de plus en plus diversifiés.Cela implique de multiples directions telles que l’imagerie médicale, les assistants virtuels, le développement de médicaments, la gestion de la santé, l’analyse des dossiers médicaux/de la littérature et la gestion de la prédiction des maladies.
Selon le Livre bleu 2020 sur le développement de l'industrie médicale de l'intelligence artificielle de l'Académie chinoise des technologies de l'information et des communications,Bien que le domaine médical de l'IA nationale ait démarré tardivement, la demande du marché est forte et les perspectives de développement futur sont larges.Parmi eux, il convient de noter qu'à la fin de 2019, la proportion de la population âgée de 65 ans et plus dans le pays a atteint 12,6%, ce qui signifie que la Chine est officiellement entrée dans une société vieillissante. En conséquence, l’incidence des maladies chroniques augmente également d’année en année.
Dans ce contexte, les résultats liés à la prédiction des maladies représentés par cette étude ont vu le jour, ce qui peut aider efficacement les médecins et les patients à mieux gérer leur santé. Cependant, d’un autre côté, nous devons également constater que, compte tenu de la situation générale du marché, les technologies liées à l’IA n’ont pas encore été appliquées à grande échelle dans les hôpitaux, et les hôpitaux ne sont pas disposés à payer. Cela est étroitement lié aux habitudes d’utilisation et de paiement des utilisateurs, aux infrastructures de soutien telles que les polices d’assurance médicale et à la grande complexité des scénarios d’application clinique.Il reste donc encore un long chemin à parcourir dans le domaine des soins médicaux basés sur l’IA.
Liens de référence :
[1] https://doi.org/10.5334/gh.934
[2] https://doi.org/10.1111/1753-0407.13175
[3] https://doi.org/10.1007/s001250051352
[4] https://doi.org/10.1186/1475-2840-5-15
[5]https://rs.yiigle.com/CN112148202107/1328929.htm
[6]http://www.caict.ac.cn/kxyj/qwfb/ztbg/202009/P020200910495521359097.pdf