Résoudre Le Problème De La « Boîte Noire » Des Prévisions De Séries Chronologiques ! L'Université Des Sciences Et Technologies De Huazhong a Proposé Le CGS-Mask Pour Révéler Les Indicateurs Clés Du Taux De Survie Des Patients

Avec l’application généralisée de la technologie de l’IA dans notre vie quotidienne,L’« interprétabilité » du modèle est progressivement devenue une question à laquelle il faut répondre.Surtout lorsqu'il s'agit de tâches impliquant la vie humaine et la sécurité des biens, cet algorithme de « boîte noire » non seulement sape la confiance des utilisateurs dans les systèmes d'IA, mais provoque également une série de problèmes, tels que la sécurité et la discrimination.
Ce problème est particulièrement important dans les tâches de prévision de séries chronologiques.Les prévisions de séries chronologiques impliquent plusieurs secteurs clés, notamment, mais sans s'y limiter, les prévisions boursières, les prévisions de maladies, les prévisions énergétiques, les prévisions météorologiques, etc. Dans les tâches de ces domaines, il est essentiel de comprendre les raisons qui sous-tendent les décisions de l'IA.Prenons l’exemple de la prédiction des maladies : les médecins et les patients doivent non seulement connaître les résultats de prédiction de l’IA, mais aussi comprendre comment ces résultats sont obtenus. S’ils peuvent clairement indiquer quels symptômes jouent un rôle clé dans le diagnostic, cela renforcera la confiance des médecins et des patients dans le diagnostic médical assisté par l’IA.
Afin de faire de la prédiction des séries chronologiques non seulement un nombre précis, mais un processus « visible »,L'équipe Lu Feng de l'Université des sciences et technologies de Huazhong, en collaboration avec l'équipe Zomaya de l'Université de Sydney et de l'hôpital Tongji, a proposé une nouvelle méthode, CGS-Mask.En combinant la prévision des séries chronologiques avec l’interprétabilité, cette méthode peut non seulement améliorer la précision de la prédiction du modèle, mais également rendre les résultats de prévision plus intuitifs et interprétables.
Concrètement, en introduisant un mécanisme de masquage, le modèle peut mettre en évidence quels moments et quelles données ont le plus d’impact sur le résultat final, tout comme le marquage clair des panneaux importants sur la route pour vous lorsque vous conduisez, afin que vous compreniez pourquoi vous avez pris la décision de tourner ou de ralentir.Cette approche a de vastes applications potentielles dans des domaines tels que la santé, l’astronomie, les capteurs et l’énergie, en particulier dans les tâches de prévision de séries chronologiques qui nécessitent une interaction avec les utilisateurs.
Cette réalisation, intitulée « CGS-Mask : Making Time Series Predictions Intuitive for All », a été acceptée pour publication dans les actes de la 38e conférence AAAI sur l'intelligence artificielle (AAAI'24), l'une des plus importantes conférences mondiales sur l'intelligence artificielle.
Points saillants de la recherche :
* Comparé aux méthodes traditionnelles, CGS-Mask peut montrer plus clairement quelles périodes de temps sont les plus importantes pour les résultats de prévision et quels facteurs ne sont pas importants, ce qui permet aux utilisateurs de mieux comprendre le processus de prévision.
* CGS-Mask convient à diverses tâches de prévision de séries chronologiques, en particulier celles qui nécessitent une interaction de l'utilisateur et une explication des résultats, telles que les prévisions boursières, les prévisions de maladies et les prévisions météorologiques.
* CGS-Mask est supérieur aux autres méthodes en termes de précision, d’interprétabilité et d’intuitivité. Il réduit le problème de la « boîte noire » et améliore la transparence du modèle. Grâce à cette méthode, les non-professionnels peuvent également comprendre les résultats de prédiction du modèle, ce qui est plus convivial et améliore l’applicabilité et la crédibilité du modèle.
* À l’avenir, les chercheurs amélioreront activement le CGS-Mask et travailleront à prouver l’applicabilité du CGS-Mask dans davantage d’applications de séries chronologiques, en particulier dans le domaine des soins de santé, où la méthode peut être utilisée pour identifier des caractéristiques significatives des dossiers médicaux afin de révéler l’apparition, le développement et la détérioration des maladies.

Adresse du document :
https://ojs.aaai.org/index.php/AAAI/article/view/29325
Suivez le compte officiel et répondez « Time Series Forecast » pour obtenir le PDF complet
Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :
https://github.com/hyperai/awesome-ai4s
Ensembles de données : données synthétiques et du monde réel, couvrant les soins de santé, l'astronomie, les capteurs et l'énergie
Les chercheurs ont sélectionné quatre ensembles de données synthétiques :Il s'agit respectivement de « caractéristiques rares », de « temps rare », de « mélange » et de « aléatoire ».
* Les ensembles de données de caractéristiques rares et de temps rares contiennent respectivement un petit nombre de caractéristiques significatives et un petit nombre de points temporels significatifs.
* L'ensemble de données mixte est créé en combinant des caractéristiques rares et un temps rare
* aléatoire Les principales régions d'entrée de l'ensemble de données sont situées de manière aléatoire
Les ensembles de données du monde réel sélectionnés par les chercheurs sont : l'ensemble de données MIMIC-III, l'ensemble de données LSST, l'ensemble de données NATOPS et l'ensemble de données AE.Ces ensembles de données couvrent des domaines tels que les soins de santé, l’astronomie, les capteurs et l’énergie, et sont utilisés pour évaluer les performances du CGS-Mask dans différents domaines.
Ensemble de données MIMIC-III :Contient les dossiers médicaux de 40 000 patients en unité de soins intensifs (USI), chacun comportant 31 caractéristiques utilisées pour prédire le taux de survie du patient dans les 48 heures suivantes. Il s’agit d’une tâche de classification binaire dont le but est de distinguer si un patient survivra ou mourra.
Ensemble de données LSST :Simulez des données de séries chronologiques astronomiques en préparation des observations avec le Large Synoptic Survey Telescope. Le modèle de prédiction doit classer ces données en 14 catégories astronomiques différentes.
Ensemble de données NATOPS :Généré par des capteurs de reconnaissance de gestes, enregistrant les données des capteurs de la main, du coude, du poignet et du pouce. Ces données doivent être classées en 6 gestes différents.
Ensemble de données AE :L'ensemble de données de prévision énergétique des appareils électroménagers du référentiel UCI est utilisé pour prédire la consommation énergétique totale d'une maison. Il s’agit d’une tâche de régression et la sortie du modèle de prédiction est une valeur numérique qui représente la consommation totale d’énergie.
Architecture du modèle : Optimisation des masques à barres, CGS-Mask fournit des explications claires et intuitives des prévisions de séries chronologiques
CGS-Mask est une méthode de saillance basée sur le masque de bande génétique cellulaire. En combinant l'algorithme génétique cellulaire pour optimiser le masque de bande, il peut résoudre le problème de la « boîte noire » dans les tâches de prédiction de séries chronologiques et améliorer l'interprétabilité du modèle.
* Le masque à barres considère les étapes temporelles consécutives dans leur ensemble pour évaluer l’impact des caractéristiques, ce qui peut capturer efficacement la dépendance temporelle des données de séries chronologiques ; la valeur binaire (0 ou 1) du masque à barres améliore l'interprétabilité des résultats et rend le score de signification plus intuitif.
Les étapes spécifiques de l’optimisation du masque à barres sont les suivantes : tout d’abord, créer un ensemble de masques à barres et les mapper dans l’automate cellulaire ; ensuite, optimisez chaque masque en utilisant des opérations génétiques (telles que le croisement, la mutation et la traduction) pour le faire évoluer vers la génération suivante ; après N tours de générations, le masque avec la valeur de fitness la plus élevée sera sélectionné comme masque optimal. Le cadre général de CGS-Mask est illustré dans la figure ci-dessous :

Initialisation de la population :Une population de masques à barres est initialisée aléatoirement et ces masques sont mappés dans un automate cellulaire bidimensionnel.
Évaluation de la condition physique :Une valeur de fitness est calculée pour chaque masque à barres et évaluée par une erreur de perturbation définie, qui mesure l'impact du masque sur les prédictions du modèle.
Optimisation des opérateurs génétiques : chaque masque est optimisé à l'aide d'opérateurs génétiques tels que le croisement, la mutation et la traduction.
* Crossover : l'algorithme effectue une opération de croisement entre les masques voisins pour générer un nouveau masque. Dans CGS-Mask, les rayures sont l'unité de base des opérations génétiques. Les rayures du nouveau masque peuvent être héritées de l'un ou l'autre des parents.
* Mutation : Augmenter la diversité génétique en remplaçant les bandes du masque avec une certaine probabilité et empêcher l'algorithme de converger vers la solution optimale locale trop tôt.
* Traduction : Ajustez le décalage de position de la bande sur la timeline pour optimiser le masque de bande. Cela permet d’affiner la position des bandes afin qu’elles soient alignées plus précisément sur les véritables régions saillantes des données d’entrée.
Évolution itérative :En appliquant de manière itérative les opérateurs génétiques ci-dessus, les masques de la population évoluent en permanence pour trouver des masques avec des valeurs de fitness plus élevées.
Choisissez le masque optimal :Après N tours d'itérations, le masque avec la valeur de fitness la plus élevée est sélectionné comme masque optimal (Masque optimal M*).
En combinant des automates cellulaires et des algorithmes génétiques, CGS-Mask est capable d'optimiser efficacement les masques à barres pour fournir une interprétation claire et intuitive des prévisions de séries chronologiques. Cette méthode ne nécessite pas d’informations internes du modèle, elle est donc applicable à divers modèles de boîte noire et peut fournir rapidement aux utilisateurs des explications significatives.
Conclusion expérimentale : le CGS-Mask peut identifier efficacement les caractéristiques importantes qui changent au fil du temps et révéler les facteurs clés du développement et de la détérioration de la maladie.
Pour évaluer les performances de la méthode CGS-Mask, les chercheurs l’ont comparée à huit autres méthodes de saillance de pointe sur des ensembles de données synthétiques et réels. Ces méthodes incluent Dynamask, DeepLIFT, RISE, FIT, Shapley Value Sampling (SVS), Feature Occlusion (FO), Feature Permutation (FP) et Integrated Gradient (IG). Comme le montre la figure ci-dessous,Les résultats expérimentaux montrent que le CGS-Mask présente une plus grande précision dans la détermination des caractéristiques saillantes, indiquant qu'il est plus efficace pour identifier les caractéristiques saillantes qui changent au fil du temps.

Prenant comme exemple l'application dans le domaine de la santé, les chercheurs ont sélectionné l'ensemble de données MIMIC-III pour prédire le taux de survie du patient dans les 48 heures suivantes. La comparaison des différentes méthodes est présentée dans la figure suivante. La figure f est le résultat de la prédiction du masque CGS. La barre verte indique les caractéristiques clés liées au résultat du patient.Des études ont montré qu’une baisse de la pression artérielle, une tachycardie et un essoufflement indiquent tous un risque imminent de décès, et les médecins peuvent intervenir en temps opportun en fonction de ces caractéristiques.Cependant, d’autres méthodes comparatives n’identifient pas clairement la période et les caractéristiques qui conduisent à ce résultat, comme le montrent les figures (a) à (d).

Pour évaluer la lisibilité des masques générés, les chercheurs ont interrogé 254 participants de différents groupes d’âge (5 à 83 ans) et de différents niveaux de connaissances du domaine. Les résultats montrent quePlus de 651 utilisateurs de TP3T ont évalué CGS-Mask comme la méthode qui les a le mieux aidés à comprendre les caractéristiques saillantes et leurs corrélations temporelles, et plus de 851 utilisateurs de TP3T l'ont classé dans le top 3.
De plus, les chercheurs ont mené une étude pilote auprès des utilisateurs pour évaluer l'importance des fonctionnalités, le temps de réaction et la précision lors de la détermination de quatre fonctionnalités (A, B, C et D) dans un délai de 10 pas de temps à l'aide de trois masques de saillance (Q1, Q2 et Q3). Comme le montre la figure ci-dessous, le temps de réaction moyen des utilisateurs utilisant CGS-Mask (Q2) est de 6,26 secondes et la précision est de 85,4 %, tandis que le temps de réaction moyen des utilisateurs utilisant des masques numériques (Q1 et Q3) est de 19,22 secondes et la précision n'est que de 40,61 TP3T.Cela indique que CGS-Mask peut aider les utilisateurs à identifier l’importance des fonctionnalités plus rapidement et avec une plus grande précision.

En résumé, CGS-Mask, en tant que méthode de saillance indépendante du modèle, est non seulement intuitive et conviviale, mais peut également expliquer efficacement les prévisions de séries chronologiques. Il surpasse les solutions existantes sur les données synthétiques et réelles.En particulier dans le domaine médical, CGS-Mask a démontré une excellente capacité à identifier des caractéristiques importantes dans les dossiers médicaux, ce qui est d'une grande importance pour révéler l'apparition, le développement et la détérioration des maladies et présente un grand potentiel d'application.
Applications de pointe des modèles de prédiction de séries chronologiques dans le domaine médical
La prévision des séries chronologiques est l'analyse de données avec une séquence temporelle, visant à capturer les tendances, la saisonnalité et les modèles cycliques dans les données en construisant des modèles. Ces modèles peuvent non seulement prédire l’évolution des modèles de données historiques, mais également analyser les tendances de développement futures. Leurs applications sont très larges, couvrant de nombreux domaines tels que la finance, la météorologie, les soins médicaux, les transports et les prévisions énergétiques.
Dans le domaine médical, le premier auteur de cet article, le professeur Lu Feng de l'Université des sciences et technologies de Huazhong, continue de se concentrer sur l'application des modèles de prédiction de séquences.En plus des recherches ci-dessus, elle a également collaboré avec une équipe de l'Université de Sydney pour publier un article intitulé « A Composite Multi-Attention Framework for Intraoperative Hypotension Early Warning » dans les actes de la 37e conférence AAAI sur l'intelligence artificielle (AAAI'23).
Article original :
https://ojs.aaai.org/index.php/AAAI/article/view/26681

Dans cet article, les chercheurs ont proposé un cadre d’alerte de suivi pour l’hypotension peropératoire basé sur la multimodalité et le mécanisme d’attention. Des expériences sur deux ensembles de données réelles à grande échelle montrent que cette méthode peut atteindre une précision allant jusqu'à 94,1% pour l'alerte précoce des événements d'hypotension peropératoire, tout en réduisant considérablement le besoin de taux d'échantillonnage du signal de 3 000 fois. De plus, dans la tâche la plus difficile de prédiction de la pression artérielle moyenne sur 15 minutes, le cadre multimodal a atteint une erreur absolue moyenne de 4,48 mmHg, soit une réduction d'erreur de 42,91 % par rapport aux solutions existantes.
De même, une équipe de recherche de l’Université médicale de Nanjing a développé un modèle de séries chronologiques.Utilisé pour prédire l’incidence de l’hépatite. À l’aide de modèles saisonniers autorégressifs à moyenne mobile et de modèles saisonniers à lissage exponentiel, ils ont analysé le nombre de cas de différents types d’hépatite.
Des études ont montré que le mois de mars est chaque année la période de pointe pour divers types d’hépatite. Au cours des dix dernières années, l’incidence de l’hépatite A a généralement suivi une tendance à la baisse ; l’incidence de l’hépatite B a fluctué et a augmenté ces dernières années ; l’incidence de l’hépatite C a continué d’augmenter ; et l’incidence de l’hépatite E est restée fondamentalement stable. Ces résultats fournissent une base importante pour le développement de mesures de prévention et de contrôle de l’hépatite plus efficaces. L'étude, intitulée « Analyse des séries chronologiques et prévision des quatre tendances épidémiques d'hépatite en Chine de 2012 à 2021 », a été publiée dans le Journal de l'Université médicale de Nanjing (sciences naturelles).
En résumé, l’application de la technologie de prédiction des séries chronologiques dans le domaine médical a montré un grand potentiel. Avec les progrès continus de la science et de la technologie et l’abondance croissante des données, nous espérons voir à l’avenir des modèles et des méthodes de prévision de séries chronologiques plus innovants pour contribuer davantage à la santé et au bien-être humains.
Références :
https://mp.weixin.qq.com/s/8gYtFqcuctY0BqBYa1e_Hg
Enfin, recommandez une activité académique ! Cliquez sur l'image pour plus de détails↓
