Mimic-IV-ICD : Un nouveau benchmark pour la classification multi-label extrême

Les notes cliniques sont attribuées des codes ICD — des séries de codes désignant les diagnostics et les procédures. Ces dernières années, des modèles prédictifs basés sur l’apprentissage automatique ont été développés pour automatiser le codage ICD. Toutefois, un manque persiste en matière de référentiels largement acceptés pour évaluer les modèles automatisés de codage ICD, fondés sur de grandes bases de données publiques de dossiers médicaux électroniques (DME).Ce papier propose une suite de référentiels publics pour le codage ICD-10, basée sur un grand jeu de données de DME dérivé de MIMIC-IV, la plus récente base de données publique de DME. Nous mettons en œuvre et comparons plusieurs méthodes courantes pour les tâches de prédiction de codage ICD, afin de standardiser le prétraitement des données et d’établir un jeu de données complet pour le benchmark de codage ICD. Cette approche favorise la reproductibilité des résultats et la comparaison entre modèles, accélérant ainsi l’adoption du codage ICD automatisé dans les études futures. En outre, nous avons créé un nouveau référentiel pour ICD-9 à partir des données MIMIC-IV, offrant un plus grand nombre de points de données et un plus grand nombre de codes ICD que MIMIC-III. Notre code open source permet un accès facile aux étapes de traitement des données, à la création des benchmarks et à la réplication des expériences pour les chercheurs ayant accès à MIMIC-IV, fournissant ainsi des insights, des orientations et des protocoles pour développer efficacement des modèles de codage ICD.