Prédiction du Code Médical à partir du Résumé de Sortie : Utilisation de BERT pour la Séquence de Documents avec l'Attention Séquentielle

Les notes cliniques sont des textes non structurés générés par les cliniciens lors des consultations avec les patients. Ces notes sont généralement accompagnées d'un ensemble de codes métadonnées issus de la Classification internationale des maladies (CIM). Le code CIM est un code important utilisé dans diverses opérations, notamment l'assurance, le remboursement et le diagnostic médical. Il est donc crucial de classer ces codes rapidement et avec précision. Cependant, l'annotation de ces codes est coûteuse et chronophage. Nous proposons donc un modèle basé sur les représentations bidirectionnelles du codage par transformateurs (BERT), utilisant la méthode d'attention séquentielle pour l'attribution automatique des codes CIM. Nous évaluons notre approche sur l'ensemble de données de référence Medical Information Mart for Intensive Care III (MIMIC-III). Notre modèle a atteint une performance avec un F1 moyen macro : 0,62898 et un F1 moyen micro : 0,68555, surpassant ainsi les performances du modèle d'avant-garde actuel utilisant l'ensemble de données MIMIC-III. La contribution de cette étude propose une méthode d'utilisation de BERT qui peut être appliquée aux documents, ainsi qu'une méthode d'attention séquentielle capable de capturer les informations séquentielles importantes présentes dans les documents.