Codage automatique des ICD exploitant la structure discursive et les embeddings de codes reconciliés

La Classification internationale des maladies (CIM) constitue la base des statistiques sanitaires et de l’épidémiologie mondiales. La CIM a pour objectif de traduire les états de santé en codes alphanumériques. Plusieurs approches ont été proposées pour une codification automatique de la CIM, car le codage manuel est fastidieux et que le monde souffre d’un déficit mondial de personnel de santé. Toutefois, les études existantes n’ont pas exploité la structure discursive des notes cliniques, qui fournit des informations contextuelles riches pour l’affectation des codes. Dans cet article, nous exploitons la structure discursive en tirant parti de la classification des types de sections et des embeddings associés aux types de sections. Nous nous concentrons également sur le problème de déséquilibre des classes ainsi que sur les différences de style d’écriture entre les notes cliniques et les définitions des codes CIM. La méthode proposée, basée sur des embeddings réconciliés, permet de traiter ces deux défis simultanément. Les résultats expérimentaux sur le jeu de données MIMIC montrent que notre modèle surpassent largement tous les modèles d’état de l’art précédents. Le code source est disponible à l’adresse suivante : https://github.com/discnet2022/discnet