Explication du codage automatisé des notes cliniques à l'aide de réseaux d'attention hiérarchiques par étiquette et d'initialisation d'embedding d'étiquettes

Le codage diagnostique ou procédural des notes cliniques vise à élaborer un résumé codifié d'informations liées aux maladies des patients. Ce type de codage est généralement effectué manuellement dans les hôpitaux, mais pourrait potentiellement être automatisé pour améliorer l'efficacité et la précision du codage médical. Des études récentes sur l'apprentissage profond pour le codage médical automatisé ont obtenu des performances prometteuses. Cependant, l'explicabilité de ces modèles est généralement faible, ce qui empêche leur utilisation en toute confiance pour soutenir la pratique clinique. Une autre limitation est que ces modèles supposent souvent l'indépendance entre les étiquettes, ignorant ainsi les corrélations complexes entre les codes médicaux qui pourraient être exploitées pour améliorer les performances.Nous proposons un Réseau d'Attention Hiérarchique par Étiquette (HLAN), dont l'objectif est d'interpréter le modèle en quantifiant l'importance (sous forme de poids d'attention) des mots et des phrases liés à chacune des étiquettes. Deuxièmement, nous proposons d'améliorer les principaux modèles d'apprentissage profond grâce à une approche d'initialisation par plongement d'étiquette (Label Embedding - LE), qui apprend une représentation vectorielle dense et continue puis injecte cette représentation dans les couches finales et les couches d'attention par étiquette des modèles.Nous avons évalué ces méthodes dans trois configurations différentes sur les résumés de sortie de l'hôpital MIMIC-III : codes complets, top-50 codes et codes de protection contre le COVID-19 du NHS britannique. Des expériences ont été menées pour comparer HLAN et l'initialisation LE aux méthodes neuronales basées sur les réseaux de neurones les plus avancées actuellement disponibles. HLAN a obtenu le meilleur AUC au niveau micro et $F_1$ pour la prédiction des top-50 codes, ainsi que des résultats comparables à ceux des autres modèles pour la prédiction des codes de protection contre le COVID-19 du NHS britannique. En mettant en évidence les mots et phrases les plus pertinents pour chaque étiquette, HLAN a montré une interprétation du modèle plus significative et complète par rapport à ses versions simplifiées et aux modèles basés sur CNN. L'initialisation LE a systématiquement amélioré la plupart des modèles d'apprentissage profond utilisés pour le codage médical automatisé.