Lire, analyser et coder : repousser les limites de la prédiction des codes médicaux à partir des notes cliniques par les machines

La prédiction de codes médicaux à partir de notes cliniques est à la fois une nécessité pratique et essentielle pour chaque organisation de soins de santé au sein des systèmes médicaux actuels. L'automatisation de l'annotation permettrait d'économiser un temps considérable et les efforts excessifs actuellement consacrés par les codificateurs humains. Cependant, le plus grand défi réside dans l'identification directe des codes médicaux appropriés parmi plusieurs milliers de codes à haute dimension à partir de notes cliniques non structurées en texte libre. Au cours des trois dernières années, grâce aux Réseaux Neuronaux Convolutifs (CNN) et aux Réseaux à Mémoire à Court et Long Terme (LSTM), il y a eu d'importants progrès dans la résolution du défi le plus ardu du jeu de données MIMIC-III-full-label pour les notes cliniques hospitalières. Ces avancées soulèvent la question fondamentale de savoir à quel point les systèmes d'apprentissage automatique (ML) automatisés sont éloignés des performances des codificateurs humains. Nous avons évalué la performance de base des codificateurs humains sur le même sous-ensemble d'essai. Nous présentons également notre modèle Read, Attend, and Code (RAC) pour apprendre les correspondances d'affectation des codes médicaux. En reliant les plongements convolus avec des modules d'auto-attention et d'attention guidée par les titres des codes, associés à des augmentations de données basées sur la permutation des phrases et à un entraînement par moyenne pondérée stochastique, RAC établit un nouveau niveau d'excellence (SOTA), surpassant largement le meilleur Macro-F1 actuel de 18,7 % et dépassant la performance de base du codage humain. Ce nouveau jalon marque une étape significative vers un codage médical entièrement autonome (AMC) où les machines atteignent une parité avec les performances des codificateurs humains dans la prédiction des codes médicaux.