Amélioration par injection de connaissances et ajustement fin basé sur des invites pour le codage ICD multi-étiquettes à faibles effectifs

La classification automatique internationale des maladies (ICD) vise à attribuer plusieurs codes ICD à une note médicale d'une longueur moyenne de plus de 3 000 jetons. Cette tâche est complexe en raison de l'espace multidimensionnel d'attribution multietiquette (des dizaines de milliers de codes ICD) et du défi de la queue longue : seuls quelques codes (maladies courantes) sont fréquemment attribués, tandis que la majorité des codes (maladies rares) le sont rarement. Cette étude aborde le défi de la queue longue en adaptant une technique d'affinage basée sur des prompts avec sémantique des étiquettes, qui a été montrée comme efficace dans un contexte à faible nombre d'exemples. Pour améliorer davantage les performances dans le domaine médical, nous proposons un Longformer enrichi par des connaissances en injectant trois types de connaissances spécifiques au domaine : hiérarchie, synonymes et abréviations, avec un préapprentissage supplémentaire utilisant l'apprentissage par contraste. Les expériences menées sur MIMIC-III-full, un jeu de données de référence pour l'attribution des codes, montrent que notre méthode proposée surpassent la méthode précédente considérée comme l'état de l'art avec une amélioration de 14,5 % en F1 macro (de 10,3 à 11,8, P<0,001). Pour tester davantage notre modèle dans un contexte à faible nombre d'exemples, nous avons créé un nouveau jeu de données pour le codage des maladies rares, MIMIC-III-rare50, sur lequel notre modèle améliore l'F1 macro de 17,1 à 30,4 et l'F1 micro de 17,2 à 32,6 par rapport à la méthode précédente.