BioBERTpt - Un modèle linguistique neuronal portugais pour la reconnaissance d'entités nommées cliniques

Face à l’augmentation croissante des données des dossiers de santé électroniques, les tâches de traitement du langage naturel (NLP) cliniques sont devenues de plus en plus pertinentes pour extraire des informations précieuses à partir de textes cliniques non structurés. Bien que les performances des tâches NLP en aval, telles que la reconnaissance d’entités nommées (NER), aient récemment progressé dans les corpus en anglais grâce aux modèles linguistiques contextualisés, peu de recherches sont disponibles concernant les textes cliniques dans les langues à faibles ressources. Notre objectif est d’évaluer un modèle d’encodage contextuel profond pour le portugais, appelé BioBERTpt, afin de soutenir la NER clinique et biomédicale. Nous transférons les connaissances apprises dans un modèle multilingue BERT vers des corpus de récits cliniques et de publications biomédicales en portugais brésilien. Pour évaluer les performances de BioBERTpt, nous avons mené des expériences de NER sur deux corpus annotés contenant des récits cliniques, et comparé les résultats aux modèles BERT existants. Notre modèle adapté au domaine a surpassé le modèle de base en score F1 de 2,72 %, atteignant une performance supérieure dans 11 des 13 entités évaluées. Nous démontrons que l’enrichissement des modèles d’encodage contextuel par des littératures spécialisées peut jouer un rôle crucial dans l’amélioration des performances pour des tâches NLP spécifiques. Le processus d’apprentissage par transfert a permis d’améliorer le modèle de NER biomédicale en portugais en réduisant la nécessité de données étiquetées et la demande de re-entraînement d’un nouveau modèle complet.