Amélioration de la cohérence des étiquettes dans la reconnaissance nommée aux niveaux document

La reconnaissance d'entités nommées (NER) constitue une étape fondamentale dans l'extraction d'informations à partir de documents dans les applications biomédicales. Un avantage notable de la NER réside dans sa capacité à extraire de manière cohérente des entités biomédicales dans un contexte documentaire. Bien que les modèles actuels de NER documentaire produisent des prédictions relativement stables, ils ne répondent pas encore entièrement à nos attentes. Nous avons examiné si les adjectifs et prépositions inclus dans une entité contribuent à une faible cohérence des étiquettes, entraînant ainsi des prédictions incohérentes. Dans cet article, nous présentons notre méthode, ConNER, qui renforce la dépendance des étiquettes des modificateurs (tels que les adjectifs et les prépositions) afin d’obtenir une meilleure concordance des étiquettes. ConNER affine les étiquettes provisoires des modificateurs afin d’améliorer les représentations de sortie des entités biomédicales. L’efficacité de notre approche est démontrée sur quatre jeux de données populaires en NER biomédicale ; en particulier, elle se traduit par une amélioration absolue de 7,5 à 8,6 % du score F1 sur deux de ces jeux de données. Nous interprétons que notre méthode ConNER s’avère particulièrement efficace sur des jeux de données présentant une faible cohérence intrinsèque des étiquettes. L’analyse qualitative illustre comment notre approche permet au modèle de NER de générer des prédictions cohérentes. Notre code et les ressources associées sont disponibles à l’adresse suivante : https://github.com/dmis-lab/ConNER/.