Une approche BiLSTM-CRF basée sur l'attention pour la reconnaissance de noms chimiques au niveau du document
Motivation : En recherche biomédicale, les composés chimiques constituent une catégorie importante d'entités, et la reconnaissance d'entités nommées chimiques (NER) représente une tâche fondamentale dans le domaine de l'extraction d'informations biomédicales. Toutefois, la plupart des méthodes courantes de NER chimique reposent sur des approches d'apprentissage automatique traditionnelles, dont les performances dépendent fortement de l'ingénierie des caractéristiques. En outre, ces méthodes sont généralement conçues au niveau de la phrase, ce qui entraîne un problème de cohérence dans l'étiquetage. Résultats : Dans cet article, nous proposons une approche basée sur un réseau de neurones, à savoir un modèle d'attention combiné à un Long Short-Term Memory bidirectionnel et une couche de champ aléatoire conditionnel (Att-BiLSTM-CRF), destiné à la reconnaissance d'entités chimiques au niveau du document. Cette méthode exploite les informations globales du document obtenues via un mécanisme d'attention afin d'assurer une cohérence dans l'étiquetage pour plusieurs occurrences du même mot au sein d'un même document. Elle obtient des performances supérieures avec une ingénierie de caractéristiques minimale par rapport à d'autres méthodes de pointe sur le corpus BioCreative IV pour la reconnaissance des noms de composés chimiques et de médicaments (CHEMDNER) ainsi que sur le corpus de la tâche BioCreative V sur les relations chimie-maladie (CDR), atteignant respectivement des scores F de 91,14 % et 92,57 %. Disponibilité et mise en œuvre : Les données et le code sont disponibles à l'adresse suivante : https://github.com/lingluodlut/Att-ChemdNER. Contact : [email protected] ou [email protected]. Informations complémentaires : Les données supplémentaires sont disponibles en ligne sur Bioinformatics.