HyperAIHyperAI
il y a 17 jours

Amélioration de la reconnaissance d'entités nommées en biomédecine grâce à l'information syntaxique

{Kenli Li, Min He, Fei Xia, Yan Song, Wang Shen, Yuanhe Tian}
Résumé

La reconnaissance d'entités nommées en biomédecine (BioNER) est une tâche cruciale pour comprendre les textes biomédicaux, qui peut s'avérer difficile en raison du manque de données d'entraînement étiquetées à grande échelle et du besoin de connaissances spécifiques au domaine. Pour relever ce défi, outre l'utilisation d'encodeurs puissants (tels que biLSTM ou BioBERT), une approche possible consiste à exploiter des connaissances supplémentaires faciles à obtenir. Des études antérieures ont montré que les informations syntaxiques automatiquement traitées peuvent constituer une ressource utile pour améliorer les performances des modèles, mais leurs méthodes se limitent à la concaténation directe des embeddings syntaxiques aux embeddings des mots d'entrée. Par conséquent, ces informations syntaxiques sont exploitées de manière rigide, ce qui peut nuire aux performances du modèle si elles sont imprecises. Dans cet article, nous proposons BIOKMNER, un modèle de BioNER pour les textes biomédicaux basé sur des réseaux de mémoire clé-valeur (KVMN), afin d'intégrer efficacement les informations syntaxiques automatiquement traitées. Nous évaluons BIOKMNER sur six jeux de données biomédicaux en anglais, où notre méthode utilisant le KVMN surpasse systématiquement la méthode de référence forte, à savoir BioBERT, dans toutes les évaluations. Plus précisément, les scores F1 de notre meilleur modèle atteignent 85,29 % sur BC2GM, 77,83 % sur JNLPBA, 94,22 % sur BC5CDR-chemical, 90,08 % sur NCBI-disease, 89,24 % sur LINNAEUS et 76,33 % sur Species-800, avec des performances de pointe sur quatre d'entre eux (à savoir BC2GM, BC5CDR-chemical, NCBI-disease et Species-800). Les résultats expérimentaux sur les six jeux de données de référence en anglais démontrent que les informations syntaxiques automatiquement traitées peuvent constituer une ressource précieuse pour la BioNER, et que notre méthode basée sur le KVMN permet d'exploiter de manière appropriée ces informations afin d'améliorer les performances du modèle.

Amélioration de la reconnaissance d'entités nommées en biomédecine grâce à l'information syntaxique | Articles de recherche récents | HyperAI