HyperAIHyperAI
il y a 2 mois

Reconnaissance d'entités nommées biomédicales à grande échelle

Veysel Kocaman; David Talby
Reconnaissance d'entités nommées biomédicales à grande échelle
Résumé

La reconnaissance d'entités nommées (NER) est une tâche de traitement du langage naturel largement applicable et constitue un élément fondamental des systèmes de réponse aux questions, de modélisation des sujets et de recherche d'information, entre autres. Dans le domaine médical, la NER joue un rôle crucial en extrayant des segments pertinents à partir de notes cliniques et de rapports, qui sont ensuite utilisés pour des tâches en aval telles que la détection du statut d'affirmation, la résolution d'entités, l'extraction de relations et la déidentification. En réimplémentant une architecture de deep learning Bi-LSTM-CNN-Char sur Apache Spark, nous présentons un modèle NER unique et entraînable qui obtient des résultats inédits sur sept benchmarks biomédicaux publics sans utiliser des plongements contextuels lourds comme BERT. Cela inclut une amélioration du BC4CHEMD à 93,72 % (gain de 4,1 %), du Species800 à 80,91 % (gain de 4,6 %) et du JNLPBA à 81,29 % (gain de 5,2 %). De plus, ce modèle est librement disponible dans une base de code opérationnelle faisant partie de la bibliothèque open-source Spark NLP ; il peut être mis à l'échelle pour l'entraînement et l'inférence dans n'importe quel cluster Spark ; il dispose d'un support GPU et de bibliothèques pour des langages populaires tels que Python, R, Scala et Java ; et il peut être étendu pour prendre en charge d'autres langues humaines sans modification du code.

Reconnaissance d'entités nommées biomédicales à grande échelle | Articles de recherche récents | HyperAI