HyperAIHyperAI
il y a 2 mois

BioFLAIR : Embeddings contextuels pré-entraînés pour les tâches d'étiquetage de séquences biomédicales

Shreyas Sharma; Ron Daniel Jr
BioFLAIR : Embeddings contextuels pré-entraînés pour les tâches d'étiquetage de séquences biomédicales
Résumé

La reconnaissance d'entités nommées biomédicales (NER) est un problème complexe dans le traitement de l'information biomédicale en raison de l'ambiguïté répandue des termes hors contexte et des variations lexicales importantes. Les performances sur les benchmarks de bioNER continuent de s'améliorer grâce aux avancées telles que BERT, GPT et XLNet. FLAIR (1) est un modèle d'embedding alternatif qui est moins exigeant en termes de calculs par rapport aux autres modèles mentionnés. Nous avons testé FLAIR et ses embeddings préentraînés sur PubMed (que nous appelons BioFLAIR) sur une variété de tâches de bio NER et comparé ces résultats avec ceux obtenus par des réseaux du type BERT. Nous avons également examiné les effets d'un préentraînement supplémentaire limité sur le contenu de PubMed, ainsi que ceux de la combinaison des modèles FLAIR et ELMO. Nous avons constaté que, avec les embeddings fournis, FLAIR performe au même niveau que les réseaux BERT - établissant même un nouveau standard dans un benchmark. Le préentraînement supplémentaire n'a pas apporté un avantage clair, bien que cela pourrait changer si un préentraînement encore plus important était effectué. L'empilement des embeddings FLAIR avec d'autres modèles améliore généralement les résultats des benchmarks.