HyperAIHyperAI

Command Palette

Search for a command to run...

BioBERT : un modèle de représentation linguistique pré-entraîné pour l'exploration textuelle biomédicale

Jinhyuk Lee Wonjin Yoon Sungdong Kim Donghyeon Kim Sunkyu Kim Chan Ho So Jaewoo Kang

Résumé

L'exploration de texte biomédical gagne en importance avec la croissance rapide du nombre de documents biomédicaux. Grâce aux progrès réalisés dans le traitement automatique des langues (TAL), l'extraction d'informations précieuses à partir de la littérature biomédicale a connu un regain de popularité parmi les chercheurs, et l'apprentissage profond a accéléré le développement de modèles efficaces d'exploration de texte biomédical. Cependant, l'application directe des avancées du TAL à l'exploration de texte biomédical produit souvent des résultats insatisfaisants en raison du décalage de distribution des mots entre les corpus généraux et les corpus biomédicaux. Dans cet article, nous examinons comment le modèle de langage pré-entraîné BERT peut être adapté aux corpus biomédicaux. Nous présentons BioBERT (Représentations bidirectionnelles d'encodeurs issus des transformateurs pour l'exploration de texte biomédical), qui est un modèle de représentation linguistique spécifique au domaine pré-entraîné sur des corpus biomédicaux à grande échelle. Avec une architecture presque identique pour toutes les tâches, BioBERT surpasse largement BERT et les modèles précédents considérés comme l'état de l'art dans diverses tâches d'exploration de texte biomédical lorsqu'il est pré-entraîné sur des corpus biomédicaux. Bien que BERT obtienne des performances comparables à celles des modèles précédents considérés comme l'état de l'art, BioBERT les dépasse significativement dans les trois tâches représentatives suivantes d'exploration de texte biomédical : reconnaissance d'entités nommées en biologie médicale (amélioration du score F1 de 0,62 %), extraction de relations en biologie médicale (amélioration du score F1 de 2,80 %) et réponse à des questions en biologie médicale (amélioration du taux moyen de pertinence (MRR) de 12,24 %). Nos résultats d'analyse montrent que le pré-entraînement de BERT sur des corpus biomédicaux lui permet une meilleure compréhension des textes complexes en biologie médicale. Nous mettons librement à disposition les poids pré-entraînés de BioBERT sur https://github.com/naver/biobert-pretrained, ainsi que le code source pour le réglage fin (fine-tuning) de BioBERT sur https://github.com/dmis-lab/biobert.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp