HyperAIHyperAI

Command Palette

Search for a command to run...

BioRED : Un Jeu de Données Riche pour l’Extraction de Relations Biomédicales

Ling Luo Po-Ting Lai Chih-Hsuan Wei Cecilia N Arighi Zhiyong Lu

Résumé

L'extraction automatique de relations (RE) à partir de la littérature biomédicale est cruciale pour de nombreuses applications d'exploration de texte en aval, tant dans le cadre de la recherche que dans des contextes réels. Cependant, la plupart des jeux de données de référence existants pour l'RE biomédicale se concentrent uniquement sur des relations d'un seul type (par exemple, les interactions protéine-protéine) au niveau de la phrase, ce qui limite considérablement le développement des systèmes d'RE en biomédecine. Dans cette étude, nous passons en revue tout d'abord les jeux de données couramment utilisés pour la reconnaissance d'entités nommées (NER) et l'RE. Nous présentons ensuite BioRED, un corpus d'RE biomédicale unique en son genre comprenant plusieurs types d'entités (par exemple, gène/protéine, maladie, chimique) et des paires de relations (par exemple, gène-maladie ; chimique-chimique) au niveau du document, basé sur un ensemble de 600 résumés PubMed. De plus, nous étiquetons chaque relation comme décrivant soit une découverte nouvelle, soit une connaissance antérieure déjà connue, permettant ainsi aux algorithmes automatisés de distinguer entre les informations nouvelles et celles du contexte. Nous évaluons l'utilité de BioRED en testant plusieurs méthodes actuelles de pointe, y compris les modèles basés sur BERT, sur les tâches NER et RE. Nos résultats montrent que si les approches existantes peuvent atteindre une performance élevée sur la tâche NER (score F de 89,3 %), il reste beaucoup à améliorer pour la tâche RE, en particulier lors de l'extraction de relations nouvelles (score F de 47,7 %). Nos expériences démontrent également que l'utilisation d'un tel jeu de données riche peut faciliter avec succès le développement de systèmes d'RE plus précis, efficaces et robustes pour la biomédecine. Le jeu de données BioRED et le guide d'annotation sont librement disponibles à l'adresse https://ftp.ncbi.nlm.nih.gov/pub/lu/BioRED/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp