BioRED : Un Jeu de Données Riche pour l’Extraction de Relations Biomédicales

L'extraction automatique de relations (RE) à partir de la littérature biomédicale est cruciale pour de nombreuses applications d'exploration de texte en aval, tant dans le cadre de la recherche que dans des contextes réels. Cependant, la plupart des jeux de données de référence existants pour l'RE biomédicale se concentrent uniquement sur des relations d'un seul type (par exemple, les interactions protéine-protéine) au niveau de la phrase, ce qui limite considérablement le développement des systèmes d'RE en biomédecine. Dans cette étude, nous passons en revue tout d'abord les jeux de données couramment utilisés pour la reconnaissance d'entités nommées (NER) et l'RE. Nous présentons ensuite BioRED, un corpus d'RE biomédicale unique en son genre comprenant plusieurs types d'entités (par exemple, gène/protéine, maladie, chimique) et des paires de relations (par exemple, gène-maladie ; chimique-chimique) au niveau du document, basé sur un ensemble de 600 résumés PubMed. De plus, nous étiquetons chaque relation comme décrivant soit une découverte nouvelle, soit une connaissance antérieure déjà connue, permettant ainsi aux algorithmes automatisés de distinguer entre les informations nouvelles et celles du contexte. Nous évaluons l'utilité de BioRED en testant plusieurs méthodes actuelles de pointe, y compris les modèles basés sur BERT, sur les tâches NER et RE. Nos résultats montrent que si les approches existantes peuvent atteindre une performance élevée sur la tâche NER (score F de 89,3 %), il reste beaucoup à améliorer pour la tâche RE, en particulier lors de l'extraction de relations nouvelles (score F de 47,7 %). Nos expériences démontrent également que l'utilisation d'un tel jeu de données riche peut faciliter avec succès le développement de systèmes d'RE plus précis, efficaces et robustes pour la biomédecine. Le jeu de données BioRED et le guide d'annotation sont librement disponibles à l'adresse https://ftp.ncbi.nlm.nih.gov/pub/lu/BioRED/.